Gemma 4 12B: 벤치마크, VRAM 요구사항 및 로컬 실행 방법

Google DeepMind는 2026년 6월 3일 Gemma 4 12B를 출시했습니다. 3일 뒤, 모두가 반복하는 숫자는 MMLU Pro 점수인 77.2%입니다. 이는 지난해 같은 테스트에서 67.6%를 기록한 Gemma 3 27B를 능가합니다. 120억 개 파라미터 모델이 270억 개 기함함을 능가하다니? 메모리는 절반 이하인데? 맞습니다. 라이선스도 바뀌었습니다. Gemma 4는 Apache 2.0 라이선스 하에서 출시되므로 상용 이용이 가능하며, 제약이 없습니다. 256K 토큰 컨텍스트 윈도우를 가지고 있으며, 양자화 후 약 6.6 GB의 VRAM에서 실행됩니다. 우리 대부분에게는 이 마지막 부분이 전부입니다: 이 모델은 중급형 GPU에 들어갑니다.

핵심 요약

Gemma 4 12B (2026년 6월 3일 출시)는 MMLU Pro에서 77.2%를 기록하며 지난해 Gemma 3 27B의 67.6%를 능가합니다.
Q4 K M 양자화로 약 6.6 GB VRAM에서 실행되며, 8GB GPU에 맞고, 약 16GB이면 충분한 여유가 있습니다.
Apache 2.0 라이선스 (상용 이용 가능), 256K 컨텍스트, 네이티브 오디오 + 이미지 입력, 인코더 없는 아키텍처입니다.
한 줄 명령어로 실행: ollama run gemma4:12b (7.6 GB 다운로드).

Gemma 4 12B란?

Gemma 4 12B는 Google DeepMind에서 2026년 6월 3일 Apache 2.0 라이선스로 출시한 120억 파라미터의 오픈 웨이트 모델입니다. 인코더 없는 통합 멀티모달 모델로, 텍스트, 이미지, 네이티브 오디오를 입력받아 텍스트를 출력합니다. 256K 토큰 컨텍스트 윈도우를 가지고 있으며 140개 언어를 지원합니다.

실제로 실행하는 인스트럭션 튜닝 버전은 gemma-4-12B-it라고 불리며 (여기서 "it"는 인스트럭션 튜닝 의미로, 채팅 준비가 된 버전입니다), 총 11.95B개의 파라미터를 가지고 있어서 "12B"는 약간 올림한 것입니다. 학습 데이터는 2025년 1월을 기준으로 합니다.

흥미로운 부분은 여기입니다: Gemma 4 12B는 네이티브 오디오 입력을 지원하는 첫 번째 중급형 Gemma 모델입니다. 별도의 오디오 인코더가 붙어 있지 않습니다. 원본 파형이 모델로 바로 투영됩니다. 이미지도 마찬가지입니다. 이런 설계 선택이 모델을 충분히 작게 유지해 단일 소비자 카드에서 실행할 수 있게 해주며, 그 이유는 잠시 뒤에 설명하겠습니다.

더 큰 그림을 먼저 원하신다면, 자신의 컴퓨터에서 오픈 모델을 실행하는 것에 관한 우리의 가이드에서 로컬 LLM이 처음이라면 설정 기본 사항을 다룹니다. Google의 공식 출시 게시물에는 전체 발표가 있습니다.

Gemma 4 12B 스펙 한눈에 보기

모두 검증됨, 한 표에 정리됨. 추측은 없습니다.

샘플링에 대해 한 가지 주의할 점: 달리 할 이유가 없다면 권장되는 temperature=1.0, top_p=0.95, top_k=64를 사용하세요. Gemma 모델은 낮은 온도에서 이상하게 동작하므로 다른 모델처럼 반사적으로 0.2로 낮추지 마세요.

인코더 없는 아키텍처는 어떻게 작동하나?

인코더 없다는 것은 이미지나 오디오를 언어 모델에 도달하기 전에 변환하는 별도의 모델이 없다는 뜻입니다. 비전 패치와 원본 오디오 파형은 얇은 선형 레이어를 통해 공유 임베딩 공간으로 직접 투영됩니다. 대부분의 멀티모달 모델은 무거운 비전 인코더를 LLM에 붙입니다. Gemma 4 12B는 그것을 건너뜁니다. 그래서 16GB에 들어갑니다.

이렇게 생각해보세요: 번역가 대 이중 언어자. 기존 방식은 이미지를 모델이 이해하는 언어로 변환하는 별도의 번역가(인코더)를 고용한 다음 그것을 전달합니다. Gemma 4 12B는 태어날 때부터 이중 언어입니다. 오디오와 이미지 데이터는 무거운 인코더 대신 가벼운 투영 레이어를 통해 모델의 네이티브 언어로 직접 말합니다.

내부적으로는 48개 레이어와 하이브리드 주의입니다. 대부분의 레이어는 1024 토큰 슬라이딩 윈도우를 사용하며 (저렴하고 로컬), 전체 컨텍스트를 보는 가끔의 글로벌 주의 레이어와 인터리브됩니다. 이 조합이 GPU를 녹이지 않으면서 256K 컨텍스트를 처리하는 방법입니다.

실질적인 이점: 인코더에 소비되는 파라미터가 적다는 것은 VRAM 예산의 더 많은 부분이 실제 추론에 사용된다는 뜻입니다. 이것이 12B 모델이 자신의 무게를 훨씬 상회하는 성능을 낼 수 있게 하는 거래입니다.

Gemma 4 12B 벤치마크: 실제 숫자

헤드라인은 사실입니다: Gemma 4 12B는 MMLU Pro에서 77.2%를 기록하며, 절반 이하의 VRAM에서 Gemma 3 27B의 67.6%를 능가합니다. 이는 커뮤니티 추정이 아닌 Google의 공식 인스트럭션 튜닝 (-it) 숫자입니다. 전체 세트는 다음과 같습니다.

12B 모델이 이제 MMLU Pro에서 지난해 27B 기함함을 능가합니다: 77.2% 대 67.6%. 이것이 하드웨어 계산을 다시 확인하게 만드는 세대 단위의 도약입니다.

두 가지 솔직한 주의사항이 있습니다. 첫째, 대시는 Google이 해당 행에 대해 Gemma 3 27B 숫자를 공개하지 않았다는 뜻이므로 셀은 추정치로 채워지는 대신 비어 있습니다. 둘째, 여기의 모든 점수는 인스트럭션 튜닝 모델입니다. 기본 모델 숫자는 다릅니다. HuggingFace 모델 카드와 DeepMind 모델 페이지에서 이 모든 것을 교차 확인할 수 있습니다.

Gemma 4 12B는 얼마나 많은 VRAM이 필요한가?

Gemma 4 12B는 Q4 K M 양자화에서 약 6.6 GB의 VRAM이 필요하므로, 8GB GPU에 맞습니다. 충분한 여유를 위해, 특히 256K 컨텍스트의 일부를 사용하려는 경우라면 16GB 이상의 VRAM 또는 통합 메모리를 목표로 하세요. 노트북에서 실행됩니다. M 시리즈 Mac은 통합 메모리를 통해 문제없이 처리합니다.

양자화는 모델 가중치에 대한 압축일 뿐입니다. 낮은 정밀도 숫자, 더 작은 파일, 약간의 정확도 손실. 일반적인 레벨의 매핑은 다음과 같습니다.

이 모델 주위의 하드웨어를 선택하는 경우, 우리가 벤치마크한 로컬 LLM 도구 정리에서 어느 백엔드가 주어진 카드에서 가장 많은 성능을 이끌어낼 수 있는지 다룹니다. 간단히 말해서: 12GB 카드는 Q4를 여유 있게 실행하고, 8GB 카드는 컨텍스트를 낮춘다면 Q4를 실행합니다.

Gemma 4 12B 속도: 실제 하드웨어 전반의 토큰/초

얼마나 빠른가? 이는 당신의 카드, 양자화, 백엔드에 따라 다르므로 한 숫자 대신 우리는 공개된 제3자 수치를 한 곳에 모았습니다. 이는 커뮤니티 테스터와 공급업체에 의해 보고되며 각 출처에 기여됩니다. 우리 자체 랩 숫자가 아닙니다.

현재 공개 데이터가 실제로 무엇을 말하는지에 대해 직설적으로 말씀하겠습니다. runaiathome은 6GB RTX 3060에서 약 6.6 GB Q4 K M 발자국 내에서 모델이 실행되는 것을 확인했으며, 이것이 지금까지 가장 구체적인 공개 하드웨어 보고서입니다. apxml의 스펙시트와 Ollama 라이브러리 페이지는 모델이 24GB RTX 4090에서 Q4로 로컬에 제공되는 것을 확인하고 실시간 채팅 영역에서 편하게 있지만, 정확한 지속적인 토큰/초 수치는 아직 그 카드에 대해 공개되지 않았습니다. Apple Silicon gemma4:12b-mlx 변형이 존재하고 실행되지만, 출시 후 3일 안에 신뢰할 수 있는 토큰/초 숫자가 나타나지 않았습니다.

이것이 계층별로 의미하는 바: RTX 3060 같은 6GB 카드에서는 로드하고 실행할 수 있을 것으로 기대하지만, 컨텍스트 윈도우는 낮춥니다. 24GB RTX 4090에서 Q4 K M로, 공개 보고서는 그것이 실시간 채팅 영역에서 편하게 있음을 나타냅니다. Apple Silicon에서는 MLX 빌드가 실행되지만 벤치마크 숫자는 여전히 나타나고 있습니다.

이는 공개된 제3자 수치이지 우리 랩 숫자가 아니므로, 대략적인 것으로 취급하세요. 당신의 토큰/초는 프롬프트 길이, 컨텍스트 크기, 백엔드 버전에 따라 달라집니다. 출처: Ollama 라이브러리 페이지, apxml, runaiathome. 더 많은 커뮤니티 벤치마크가 다음 2주에 나타나면서, 우리는 이 표를 업데이트할 것입니다.

Gemma 4 12B를 로컬에서 어떻게 실행하나?

가장 짧은 경로: Ollama를 설치하고, 한 명령어를 실행하고, 완료. ollama run gemma4:12b는 7.6 GB 모델을 가져오고 채팅 프롬프트에 넣습니다. 구성 파일 없음, Python 환경 없음. 더 많은 제어를 원하거나 Apple Silicon을 사용 중이라면, 아래 네 가지 다른 경로가 있습니다.

Ollama (쉬운 기본값). 두 줄에서 가져오고 실행:
llama.cpp와 GGUF. 특정 양자화를 원한다면 llama.cpp를 HuggingFace의 GGUF로 가리킵니다. GGUF는 llama.cpp가 양자화 가중치에 사용하는 파일 형식입니다:
Apple Silicon의 MLX. M 시리즈 Mac은 CUDA 대신 Apple의 프레임워크를 사용하는 전용 MLX 빌드를 얻습니다:
LM Studio (GUI, 터미널 없음). 데스크탑 앱을 선호하십니까? LM Studio를 열고, 검색 탭을 치고, gemma 4 12b를 입력하세요. Q4 K M GGUF를 선택하고 다운로드하세요. LM Studio는 로컬 서버 토글을 포함한 나머지를 처리합니다.
API를 통해 쿼리하기. Ollama는 포트 11434의 OpenAI 호환 엔드포인트를 노출하므로, 기존 코드는 한 줄 기본 URL 스왑으로 작동합니다:

...

출처 바로가기