Gemma 4 12B 완전 분석 — 26B급 성능을 12B에 담다
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
Gemma 4 12B 완전 분석 — 인코더-프리 구조와 '성능 역설', 그리고 실제 구동 스펙
2026년 6월 4일 · 오픈웨이트 로컬 LLM 심층 리포트
구글이 2026년 6월 3일 공개한 Gemma 4 12B는 파라미터 수가 26B·31B보다 작은데도 성능은 26B에 바짝 붙는 '역설'을 보여주는 오픈웨이트 모델이다. 이 글은 무엇이 달라졌는지(인코더-프리 구조), 왜 작아졌는데 더 강한지, 그리고 데스크톱 GPU와 애플 맥에서 실제로 어떤 스펙이면 돌아가는지를 1차 출처 기준으로 정리한다.
⚠️ 출처 신뢰도 사전 경고 — 1차 조사는 gemma4.wiki·gemma4-ai.com 같은 비공식 2차 사이트에 일부 의존해 컨텍스트 길이 등에서 오류가 있었다. 본 보고서는 Google AI 모델 카드·Developers Blog·HuggingFace 모델 카드 등 1차 출처 수치를 기준값으로 채택하며, 라운드 간 충돌은 숨기지 않고 그대로 드러낸다.
📚 기초 — Gemma 시리즈의 계보
Gemma는 구글 딥마인드의 오픈웨이트 로컬 LLM 계열이다. Apache 2.0 라이선스라 연구·상업 사용이 모두 무료이며, HuggingFace·Kaggle에서 가중치를 직접 내려받아 자신의 기기에서 구동할 수 있다. 클라우드 API 없이 내 PC 안에서 모델이 통째로 돈다는 것이 핵심 가치다.
| 세대 | 출시 | 주요 모델 크기 |
|---|---|---|
| Gemma 1 | 2024-02 | 2B, 7B |
| Gemma 2 | 2024-06 | 2B, 9B, 27B |
| Gemma 3 | 2025-03 | 1B, 4B, 12B, 27B |
| Gemma 4 (1차) | 2026-04 | E2B, E4B, 26B, 31B |
| Gemma 4 12B | 2026-06-03 | 12B (공백 보강) |
핵심 맥락: Gemma 4 패밀리는 4월에 초경량(E2B·E4B)과 고성능(26B·31B)만 출시되며 중간 공백이 있었고, 그 자리를 채우는 12B가 6월 3일 별도 발표로 추가됐다. 즉 12B는 '축소판'이 아니라 라인업 전략상 의도적으로 비워뒀던 핵심 구간을 메우는 모델이다.
🧩 인코더-프리(Encoder-Free) 아키텍처
기존 멀티모달 모델은 이미지·오디오를 먼저 별도 인코더로 임베딩한 뒤 LLM에 넘긴다. 이 별도 인코더는 수억 개 파라미터를 잡아먹으면서 언어·추론 능력과는 무관한 '변환' 작업만 담당한다. Gemma 4 12B는 오디오 인코더를 제거하고 원시 신호를 경량 투영(projection) 레이어로 텍스트 토큰과 같은 차원에 직접 매핑하는 encoder-free 구조를 택했다.
graph LR
A[원시 오디오/이미지] --> B[경량 투영
projection]
B --> C[LLM 백본
12B]
C --> D[텍스트 출력]
style A fill:#e8f8f5,stroke:#16a085
style B fill:#fef9e7,stroke:#f39c12
style C fill:#eafaf1,stroke:#27ae60,color:#1e8449
style D fill:#eaf2f8,stroke:#2980b9
🔗 다이어그램 요약: 무거운 별도 인코더를 없애고 원시 신호를 경량 투영 레이어로 바로 LLM에 넣는 구조다. 인코더에 쓰이던 파라미터 예산을 추론·언어 능력으로 재배분한 것이 '12B 성능 역설'의 1차 원인이다.
여기에 MTP(Multi-Token Prediction) 드래프터가 내장돼 여러 토큰을 동시에 초안 생성·검증하는 방식으로 속도와 품질을 끌어올리고, instruction-tuned 버전에는 사고(thinking) 과정이 내장돼 과학 추론·수학 벤치마크에서 큰 점수 도약을 만들었다.
📦 Gemma 4 패밀리 라인업 — 실제 5종
| 모델 | 아키텍처 | 컨텍스트 | 활성 파라미터 | 비고 |
|---|---|---|---|---|
| E2B | Dense | 128K | 2B | 모바일/IoT, 오디오 |
| E4B | Dense | 128K | 4B | 노트북/엣지, 오디오 |
| 12B Unified | Dense | 256K | 12B | encoder-free 멀티모달 |
| 26B | MoE | 256K | 4B(토큰당) | 추론 효율 최강 |
| 31B | Dense | 256K | 31B | 오픈 모델 중 최고 성능 |
🔀 모순 ① 컨텍스트 윈도우 — 1차 조사는 12B를 128K로 적었으나 이는 비공식 사이트발 오류다. HuggingFace 공식 카드(google/gemma-4-12B-it)는 "small=128K, medium=256K"라 명시하며 12B는 medium → 256K가 정확. 128K는 E2B/E4B 엣지 모델 한정이다.
🔀 모순 ② 26B 명칭 — Round 1 "26B MoE, 활성 3.8B" vs Round 2 공식 "26B A4B, 활성 4B". 활성 약 4B(=A4B)가 공식 수치이며 3.8B는 비공식 근사치. "토큰당 일부만 활성화되는 MoE"라는 본질은 양쪽 일치.
구글은 12B에 대해 "벤치마크가 26B 모델에 근접하면서 메모리 풋프린트는 절반 이하"라고 명시했다. 12B라는 숫자는 26B·31B보다 작지만, 실제 성능은 그 사이가 아니라 26B에 바짝 붙어 있다.
📊 성능 벤치마크 — 패밀리 공식 수치
아래는 Google AI for Developers 공식 모델 카드(instruction-tuned, thinking 내장 기준)의 벤치마크다. 색이 진할수록 점수가 높다. 12B 열을 보면 GPQA Diamond와 AIME 같은 추론·수학 항목에서 26B에 근접한다.
| 벤치마크 | E2B | E4B | 12B | 26B | 31B | G3 27B |
|---|---|---|---|---|---|---|
| MMLU Pro | 60.0 | 69.4 | 77.2 | 82.6 | 85.2 | 67.6 |
| MMMLU | 67.4 | 76.6 | 83.4 | 86.3 | 88.4 | — |
| GPQA Diamond | 43.4 | 58.6 | 78.8 | 82.3 | 84.3 | 42.4 |
| MMMU Pro(시각) | 44.2 | 52.6 | 69.1 | 73.8 | 76.9 | 49.7 |
| AIME 2026(수학) | 37.5 | 42.5 | 77.5 | 88.3 | 89.2 | 20.8 |
| LiveCodeBench v6 | 44.0 | 52.0 | 72.0 | 77.1 | 80.0 | 29.1 |
단위: % · 🔀 모순 ③ 12B GPQA는 Round 1 추정 "~78–82%"였으나 공식 카드에서 78.8% 확정. Round 1의 별표 추정치는 1차 출처로 대체.
세대 점프 — Gemma 3 27B vs Gemma 4 12B
"숫자가 줄었는데 성능은?"에 대한 가장 직접적인 답이 여기 있다. 12B가 자기보다 2배 이상 큰 이전 세대 27B를 전 항목에서 압도한다. 특히 추론·수학에서 격차가 극적이다.
GPQA는 +36.4p, AIME는 +56.7p 도약했다. Gemma 3 12B는 Gemma 3 27B보다 낮으므로, 같은 12B끼리의 실제 세대 격차는 위 수치보다 더 크다. 줄어든 것은 파라미터 수일 뿐, 세대 교체 + 사고(thinking) 내장 효과로 성능은 오히려 크게 올랐다.
☁️ 클라우드 모델과의 비교 — 신뢰도 낮음 구간
🔀 모순 ④ 클라우드 baseline 불일치
• Round 1: GPT-5.2(GPQA 92.4%)·Claude Opus 4.6(91.3%)·Claude Sonnet 4.6(74.1%) 기준 — 전부 별표 추정치/미검증
• Round 2: GPT-4o(~72%)·Claude 3.5 Sonnet(~59%) 기준 — 비교 대상 모델 세대 자체가 다름
즉 "12B가 어떤 클라우드 모델급이냐"는 출처에 따라 결론이 갈린다. 다만 GPT-5.2·Claude Opus 4.6 같은 최상위 플래그십(90%대 추정)에는 못 미친다는 방향성만 공통이다.
정직하게 정리하면 — 12B의 78.8%는 thinking mode 포함 기준인데, 비교 대상 클라우드 모델이 동일 조건(사고 활성)인지 확인되지 않았다. 조건이 어긋나면 비교 자체가 무의미해질 수 있다. 또한 실무 체감(창작·뉘앙스 글쓰기·도구 사용)에서는 일반적으로 클라우드 플래그십 > 로컬 12B 순이며, 벤치마크 격차가 좁다고 실사용 격차도 좁은 것은 아니다.
다른 유명 로컬 LLM 사이에서의 위치
| 모델 | GPQA Diamond | 로컬 최소 VRAM | 비고 |
|---|---|---|---|
| Gemma 4 12B | 78.8% (공식) | 12GB(Q4) | 사고 내장, 멀티모달 |
| Gemma 4 26B | 82.3% (공식) | 16GB(Q4) | 최고 효율 로컬 |
| Llama 4 Scout 17B | (미검증) | 12GB | 12GB 구간 경쟁자 |
| Qwen3 8B | (미검증) | ~5GB | 코딩 강세, 초경량 |
| Phi-4 14B | (미검증) | ~10GB | 소형 추론 강세 |
결론적으로 12B 구간에서 Gemma 4 12B는 Phi-4·Qwen·Llama 4 Scout와 경쟁하는 최상위권 후보다. 단, 경쟁 모델 수치는 1차 검증이 안 된 것이 많아 "Gemma가 압도한다"고 단정할 수는 없다.
🖥️ 하드웨어 요구사항 — 실제 구동 스펙
구글 공식 안내는 "전용 GPU 노트북 기준 16GB VRAM 또는 통합 메모리면 로컬 구동 가능"이라 명시한다. 실제 메모리 요구량은 양자화(quantization) 방식이 좌우한다 — 모델을 4bit·8bit로 압축하면 정확도 손실을 최소화하면서 메모리를 크게 줄일 수 있다.
• BF16(전체 정밀도): 11.95B × 2바이트 ≈ 약 24GB
• Q8(8bit): 약 13GB
• Q4_K_M(4bit GGUF): 약 6.5~8GB
데스크톱 + NVIDIA GPU 추천 매트릭스
| 용도 | GPU | VRAM | 결론 |
|---|---|---|---|
| 최소 가능 | RTX 3060 | 12GB | Q4 구동, 속도 보통 |
| 실용 입문 | RTX 4070 | 12GB | Q4 쾌적 |
| Q8 쾌적 | RTX 4070 Ti | 16GB | Q8 안정 |
| 여유 | RTX 4090 / 3090 | 24GB | BF16 근접·가능 |
| 풀 정밀도 | RTX 5090 | 32GB | BF16 여유 |
권장 데스크톱 사양: CPU 8코어 이상(i7 12세대+ / Ryzen 7 5000+), GPU RTX 4070 12GB(실용 입문)~4070 Ti 16GB(Q8 권장), 시스템 RAM 32GB(VRAM과 별도), NVMe SSD 20GB+. CPU-only 구동도 가능하나 토큰 생성이 2~5 tok/s 수준이라 실용성은 낮다.
애플 맥(Apple Silicon)
맥의 통합 메모리(Unified Memory)는 CPU·GPU가 같은 메모리 풀을 공유해 NVIDIA처럼 전용 VRAM 한계가 없다. 즉 시스템 RAM = GPU 메모리로 쓰이며, Ollama가 Metal(MPS)/MLX 백엔드를 자동 활용해 동급 RAM의 x86 CPU보다 유의미하게 빠르다.
| 칩 | 통합 메모리 | 12B 구동 | 권장도 |
|---|---|---|---|
| M1/M2 16GB | 16GB | Q4 가능(빡빡) | 소극 권장 — OS와 경합 |
| M2 Pro 16GB | 16GB | Q4 안정 | 공식 "충분" 명시 |
| M2/M3 24GB | 24GB | Q4 쾌적·Q8 가능 | 권장 |
| M3 Pro 36GB | 36GB | Q8 이상 안정 | 적극 권장 |
| M4 Pro 24GB+ | 24GB+ | 전반 쾌적 | 적극 권장 |
| M4 Max 48GB+ | 48GB+ | 31B까지 가능 | 최고 선택 |
맥 구매 기준 요약 — 가성비 입문: M3/M4 기본형 24GB(12B Q4 쾌적) · 여유 사용: M3 Pro 36GB 또는 M4 Pro 24GB+(Q8 안정) · 오래 쓸 고성능: M4 Max 48GB+(31B까지 커버). 토큰/초 속도는 컨텍스트 길이·양자화·Ollama 버전에 따라 실측 편차가 크며, E4B 대비 12B는 30~50% 느린 것으로 추정된다.
🧭 결론 및 시사점
한 문장 요약 — Gemma 4 12B는 라인업 공백을 메우는 전략 모델이며, encoder-free 멀티모달 구조 + 사고(thinking) 내장으로 12B 크기에 26B급 성능(GPQA 78.8%, AIME 77.5% — 공식)을 담는 데 성공했다.
"숫자가 줄었는데 성능은?"에 대한 답 — 줄어든 것은 파라미터 수일 뿐, 세대 교체 효과로 이전 세대 27B(GPQA 42.4%)를 +36p 압도한다. 같은 패밀리 내에서는 26B·31B가 위지만, 그 격차는 메모리 절반 값으로 보면 충분히 합리적이다. 컨텍스트는 256K가 정답(128K는 edge 모델 한정)이며, 이 점은 1차 출처로 확정됐다.
✓ 로컬 AI 입문 최적해: 12GB VRAM GPU 또는 24GB 통합 메모리 맥에서 Q4로 돌릴 수 있으면서 과학·수학 추론이 상위권인 오픈웨이트 모델로, 현재 가장 균형 잡힌 선택.
✓ 애플 실리콘에서 강점 극대화: RTX 4070(12GB)은 Q4가 한계지만, M3/M4 24GB 맥은 Q8까지 쾌적해 맥 사용자에게 특히 매력적.
✓ 프라이버시 민감 업무: 외부 전송 없이 로컬 구동되므로 법률·의료·금융 문서 처리에 적합.
✓ 클라우드 대체는 신중히: 비교 baseline이 출처마다 어긋나고(모순 ④) 실사용 체감은 여전히 플래그십이 앞선다. "최상위 추론은 클라우드, 일상·로컬 처리는 12B"라는 역할 분담이 현실적.
추가 확인이 필요한 영역
▶ 클라우드 비교 수치 전반: GPT-5.2·Claude Opus 4.6의 GPQA 추정치(90%대)는 1차 검증 미완, thinking 조건 일치 여부 미확인.
▶ 타 로컬 LLM(Phi-4·Qwen3·Llama 4 Scout): 동일조건 검증 데이터 부재.
▶ 맥 토큰/초 실측치: 12B 기준 공식 수치 부재, 커뮤니티 실측 갱신 대기.
종합하면, 공식 1차 출처로 확정된 것(라인업 5종·256K 컨텍스트·패밀리 내 벤치마크·하드웨어 최소요건)은 신뢰도가 높고, 클라우드/타 로컬 모델과의 상대 비교는 출처 충돌과 미검증이 섞여 있어 정성적 방향성까지만 받아들이는 것이 안전하다.
🔗 참고 출처
• Google Developers Blog — Introducing Gemma 4 12B
• Gemma 4 model card (Google AI for Developers)
• google/gemma-4-12B-it (HuggingFace 모델 카드)
• Bringing Gemma 4 12B to your Laptop
본 콘텐츠는 공개된 기술 자료를 바탕으로 정리한 정보성 글이며, 일부 수치는 출처 간 충돌·미검증이 존재합니다. 하드웨어 구매·도입 결정 시에는 제조사 공식 스펙과 최신 벤치마크를 직접 교차 확인하시기 바랍니다.
📄 Raw Data
구글이 6월 3일 공개한 Gemma 4 12B에 대해, 다라운드 조사 결과와 라운드 간 모순을 종합한 최종 보고서를 정리한다. 핵심 사실관계는 1차 출처(Google AI 모델 카드·Developers Blog·HuggingFace)를 우선하되, 라운드 간 충돌이 있었던 지점은 그대로 살려 명시한다.
---
# Gemma 4 12B 완전 분석 — 인코더-프리 구조, 성능 역설, 그리고 실제 구동 스펙
## 1. 질문 파악
이번 리서치는 세 갈래의 질문으로 구성된다.
- **무엇이 달라졌나**: Gemma 4 12B가 기존 Gemma 시리즈 및 4월에 먼저 나온 Gemma 4 패밀리와 비교해 어떤 구조적 차이를 갖는가
- **숫자가 줄었는데 성능은**: 26B·31B보다 작은 12B가 어떻게 그 격차를 좁히는가
- **어디서 돌릴 수 있나**: 일반 데스크톱+GPU 환경, 그리고 애플 맥 계열에서 실제 구동에 필요한 칩셋·RAM·VRAM 스펙은 어느 정도인가
여기에 더해 Gemma 3, Gemini, GPT, Anthropic, 그리고 다른 유명 로컬 LLM과의 성능 비교를 포함한다.
> ⚠️ **출처 신뢰도에 관한 사전 경고**: 1차 조사(Round 1)는 `gemma4.wiki`·`gemma4-ai.com` 같은 비(非)공식 2차 사이트에 일부 의존했고, 그 결과 컨텍스트 길이 등에서 사실 오류가 발생했다. 2차 조사(Round 2)에서 Google AI 모델 카드와 HuggingFace 모델 카드 등 1차 출처로 교차검증해 정정했다. 본 보고서는 **1차 출처 수치를 기준값으로 채택**하며, 라운드 간 충돌은 아래 본문에서 그대로 드러낸다.
---
## 2. 기초 정보 (Foundation)
### Gemma 시리즈의 계보
Gemma는 구글 딥마인드의 오픈웨이트(open-weight) 로컬 LLM 계열이다. Apache 2.0 라이선스로 연구·상업 사용이 모두 무료이며, HuggingFace·Kaggle에서 가중치를 직접 내려받아 자신의 기기에서 구동할 수 있다.
| 세대 | 출시 | 주요 모델 크기 |
|------|------|--------------|
| Gemma 1 | 2024-02 | 2B, 7B |
| Gemma 2 | 2024-06 | 2B, 9B, 27B |
| Gemma 3 | 2025-03 | 1B, 4B, 12B, 27B |
| Gemma 4 (1차) | 2026-04 | E2B, E4B, 26B, 31B |
| **Gemma 4 12B** | **2026-06-03** | **12B (공백 보강)** |
핵심 맥락: Gemma 4 패밀리는 4월에 초경량(E2B·E4B)과 고성능(26B·31B)만 출시되며 **중간 공백**이 있었고, 그 자리를 채우는 12B가 6월 3일 별도 발표로 추가됐다(출처: Google Developers Blog, "Introducing Gemma 4 12B"). 즉 12B는 "축소판"이 아니라 라인업 전략상 의도적으로 비워뒀던 핵심 구간을 메우는 모델이다.
### 인코더-프리(Encoder-Free) 아키텍처
기존 멀티모달 모델은 이미지·오디오를 먼저 별도 인코더로 임베딩한 뒤 LLM에 넘긴다.
```
이미지 → [비전 인코더] → 임베딩 ↘
오디오 → [오디오 인코더] → 임베딩 → LLM 백본 → 텍스트
```
이 별도 인코더는 수억 개 파라미터를 잡아먹으면서 언어·추론 능력과는 무관한 변환만 담당한다. Gemma 4 12B는 오디오 인코더를 제거하고 원시 신호를 경량 투영(projection) 레이어로 텍스트 토큰과 같은 차원에 직접 매핑하는 **encoder-free** 구조를 택했다(출처: Google AI 모델 카드, DeepMind Gemma 4 페이지). 그 결과 동일 파라미터 예산 내에서 추론·언어 능력에 더 많은 용량을 배분할 수 있게 됐다 — 이것이 뒤에 나올 "12B 성능 역설"의 1차 원인이다.
### MTP 드래프터 / 사고(thinking) 내장
12B에는 MTP(Multi-Token Prediction) 드래프터가 내장돼, 여러 토큰을 동시에 초안 생성하고 검증하는 방식으로 추론 속도·품질을 끌어올린다. 또한 instruction-tuned 버전에는 **사고(thinking) 과정**이 내장되어 있고, 이것이 과학 추론·수학 벤치마크에서 큰 점수 도약을 만든 핵심 요인이다.
---
## 3. 현황 데이터 (Current State)
### Gemma 4 패밀리 라인업 — 실제 5종
| 모델 | 아키텍처 | 컨텍스트 | 활성 파라미터 | 비고 |
|------|---------|---------|-------------|------|
| E2B | Dense | 128K | 2B | 모바일/IoT, 오디오 |
| E4B | Dense | 128K | 4B | 노트북/엣지, 오디오 |
| **12B Unified** | Dense | **256K** | 12B | encoder-free 멀티모달 |
| 26B | **MoE** | 256K | 4B(토큰당) | 추론 효율 최강 |
| 31B | Dense | 256K | 31B | 오픈 모델 중 최고 성능 |
> **🔀 모순 ① 컨텍스트 윈도우**: Round 1 보고서는 12B를 **128K**로 기술했으나, 이는 비공식 2차 사이트에 의존한 **사실 오류**다. HuggingFace 공식 모델 카드(`google/gemma-4-12B-it`)는 *"small models는 128K, medium models는 256K"*라 명시하며, 12B는 medium 분류이므로 **256K가 정확**하다. 128K는 E2B/E4B(edge)에만 해당한다.
> **🔀 모순 ② 26B 모델 명칭**: Round 1은 "26B MoE, 활성 3.8B"라 했고, Round 2는 공식 카드 기준 "26B A4B, 활성 4B"라 정정했다. **활성 파라미터는 약 4B(=A4B)가 공식 수치**이며, 3.8B는 비공식 출처발 근사치로 보인다. 두 라운드 모두 "전체 26B 중 토큰당 일부만 활성화되는 MoE"라는 본질은 일치한다.
### 12B의 포지셔닝
구글은 12B에 대해 *"벤치마크가 26B 모델에 근접하면서 메모리 풋프린트는 절반 이하"*라고 명시했다(출처: Google Developers Blog). 즉 12B라는 숫자는 26B·31B보다 작지만, 실제 성능은 그 사이 어딘가가 아니라 26B에 바짝 붙어 있다.
---
## 4. 원인 분석 (Root Cause) — 12B가 26B에 근접하는 이유
세 요인이 복합된다.
1. **인코더 제거로 파라미터 효율 상승**: 멀티모달 변환에 쓰이던 용량을 추론·언어로 재배분.
2. **사고(thinking) 내장 + 정제된 학습 파이프라인**: Gemma 3에서 검증된 12B 학습 노하우 + 향상된 데이터·정렬. 특히 thinking 내장이 과학·수학 점수를 견인.
3. **256K 컨텍스트**: 긴 문서·복잡한 멀티턴에서 실용 격차를 좁힘.
---
## 5. 성능 벤치마크 비교
### 5-1. Gemma 4 패밀리 공식 벤치마크
**출처: Google AI for Developers 공식 모델 카드 (instruction-tuned, thinking 내장 기준)**
| 벤치마크 | E2B | E4B | **12B** | 26B | 31B | (참고) Gemma 3 27B |
|---------|-----|-----|---------|-----|-----|------|
| MMLU Pro | 60.0 | 69.4 | **77.2** | 82.6 | 85.2 | 67.6 |
| MMMLU | 67.4 | 76.6 | **83.4** | 86.3 | 88.4 | — |
| GPQA Diamond | 43.4 | 58.6 | **78.8** | 82.3 | 84.3 | 42.4 |
| MMMU Pro(시각) | 44.2 | 52.6 | **69.1** | 73.8 | 76.9 | 49.7 |
| AIME 2026(수학) | 37.5 | 42.5 | **77.5** | 88.3 | 89.2 | 20.8 |
| LiveCodeBench v6 | 44.0 | 52.0 | **72.0** | 77.1 | 80.0 | 29.1 |
(단위: %)
> **🔀 모순 ③ 12B GPQA 수치**: Round 1은 별표 추정치로 **"~78–82%"**라 적었고, Round 2는 공식 모델 카드에서 **78.8%**를 직접 확인했다. 범위는 겹치지만 **78.8%가 확정 수치**이며, Round 1의 별표 추정치 전반(GPQA·AIME·MMLU의 "접근 수준" 표기)은 1차 출처로 대체되어야 한다.
### 5-2. 이전 세대(Gemma 3)와의 직접 비교
공식 카드는 Gemma 3 **12B** 수치를 제공하지 않고 Gemma 3 **27B**와 비교하는데, 그럼에도 격차가 극적이다.
| 항목 | Gemma 3 27B | Gemma 4 12B | 차이 |
|------|------------|------------|------|
| MMLU Pro | 67.6 | 77.2 | +9.6p |
| GPQA Diamond | 42.4 | 78.8 | **+36.4p** |
| AIME 2026 | 20.8 | 77.5 | **+56.7p** |
12B가 자기보다 2배 이상 큰 이전 세대를 전 항목에서 압도한다. Gemma 3 12B는 Gemma 3 27B보다 낮으므로, **실제 세대 간 격차는 위 표보다 더 크다**. 사용자의 질문("숫자가 줄었는데 성능은?")에 대한 직접적 답이 여기 있다 — 숫자는 줄었지만 세대 교체 + 사고 내장 효과로 성능은 오히려 크게 올랐다.
### 5-3. 클라우드 모델(Gemini·GPT·Anthropic)과의 비교 — ⚠️ 모순 구간
이 구간은 **라운드 간 비교 대상과 수치가 어긋나** 신뢰도가 가장 낮다. 추정과 사실을 엄격히 분리해 제시한다.
> **🔀 모순 ④ 클라우드 baseline 불일치**:
> - **Round 1**은 GPT-5.2(GPQA 92.4%), Claude Opus 4.6(91.3%), Claude Sonnet 4.6(74.1%)을 비교 기준으로 삼았다. — 그러나 이 수치들은 **별표 추정치/미검증**이다.
> - **Round 2**는 GPT-4o(GPQA ~72%), Claude 3.5 Sonnet(~59%)을 기준으로 삼았다. — 비교 대상 **모델 세대 자체가 다르다**.
>
> 즉 "Gemma 4 12B가 어떤 클라우드 모델급이냐"는 **출처에 따라 결론이 갈린다**. Round 1 기준이면 12B(78.8%)는 Claude Sonnet 4.6(74.1% 추정)을 살짝 앞서는 수준이고, Round 2 기준이면 GPT-4o(~72%)·Claude 3.5 Sonnet(~59%)을 넘어서는 수준이 된다. **어느 쪽이든 GPQA Diamond 단일 지표 한정**이며, GPT-5.2·Claude Opus 4.6 같은 최상위 플래그십(90%대 추정)에는 못 미친다는 방향성만 공통된다.
**정직한 정리**:
- 12B의 78.8%는 **thinking mode 포함** 기준이다. 비교 대상 클라우드 모델이 동일 조건(사고 활성)인지 **확인되지 않았다**. 조건이 어긋나면 비교 자체가 무의미해질 수 있다.
- GPT-5.2/Claude Opus 4.6의 구체 수치(92.4%·91.3%)는 **1차 출처로 검증되지 않은 추정치**이므로, 그대로 인용하기보다 "최상위 플래그십이 더 높다"는 정성적 결론까지만 신뢰하는 것이 안전하다.
- 실무 체감(창작·뉘앙스 글쓰기·도구 사용)에서는 일반적으로 클라우드 플래그십(Claude·GPT·Gemini) > 로컬 12B 순이며, 벤치마크 수치 격차가 좁다고 실사용 격차도 좁은 것은 아니다.
### 5-4. 다른 유명 로컬 LLM과의 위치
직접적인 동일조건 12B 대 12B 비교 데이터는 공식 자료에 없어, 수집 자료를 종합한 참고용이다(일부 미검증 포함).
| 모델 | GPQA Diamond | 로컬 최소 VRAM | 비고 |
|------|-------------|--------------|------|
| **Gemma 4 12B** | **78.8% (공식)** | 12GB(Q4) | 사고 내장, 멀티모달 |
| Gemma 4 26B | 82.3% (공식) | 16GB(Q4) | 최고 효율 로컬 |
| Llama 4 Scout 17B | (미검증) | 12GB | 12GB 구간 경쟁자 |
| Qwen3 8B | (미검증) | ~5GB | 코딩 강세, 초경량 |
| Phi-4 14B | (미검증, "GPT-4o 수준" 주장) | ~10GB | 소형 추론 강세 |
| Gemma 3 27B | 42.4% (공식) | 16GB | 이전 세대 |
결론적으로 **12B 구간에서 Gemma 4 12B는 Phi-4·Qwen·Llama 4 Scout와 경쟁하는 최상위권 후보**다. 단, 경쟁 모델 수치는 1차 검증이 안 된 것이 많아 "Gemma가 압도한다"고 단정할 수는 없다.
---
## 6. 하드웨어 요구사항 (실제 구동 스펙)
구글 공식 안내는 *"전용 GPU 노트북 기준 16GB VRAM 또는 통합 메모리면 로컬 구동 가능"*이라 명시한다(출처: Google Developers Blog, "Bringing Gemma 4 12B to your Laptop"). 메모리 요구량은 **양자화(quantization)** 방식이 좌우한다.
- BF16(전체 정밀도): 11.95B × 2바이트 ≈ **약 24GB**
- Q8(8bit): 약 13GB
- Q4_K_M(4bit GGUF): 약 6.5~8GB
### 6-1. 일반 데스크톱 + NVIDIA GPU
| 양자화 | 모델 크기 | 필요 VRAM |
|--------|---------|---------|
| Q4_K_M | ~6.5–8GB | 10–12GB |
| Q8_0 | ~13GB | 14–16GB |
| BF16 | ~24GB | 24GB+ |
**추천 GPU 매트릭스**
| 용도 | GPU | VRAM | 결론 |
|------|-----|------|------|
| 최소 가능 | RTX 3060 | 12GB | Q4 구동, 속도 보통 |
| 실용 입문 | RTX 4070 | 12GB | Q4 쾌적 |
| Q8 쾌적 | RTX 4070 Ti | 16GB | Q8 안정 |
| 여유 | RTX 4090 / 3090 | 24GB | BF16 근접·가능 |
| 풀 정밀도 | RTX 5090 | 32GB | BF16 여유 |
**권장 데스크톱 사양**: CPU 8코어 이상(i7 12세대+ / Ryzen 7 5000+), GPU **RTX 4070 12GB(실용 입문) ~ 4070 Ti 16GB(Q8 권장)**, 시스템 RAM 32GB(VRAM과 별도), NVMe SSD 20GB+.
CPU-only 구동도 가능하나 토큰 생성이 **2~5 tok/s** 수준이라 실용성은 낮다.
### 6-2. 애플 맥(Apple Silicon)
맥의 **통합 메모리(Unified Memory)**는 CPU·GPU가 같은 메모리 풀을 공유해, NVIDIA처럼 전용 VRAM 한계가 없다. 즉 시스템 RAM = GPU 메모리로 쓰이며, Ollama가 Metal(MPS)/MLX 백엔드를 자동 활용해 동급 RAM의 x86 CPU보다 유의미하게 빠르다.
| 칩 | 통합 메모리 | 12B 구동 | 권장도 |
|----|-----------|---------|--------|
| M1/M2 16GB | 16GB | Q4 가능(빡빡) | 소극 권장 — OS와 메모리 경합 |
| M2 Pro 16GB | 16GB | Q4 안정 | 구글 공식 "충분" 명시 |
| M2/M3 24GB | 24GB | Q4 쾌적·Q8 가능 | 권장 |
| M3 Pro 36GB | 36GB | Q8 이상 안정 | 적극 권장 |
| M4 Pro 24GB+ | 24GB+ | 전반 쾌적 | 적극 권장 |
| M4 Max 48GB+ | 48GB+ | 31B까지 가능 | 최고 선택 |
**맥 구매 기준 요약**:
- **가성비 입문**: M3/M4 기본형 **24GB** → 12B Q4 쾌적
- **여유 사용**: M3 Pro 36GB 또는 M4 Pro 24GB+ → Q8 안정
- **오래 쓸 고성능**: M4 Max 48GB+ → 31B까지 커버
(참고: 토큰/초 속도는 컨텍스트 길이·양자화·Ollama 버전에 따라 실측 편차가 크다. E4B 대비 12B는 30~50% 느린 것으로 추정되며, 정밀 수치는 커뮤니티 실측 갱신이 필요하다.)
---
## 7. 결론 및 시사점 (Conclusion)
### 핵심 요약
- **Gemma 4 12B는 라인업 공백을 메우는 전략 모델**이다. encoder-free 멀티모달 구조 + 사고(thinking) 내장으로, 12B 크기에 26B급 성능을 담는 데 성공했다(GPQA 78.8%, AIME 77.5% — 공식).
- **"숫자가 줄었는데 성능은?"에 대한 답**: 줄어든 것은 파라미터 수일 뿐, 세대 교체 효과로 이전 세대 27B(GPQA 42.4%)를 +36p 압도한다. 같은 패밀리 내에서는 26B·31B가 위지만, 그 격차는 메모리 절반 값으로 보면 충분히 합리적이다.
- **컨텍스트는 256K가 정답**(128K는 edge 모델 한정) — 이 점은 1차 출처로 확정됐다.
### 실용적 결론
1. **로컬 AI 입문 최적해**: 12GB VRAM GPU 또는 24GB 통합 메모리 맥에서 Q4로 돌릴 수 있으면서 과학·수학 추론 벤치마크가 상위권인 오픈웨이트 모델은 사실상 12B가 현재 가장 균형 잡힌 선택이다.
2. **애플 실리콘에서 강점 극대화**: NVIDIA RTX 4070(12GB)은 Q4가 한계지만, M3/M4 24GB 맥은 Q8까지 쾌적하다. 맥 사용자에게 특히 매력적이다.
3. **프라이버시 민감 업무**: 외부 전송 없이 로컬 구동되므로 법률·의료·금융 문서 처리에 적합하다.
4. **클라우드 대체 여부는 신중히**: GPQA 단일 지표로는 일부 클라우드 모델과 견줄 수준이나, 비교 baseline이 출처마다 어긋나고(모순 ④) 실사용 체감은 여전히 플래그십(Claude·GPT·Gemini)이 앞선다. "최상위 추론은 클라우드, 일상·로컬 처리는 12B"라는 역할 분담이 현실적이다.
### 추가 확인이 필요한 영역
- **클라우드 모델 비교 수치 전반**: GPT-5.2·Claude Opus 4.6의 GPQA 추정치(90%대)는 1차 검증 미완. thinking 조건 일치 여부도 미확인.
- **타 로컬 LLM(Phi-4·Qwen3·Llama 4 Scout) 수치**: 동일조건 검증 데이터 부재.
- **맥 토큰/초 실측치**: 12B 기준 공식 수치 부재, 커뮤니티 실측 갱신 대기.
종합하면, **공식 1차 출처로 확정된 것**(라인업 5종·256K 컨텍스트·패밀리 내 벤치마크·하드웨어 최소요건)은 신뢰도가 높고, **클라우드/타 로컬 모델과의 상대 비교**는 출처 충돌과 미검증이 섞여 있어 정성적 방향성까지만 받아들이는 것이 안전하다.
## 라운드 간 모순
- 컨텍스트 윈도우: Round 1 보고서는 128K로 기술하나 실제 주류 출처(Google/VentureBeat)는 256K 토큰으로 명시 — 보고서 사실 오류
- 근거 출처 충돌: 보고서가 의존한 gemma4.wiki·gemma4-ai.com은 1차/주류 출처가 아니며, 실재하는 1차 출처(Google Developers Blog·HuggingFace 모델 카드·VentureBeat·MarkTechPost)와 교체 검증 필요
- 벤치마크 수치(GPQA ~78-82%, GPT-5.2 92.4%, Claude Opus 4.6 91.3% 등)는 별표 추정치/미검증으로, 1차 출처 공식 수치로 대체 필요
- 컨텍스트 창: Round 1은 128K로 서술, Round 2는 공식 모델카드 근거로 256K(medium 분류)로 정정 — 12B 컨텍스트 길이가 라운드 간 불일치
- 26B 모델 명칭: Round 1 '26B MoE'(활성 3.8B) vs Round 2 '26B A4B'(활성 4B) — 명칭·활성 파라미터 수치 불일치
- 클라우드 비교 baseline 불일치: Round 1은 Claude Sonnet 4.6(GPQA 74.1%)·GPT-5.2(92.4%) 기준, Round 2는 Claude 3.5 Sonnet(~59%)·GPT-4o(~72%) 기준으로 비교 대상 모델이 어긋남
- 12B GPQA Diamond: Round 1 추정 ~78–82% vs Round 2 공식 78.8% — 범위는 겹치나 Round 1은 추정·Round 2는 확정 수치
---
## References
- [Google Developers Blog Gemma 4 12B 발표](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/)
- [Gemma 4 model card (Google AI for Developers)](https://ai.google.dev/gemma/docs/core/model_card_4)
- [google/gemma-4-12B-it (HuggingFace 모델 카드)](https://huggingface.co/google/gemma-4-12B-it)
- [Gemma 4 12B Developer Guide](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/)
- [Bringing Gemma 4 12B to your Laptop](https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/)
- [Gemma 4 (Google DeepMind)](https://deepmind.google/models/gemma/gemma-4/)
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
댓글
댓글 쓰기