Gemma 4 12B 완전 분석 — 26B급 성능을 12B에 담다

- 6월 03, 2026

Gemma 4 12B 완전 분석 — 인코더-프리 구조와 '성능 역설', 그리고 실제 구동 스펙

2026년 6월 4일 · 오픈웨이트 로컬 LLM 심층 리포트

구글이 2026년 6월 3일 공개한 Gemma 4 12B는 파라미터 수가 26B·31B보다 작은데도 성능은 26B에 바짝 붙는 '역설'을 보여주는 오픈웨이트 모델이다. 이 글은 무엇이 달라졌는지(인코더-프리 구조), 왜 작아졌는데 더 강한지, 그리고 데스크톱 GPU와 애플 맥에서 실제로 어떤 스펙이면 돌아가는지를 1차 출처 기준으로 정리한다.

⚠️ 출처 신뢰도 사전 경고 — 1차 조사는 gemma4.wiki·gemma4-ai.com 같은 비공식 2차 사이트에 일부 의존해 컨텍스트 길이 등에서 오류가 있었다. 본 보고서는 Google AI 모델 카드·Developers Blog·HuggingFace 모델 카드 등 1차 출처 수치를 기준값으로 채택하며, 라운드 간 충돌은 숨기지 않고 그대로 드러낸다.

📚 기초 — Gemma 시리즈의 계보

Gemma는 구글 딥마인드의 오픈웨이트 로컬 LLM 계열이다. Apache 2.0 라이선스라 연구·상업 사용이 모두 무료이며, HuggingFace·Kaggle에서 가중치를 직접 내려받아 자신의 기기에서 구동할 수 있다. 클라우드 API 없이 내 PC 안에서 모델이 통째로 돈다는 것이 핵심 가치다.

세대	출시	주요 모델 크기
Gemma 1	2024-02	2B, 7B
Gemma 2	2024-06	2B, 9B, 27B
Gemma 3	2025-03	1B, 4B, 12B, 27B
Gemma 4 (1차)	2026-04	E2B, E4B, 26B, 31B
Gemma 4 12B	2026-06-03	12B (공백 보강)

핵심 맥락: Gemma 4 패밀리는 4월에 초경량(E2B·E4B)과 고성능(26B·31B)만 출시되며 중간 공백이 있었고, 그 자리를 채우는 12B가 6월 3일 별도 발표로 추가됐다. 즉 12B는 '축소판'이 아니라 라인업 전략상 의도적으로 비워뒀던 핵심 구간을 메우는 모델이다.

🧩 인코더-프리(Encoder-Free) 아키텍처

기존 멀티모달 모델은 이미지·오디오를 먼저 별도 인코더로 임베딩한 뒤 LLM에 넘긴다. 이 별도 인코더는 수억 개 파라미터를 잡아먹으면서 언어·추론 능력과는 무관한 '변환' 작업만 담당한다. Gemma 4 12B는 오디오 인코더를 제거하고 원시 신호를 경량 투영(projection) 레이어로 텍스트 토큰과 같은 차원에 직접 매핑하는 encoder-free 구조를 택했다.


graph LR
  A[원시 오디오/이미지] --> B[경량 투영
projection]
  B --> C[LLM 백본
12B]
  C --> D[텍스트 출력]
  style A fill:#e8f8f5,stroke:#16a085
  style B fill:#fef9e7,stroke:#f39c12
  style C fill:#eafaf1,stroke:#27ae60,color:#1e8449
  style D fill:#eaf2f8,stroke:#2980b9

🔗 다이어그램 요약: 무거운 별도 인코더를 없애고 원시 신호를 경량 투영 레이어로 바로 LLM에 넣는 구조다. 인코더에 쓰이던 파라미터 예산을 추론·언어 능력으로 재배분한 것이 '12B 성능 역설'의 1차 원인이다.

여기에 MTP(Multi-Token Prediction) 드래프터가 내장돼 여러 토큰을 동시에 초안 생성·검증하는 방식으로 속도와 품질을 끌어올리고, instruction-tuned 버전에는 사고(thinking) 과정이 내장돼 과학 추론·수학 벤치마크에서 큰 점수 도약을 만들었다.

📦 Gemma 4 패밀리 라인업 — 실제 5종

모델	아키텍처	컨텍스트	활성 파라미터	비고
E2B	Dense	128K	2B	모바일/IoT, 오디오
E4B	Dense	128K	4B	노트북/엣지, 오디오
12B Unified	Dense	256K	12B	encoder-free 멀티모달
26B	MoE	256K	4B(토큰당)	추론 효율 최강
31B	Dense	256K	31B	오픈 모델 중 최고 성능

🔀 모순 ① 컨텍스트 윈도우 — 1차 조사는 12B를 128K로 적었으나 이는 비공식 사이트발 오류다. HuggingFace 공식 카드(google/gemma-4-12B-it)는 "small=128K, medium=256K"라 명시하며 12B는 medium → 256K가 정확. 128K는 E2B/E4B 엣지 모델 한정이다.

🔀 모순 ② 26B 명칭 — Round 1 "26B MoE, 활성 3.8B" vs Round 2 공식 "26B A4B, 활성 4B". 활성 약 4B(=A4B)가 공식 수치이며 3.8B는 비공식 근사치. "토큰당 일부만 활성화되는 MoE"라는 본질은 양쪽 일치.

구글은 12B에 대해 "벤치마크가 26B 모델에 근접하면서 메모리 풋프린트는 절반 이하"라고 명시했다. 12B라는 숫자는 26B·31B보다 작지만, 실제 성능은 그 사이가 아니라 26B에 바짝 붙어 있다.

📊 성능 벤치마크 — 패밀리 공식 수치

아래는 Google AI for Developers 공식 모델 카드(instruction-tuned, thinking 내장 기준)의 벤치마크다. 색이 진할수록 점수가 높다. 12B 열을 보면 GPQA Diamond와 AIME 같은 추론·수학 항목에서 26B에 근접한다.

벤치마크	E2B	E4B	12B	26B	31B	G3 27B
MMLU Pro	60.0	69.4	77.2	82.6	85.2	67.6
MMMLU	67.4	76.6	83.4	86.3	88.4	—
GPQA Diamond	43.4	58.6	78.8	82.3	84.3	42.4
MMMU Pro(시각)	44.2	52.6	69.1	73.8	76.9	49.7
AIME 2026(수학)	37.5	42.5	77.5	88.3	89.2	20.8
LiveCodeBench v6	44.0	52.0	72.0	77.1	80.0	29.1

단위: % · 🔀 모순 ③ 12B GPQA는 Round 1 추정 "~78–82%"였으나 공식 카드에서 78.8% 확정. Round 1의 별표 추정치는 1차 출처로 대체.

세대 점프 — Gemma 3 27B vs Gemma 4 12B

"숫자가 줄었는데 성능은?"에 대한 가장 직접적인 답이 여기 있다. 12B가 자기보다 2배 이상 큰 이전 세대 27B를 전 항목에서 압도한다. 특히 추론·수학에서 격차가 극적이다.

GPQA Diamond (과학 추론)

Gemma 3 27B

42.4

Gemma 4 12B

78.8

AIME 2026 (수학)

Gemma 3 27B

20.8

Gemma 4 12B

77.5

GPQA는 +36.4p, AIME는 +56.7p 도약했다. Gemma 3 12B는 Gemma 3 27B보다 낮으므로, 같은 12B끼리의 실제 세대 격차는 위 수치보다 더 크다. 줄어든 것은 파라미터 수일 뿐, 세대 교체 + 사고(thinking) 내장 효과로 성능은 오히려 크게 올랐다.

☁️ 클라우드 모델과의 비교 — 신뢰도 낮음 구간

🔀 모순 ④ 클라우드 baseline 불일치

• Round 1: GPT-5.2(GPQA 92.4%)·Claude Opus 4.6(91.3%)·Claude Sonnet 4.6(74.1%) 기준 — 전부 별표 추정치/미검증

• Round 2: GPT-4o(~72%)·Claude 3.5 Sonnet(~59%) 기준 — 비교 대상 모델 세대 자체가 다름

즉 "12B가 어떤 클라우드 모델급이냐"는 출처에 따라 결론이 갈린다. 다만 GPT-5.2·Claude Opus 4.6 같은 최상위 플래그십(90%대 추정)에는 못 미친다는 방향성만 공통이다.

정직하게 정리하면 — 12B의 78.8%는 thinking mode 포함 기준인데, 비교 대상 클라우드 모델이 동일 조건(사고 활성)인지 확인되지 않았다. 조건이 어긋나면 비교 자체가 무의미해질 수 있다. 또한 실무 체감(창작·뉘앙스 글쓰기·도구 사용)에서는 일반적으로 클라우드 플래그십 > 로컬 12B 순이며, 벤치마크 격차가 좁다고 실사용 격차도 좁은 것은 아니다.

다른 유명 로컬 LLM 사이에서의 위치

모델	GPQA Diamond	로컬 최소 VRAM	비고
Gemma 4 12B	78.8% (공식)	12GB(Q4)	사고 내장, 멀티모달
Gemma 4 26B	82.3% (공식)	16GB(Q4)	최고 효율 로컬
Llama 4 Scout 17B	(미검증)	12GB	12GB 구간 경쟁자
Qwen3 8B	(미검증)	~5GB	코딩 강세, 초경량
Phi-4 14B	(미검증)	~10GB	소형 추론 강세

결론적으로 12B 구간에서 Gemma 4 12B는 Phi-4·Qwen·Llama 4 Scout와 경쟁하는 최상위권 후보다. 단, 경쟁 모델 수치는 1차 검증이 안 된 것이 많아 "Gemma가 압도한다"고 단정할 수는 없다.

🖥️ 하드웨어 요구사항 — 실제 구동 스펙

구글 공식 안내는 "전용 GPU 노트북 기준 16GB VRAM 또는 통합 메모리면 로컬 구동 가능"이라 명시한다. 실제 메모리 요구량은 양자화(quantization) 방식이 좌우한다 — 모델을 4bit·8bit로 압축하면 정확도 손실을 최소화하면서 메모리를 크게 줄일 수 있다.

• BF16(전체 정밀도): 11.95B × 2바이트 ≈ 약 24GB
• Q8(8bit): 약 13GB
• Q4_K_M(4bit GGUF): 약 6.5~8GB

데스크톱 + NVIDIA GPU 추천 매트릭스

용도	GPU	VRAM	결론
최소 가능	RTX 3060	12GB	Q4 구동, 속도 보통
실용 입문	RTX 4070	12GB	Q4 쾌적
Q8 쾌적	RTX 4070 Ti	16GB	Q8 안정
여유	RTX 4090 / 3090	24GB	BF16 근접·가능
풀 정밀도	RTX 5090	32GB	BF16 여유

권장 데스크톱 사양: CPU 8코어 이상(i7 12세대+ / Ryzen 7 5000+), GPU RTX 4070 12GB(실용 입문)~4070 Ti 16GB(Q8 권장), 시스템 RAM 32GB(VRAM과 별도), NVMe SSD 20GB+. CPU-only 구동도 가능하나 토큰 생성이 2~5 tok/s 수준이라 실용성은 낮다.

애플 맥(Apple Silicon)

맥의 통합 메모리(Unified Memory)는 CPU·GPU가 같은 메모리 풀을 공유해 NVIDIA처럼 전용 VRAM 한계가 없다. 즉 시스템 RAM = GPU 메모리로 쓰이며, Ollama가 Metal(MPS)/MLX 백엔드를 자동 활용해 동급 RAM의 x86 CPU보다 유의미하게 빠르다.

칩	통합 메모리	12B 구동	권장도
M1/M2 16GB	16GB	Q4 가능(빡빡)	소극 권장 — OS와 경합
M2 Pro 16GB	16GB	Q4 안정	공식 "충분" 명시
M2/M3 24GB	24GB	Q4 쾌적·Q8 가능	권장
M3 Pro 36GB	36GB	Q8 이상 안정	적극 권장
M4 Pro 24GB+	24GB+	전반 쾌적	적극 권장
M4 Max 48GB+	48GB+	31B까지 가능	최고 선택

맥 구매 기준 요약 — 가성비 입문: M3/M4 기본형 24GB(12B Q4 쾌적) · 여유 사용: M3 Pro 36GB 또는 M4 Pro 24GB+(Q8 안정) · 오래 쓸 고성능: M4 Max 48GB+(31B까지 커버). 토큰/초 속도는 컨텍스트 길이·양자화·Ollama 버전에 따라 실측 편차가 크며, E4B 대비 12B는 30~50% 느린 것으로 추정된다.

🧭 결론 및 시사점

한 문장 요약 — Gemma 4 12B는 라인업 공백을 메우는 전략 모델이며, encoder-free 멀티모달 구조 + 사고(thinking) 내장으로 12B 크기에 26B급 성능(GPQA 78.8%, AIME 77.5% — 공식)을 담는 데 성공했다.

"숫자가 줄었는데 성능은?"에 대한 답 — 줄어든 것은 파라미터 수일 뿐, 세대 교체 효과로 이전 세대 27B(GPQA 42.4%)를 +36p 압도한다. 같은 패밀리 내에서는 26B·31B가 위지만, 그 격차는 메모리 절반 값으로 보면 충분히 합리적이다. 컨텍스트는 256K가 정답(128K는 edge 모델 한정)이며, 이 점은 1차 출처로 확정됐다.

✓ 로컬 AI 입문 최적해: 12GB VRAM GPU 또는 24GB 통합 메모리 맥에서 Q4로 돌릴 수 있으면서 과학·수학 추론이 상위권인 오픈웨이트 모델로, 현재 가장 균형 잡힌 선택.

✓ 애플 실리콘에서 강점 극대화: RTX 4070(12GB)은 Q4가 한계지만, M3/M4 24GB 맥은 Q8까지 쾌적해 맥 사용자에게 특히 매력적.

✓ 프라이버시 민감 업무: 외부 전송 없이 로컬 구동되므로 법률·의료·금융 문서 처리에 적합.

✓ 클라우드 대체는 신중히: 비교 baseline이 출처마다 어긋나고(모순 ④) 실사용 체감은 여전히 플래그십이 앞선다. "최상위 추론은 클라우드, 일상·로컬 처리는 12B"라는 역할 분담이 현실적.

추가 확인이 필요한 영역

▶ 클라우드 비교 수치 전반: GPT-5.2·Claude Opus 4.6의 GPQA 추정치(90%대)는 1차 검증 미완, thinking 조건 일치 여부 미확인.
▶ 타 로컬 LLM(Phi-4·Qwen3·Llama 4 Scout): 동일조건 검증 데이터 부재.
▶ 맥 토큰/초 실측치: 12B 기준 공식 수치 부재, 커뮤니티 실측 갱신 대기.

종합하면, 공식 1차 출처로 확정된 것(라인업 5종·256K 컨텍스트·패밀리 내 벤치마크·하드웨어 최소요건)은 신뢰도가 높고, 클라우드/타 로컬 모델과의 상대 비교는 출처 충돌과 미검증이 섞여 있어 정성적 방향성까지만 받아들이는 것이 안전하다.

🔗 참고 출처

• Google Developers Blog — Introducing Gemma 4 12B

• Gemma 4 model card (Google AI for Developers)

• google/gemma-4-12B-it (HuggingFace 모델 카드)

• Gemma 4 12B Developer Guide

• Bringing Gemma 4 12B to your Laptop

• Gemma 4 (Google DeepMind)

본 콘텐츠는 공개된 기술 자료를 바탕으로 정리한 정보성 글이며, 일부 수치는 출처 간 충돌·미검증이 존재합니다. 하드웨어 구매·도입 결정 시에는 제조사 공식 스펙과 최신 벤치마크를 직접 교차 확인하시기 바랍니다.

📄 Raw Data

구글이 6월 3일 공개한 Gemma 4 12B에 대해, 다라운드 조사 결과와 라운드 간 모순을 종합한 최종 보고서를 정리한다. 핵심 사실관계는 1차 출처(Google AI 모델 카드·Developers Blog·HuggingFace)를 우선하되, 라운드 간 충돌이 있었던 지점은 그대로 살려 명시한다.

---

# Gemma 4 12B 완전 분석 — 인코더-프리 구조, 성능 역설, 그리고 실제 구동 스펙

## 1. 질문 파악

이번 리서치는 세 갈래의 질문으로 구성된다.

- **무엇이 달라졌나**: Gemma 4 12B가 기존 Gemma 시리즈 및 4월에 먼저 나온 Gemma 4 패밀리와 비교해 어떤 구조적 차이를 갖는가
- **숫자가 줄었는데 성능은**: 26B·31B보다 작은 12B가 어떻게 그 격차를 좁히는가
- **어디서 돌릴 수 있나**: 일반 데스크톱+GPU 환경, 그리고 애플 맥 계열에서 실제 구동에 필요한 칩셋·RAM·VRAM 스펙은 어느 정도인가

여기에 더해 Gemma 3, Gemini, GPT, Anthropic, 그리고 다른 유명 로컬 LLM과의 성능 비교를 포함한다.

> ⚠️ **출처 신뢰도에 관한 사전 경고**: 1차 조사(Round 1)는 `gemma4.wiki`·`gemma4-ai.com` 같은 비(非)공식 2차 사이트에 일부 의존했고, 그 결과 컨텍스트 길이 등에서 사실 오류가 발생했다. 2차 조사(Round 2)에서 Google AI 모델 카드와 HuggingFace 모델 카드 등 1차 출처로 교차검증해 정정했다. 본 보고서는 **1차 출처 수치를 기준값으로 채택**하며, 라운드 간 충돌은 아래 본문에서 그대로 드러낸다.

---

## 2. 기초 정보 (Foundation)

### Gemma 시리즈의 계보

Gemma는 구글 딥마인드의 오픈웨이트(open-weight) 로컬 LLM 계열이다. Apache 2.0 라이선스로 연구·상업 사용이 모두 무료이며, HuggingFace·Kaggle에서 가중치를 직접 내려받아 자신의 기기에서 구동할 수 있다.

| 세대 | 출시 | 주요 모델 크기 |
|------|------|--------------|
| Gemma 1 | 2024-02 | 2B, 7B |
| Gemma 2 | 2024-06 | 2B, 9B, 27B |
| Gemma 3 | 2025-03 | 1B, 4B, 12B, 27B |
| Gemma 4 (1차) | 2026-04 | E2B, E4B, 26B, 31B |
| **Gemma 4 12B** | **2026-06-03** | **12B (공백 보강)** |

핵심 맥락: Gemma 4 패밀리는 4월에 초경량(E2B·E4B)과 고성능(26B·31B)만 출시되며 **중간 공백**이 있었고, 그 자리를 채우는 12B가 6월 3일 별도 발표로 추가됐다(출처: Google Developers Blog, "Introducing Gemma 4 12B"). 즉 12B는 "축소판"이 아니라 라인업 전략상 의도적으로 비워뒀던 핵심 구간을 메우는 모델이다.

### 인코더-프리(Encoder-Free) 아키텍처

기존 멀티모달 모델은 이미지·오디오를 먼저 별도 인코더로 임베딩한 뒤 LLM에 넘긴다.

```
이미지 → [비전 인코더] → 임베딩 ↘
오디오 → [오디오 인코더] → 임베딩 → LLM 백본 → 텍스트
```

이 별도 인코더는 수억 개 파라미터를 잡아먹으면서 언어·추론 능력과는 무관한 변환만 담당한다. Gemma 4 12B는 오디오 인코더를 제거하고 원시 신호를 경량 투영(projection) 레이어로 텍스트 토큰과 같은 차원에 직접 매핑하는 **encoder-free** 구조를 택했다(출처: Google AI 모델 카드, DeepMind Gemma 4 페이지). 그 결과 동일 파라미터 예산 내에서 추론·언어 능력에 더 많은 용량을 배분할 수 있게 됐다 — 이것이 뒤에 나올 "12B 성능 역설"의 1차 원인이다.

### MTP 드래프터 / 사고(thinking) 내장

12B에는 MTP(Multi-Token Prediction) 드래프터가 내장돼, 여러 토큰을 동시에 초안 생성하고 검증하는 방식으로 추론 속도·품질을 끌어올린다. 또한 instruction-tuned 버전에는 **사고(thinking) 과정**이 내장되어 있고, 이것이 과학 추론·수학 벤치마크에서 큰 점수 도약을 만든 핵심 요인이다.

---

## 3. 현황 데이터 (Current State)

### Gemma 4 패밀리 라인업 — 실제 5종

| 모델 | 아키텍처 | 컨텍스트 | 활성 파라미터 | 비고 |
|------|---------|---------|-------------|------|
| E2B | Dense | 128K | 2B | 모바일/IoT, 오디오 |
| E4B | Dense | 128K | 4B | 노트북/엣지, 오디오 |
| **12B Unified** | Dense | **256K** | 12B | encoder-free 멀티모달 |
| 26B | **MoE** | 256K | 4B(토큰당) | 추론 효율 최강 |
| 31B | Dense | 256K | 31B | 오픈 모델 중 최고 성능 |

> **🔀 모순 ① 컨텍스트 윈도우**: Round 1 보고서는 12B를 **128K**로 기술했으나, 이는 비공식 2차 사이트에 의존한 **사실 오류**다. HuggingFace 공식 모델 카드(`google/gemma-4-12B-it`)는 *"small models는 128K, medium models는 256K"*라 명시하며, 12B는 medium 분류이므로 **256K가 정확**하다. 128K는 E2B/E4B(edge)에만 해당한다.

> **🔀 모순 ② 26B 모델 명칭**: Round 1은 "26B MoE, 활성 3.8B"라 했고, Round 2는 공식 카드 기준 "26B A4B, 활성 4B"라 정정했다. **활성 파라미터는 약 4B(=A4B)가 공식 수치**이며, 3.8B는 비공식 출처발 근사치로 보인다. 두 라운드 모두 "전체 26B 중 토큰당 일부만 활성화되는 MoE"라는 본질은 일치한다.

### 12B의 포지셔닝

구글은 12B에 대해 *"벤치마크가 26B 모델에 근접하면서 메모리 풋프린트는 절반 이하"*라고 명시했다(출처: Google Developers Blog). 즉 12B라는 숫자는 26B·31B보다 작지만, 실제 성능은 그 사이 어딘가가 아니라 26B에 바짝 붙어 있다.

---

## 4. 원인 분석 (Root Cause) — 12B가 26B에 근접하는 이유

세 요인이 복합된다.

1. **인코더 제거로 파라미터 효율 상승**: 멀티모달 변환에 쓰이던 용량을 추론·언어로 재배분.
2. **사고(thinking) 내장 + 정제된 학습 파이프라인**: Gemma 3에서 검증된 12B 학습 노하우 + 향상된 데이터·정렬. 특히 thinking 내장이 과학·수학 점수를 견인.
3. **256K 컨텍스트**: 긴 문서·복잡한 멀티턴에서 실용 격차를 좁힘.

---

## 5. 성능 벤치마크 비교

### 5-1. Gemma 4 패밀리 공식 벤치마크

**출처: Google AI for Developers 공식 모델 카드 (instruction-tuned, thinking 내장 기준)**

| 벤치마크 | E2B | E4B | **12B** | 26B | 31B | (참고) Gemma 3 27B |
|---------|-----|-----|---------|-----|-----|------|
| MMLU Pro | 60.0 | 69.4 | **77.2** | 82.6 | 85.2 | 67.6 |
| MMMLU | 67.4 | 76.6 | **83.4** | 86.3 | 88.4 | — |
| GPQA Diamond | 43.4 | 58.6 | **78.8** | 82.3 | 84.3 | 42.4 |
| MMMU Pro(시각) | 44.2 | 52.6 | **69.1** | 73.8 | 76.9 | 49.7 |
| AIME 2026(수학) | 37.5 | 42.5 | **77.5** | 88.3 | 89.2 | 20.8 |
| LiveCodeBench v6 | 44.0 | 52.0 | **72.0** | 77.1 | 80.0 | 29.1 |

(단위: %)

> **🔀 모순 ③ 12B GPQA 수치**: Round 1은 별표 추정치로 **"~78–82%"**라 적었고, Round 2는 공식 모델 카드에서 **78.8%**를 직접 확인했다. 범위는 겹치지만 **78.8%가 확정 수치**이며, Round 1의 별표 추정치 전반(GPQA·AIME·MMLU의 "접근 수준" 표기)은 1차 출처로 대체되어야 한다.

### 5-2. 이전 세대(Gemma 3)와의 직접 비교

공식 카드는 Gemma 3 **12B** 수치를 제공하지 않고 Gemma 3 **27B**와 비교하는데, 그럼에도 격차가 극적이다.

| 항목 | Gemma 3 27B | Gemma 4 12B | 차이 |
|------|------------|------------|------|
| MMLU Pro | 67.6 | 77.2 | +9.6p |
| GPQA Diamond | 42.4 | 78.8 | **+36.4p** |
| AIME 2026 | 20.8 | 77.5 | **+56.7p** |

12B가 자기보다 2배 이상 큰 이전 세대를 전 항목에서 압도한다. Gemma 3 12B는 Gemma 3 27B보다 낮으므로, **실제 세대 간 격차는 위 표보다 더 크다**. 사용자의 질문("숫자가 줄었는데 성능은?")에 대한 직접적 답이 여기 있다 — 숫자는 줄었지만 세대 교체 + 사고 내장 효과로 성능은 오히려 크게 올랐다.

### 5-3. 클라우드 모델(Gemini·GPT·Anthropic)과의 비교 — ⚠️ 모순 구간

이 구간은 **라운드 간 비교 대상과 수치가 어긋나** 신뢰도가 가장 낮다. 추정과 사실을 엄격히 분리해 제시한다.

> **🔀 모순 ④ 클라우드 baseline 불일치**:
> - **Round 1**은 GPT-5.2(GPQA 92.4%), Claude Opus 4.6(91.3%), Claude Sonnet 4.6(74.1%)을 비교 기준으로 삼았다. — 그러나 이 수치들은 **별표 추정치/미검증**이다.
> - **Round 2**는 GPT-4o(GPQA ~72%), Claude 3.5 Sonnet(~59%)을 기준으로 삼았다. — 비교 대상 **모델 세대 자체가 다르다**.
>
> 즉 "Gemma 4 12B가 어떤 클라우드 모델급이냐"는 **출처에 따라 결론이 갈린다**. Round 1 기준이면 12B(78.8%)는 Claude Sonnet 4.6(74.1% 추정)을 살짝 앞서는 수준이고, Round 2 기준이면 GPT-4o(~72%)·Claude 3.5 Sonnet(~59%)을 넘어서는 수준이 된다. **어느 쪽이든 GPQA Diamond 단일 지표 한정**이며, GPT-5.2·Claude Opus 4.6 같은 최상위 플래그십(90%대 추정)에는 못 미친다는 방향성만 공통된다.

**정직한 정리**:
- 12B의 78.8%는 **thinking mode 포함** 기준이다. 비교 대상 클라우드 모델이 동일 조건(사고 활성)인지 **확인되지 않았다**. 조건이 어긋나면 비교 자체가 무의미해질 수 있다.
- GPT-5.2/Claude Opus 4.6의 구체 수치(92.4%·91.3%)는 **1차 출처로 검증되지 않은 추정치**이므로, 그대로 인용하기보다 "최상위 플래그십이 더 높다"는 정성적 결론까지만 신뢰하는 것이 안전하다.
- 실무 체감(창작·뉘앙스 글쓰기·도구 사용)에서는 일반적으로 클라우드 플래그십(Claude·GPT·Gemini) > 로컬 12B 순이며, 벤치마크 수치 격차가 좁다고 실사용 격차도 좁은 것은 아니다.

### 5-4. 다른 유명 로컬 LLM과의 위치

직접적인 동일조건 12B 대 12B 비교 데이터는 공식 자료에 없어, 수집 자료를 종합한 참고용이다(일부 미검증 포함).

| 모델 | GPQA Diamond | 로컬 최소 VRAM | 비고 |
|------|-------------|--------------|------|
| **Gemma 4 12B** | **78.8% (공식)** | 12GB(Q4) | 사고 내장, 멀티모달 |
| Gemma 4 26B | 82.3% (공식) | 16GB(Q4) | 최고 효율 로컬 |
| Llama 4 Scout 17B | (미검증) | 12GB | 12GB 구간 경쟁자 |
| Qwen3 8B | (미검증) | ~5GB | 코딩 강세, 초경량 |
| Phi-4 14B | (미검증, "GPT-4o 수준" 주장) | ~10GB | 소형 추론 강세 |
| Gemma 3 27B | 42.4% (공식) | 16GB | 이전 세대 |

결론적으로 **12B 구간에서 Gemma 4 12B는 Phi-4·Qwen·Llama 4 Scout와 경쟁하는 최상위권 후보**다. 단, 경쟁 모델 수치는 1차 검증이 안 된 것이 많아 "Gemma가 압도한다"고 단정할 수는 없다.

---

## 6. 하드웨어 요구사항 (실제 구동 스펙)

구글 공식 안내는 *"전용 GPU 노트북 기준 16GB VRAM 또는 통합 메모리면 로컬 구동 가능"*이라 명시한다(출처: Google Developers Blog, "Bringing Gemma 4 12B to your Laptop"). 메모리 요구량은 **양자화(quantization)** 방식이 좌우한다.

- BF16(전체 정밀도): 11.95B × 2바이트 ≈ **약 24GB**
- Q8(8bit): 약 13GB
- Q4_K_M(4bit GGUF): 약 6.5~8GB

### 6-1. 일반 데스크톱 + NVIDIA GPU

| 양자화 | 모델 크기 | 필요 VRAM |
|--------|---------|---------|
| Q4_K_M | ~6.5–8GB | 10–12GB |
| Q8_0 | ~13GB | 14–16GB |
| BF16 | ~24GB | 24GB+ |

**추천 GPU 매트릭스**

| 용도 | GPU | VRAM | 결론 |
|------|-----|------|------|
| 최소 가능 | RTX 3060 | 12GB | Q4 구동, 속도 보통 |
| 실용 입문 | RTX 4070 | 12GB | Q4 쾌적 |
| Q8 쾌적 | RTX 4070 Ti | 16GB | Q8 안정 |
| 여유 | RTX 4090 / 3090 | 24GB | BF16 근접·가능 |
| 풀 정밀도 | RTX 5090 | 32GB | BF16 여유 |

**권장 데스크톱 사양**: CPU 8코어 이상(i7 12세대+ / Ryzen 7 5000+), GPU **RTX 4070 12GB(실용 입문) ~ 4070 Ti 16GB(Q8 권장)**, 시스템 RAM 32GB(VRAM과 별도), NVMe SSD 20GB+.
CPU-only 구동도 가능하나 토큰 생성이 **2~5 tok/s** 수준이라 실용성은 낮다.

### 6-2. 애플 맥(Apple Silicon)

맥의 **통합 메모리(Unified Memory)**는 CPU·GPU가 같은 메모리 풀을 공유해, NVIDIA처럼 전용 VRAM 한계가 없다. 즉 시스템 RAM = GPU 메모리로 쓰이며, Ollama가 Metal(MPS)/MLX 백엔드를 자동 활용해 동급 RAM의 x86 CPU보다 유의미하게 빠르다.

| 칩 | 통합 메모리 | 12B 구동 | 권장도 |
|----|-----------|---------|--------|
| M1/M2 16GB | 16GB | Q4 가능(빡빡) | 소극 권장 — OS와 메모리 경합 |
| M2 Pro 16GB | 16GB | Q4 안정 | 구글 공식 "충분" 명시 |
| M2/M3 24GB | 24GB | Q4 쾌적·Q8 가능 | 권장 |
| M3 Pro 36GB | 36GB | Q8 이상 안정 | 적극 권장 |
| M4 Pro 24GB+ | 24GB+ | 전반 쾌적 | 적극 권장 |
| M4 Max 48GB+ | 48GB+ | 31B까지 가능 | 최고 선택 |

**맥 구매 기준 요약**:
- **가성비 입문**: M3/M4 기본형 **24GB** → 12B Q4 쾌적
- **여유 사용**: M3 Pro 36GB 또는 M4 Pro 24GB+ → Q8 안정
- **오래 쓸 고성능**: M4 Max 48GB+ → 31B까지 커버

(참고: 토큰/초 속도는 컨텍스트 길이·양자화·Ollama 버전에 따라 실측 편차가 크다. E4B 대비 12B는 30~50% 느린 것으로 추정되며, 정밀 수치는 커뮤니티 실측 갱신이 필요하다.)

---

## 7. 결론 및 시사점 (Conclusion)

### 핵심 요약

- **Gemma 4 12B는 라인업 공백을 메우는 전략 모델**이다. encoder-free 멀티모달 구조 + 사고(thinking) 내장으로, 12B 크기에 26B급 성능을 담는 데 성공했다(GPQA 78.8%, AIME 77.5% — 공식).
- **"숫자가 줄었는데 성능은?"에 대한 답**: 줄어든 것은 파라미터 수일 뿐, 세대 교체 효과로 이전 세대 27B(GPQA 42.4%)를 +36p 압도한다. 같은 패밀리 내에서는 26B·31B가 위지만, 그 격차는 메모리 절반 값으로 보면 충분히 합리적이다.
- **컨텍스트는 256K가 정답**(128K는 edge 모델 한정) — 이 점은 1차 출처로 확정됐다.

### 실용적 결론

1. **로컬 AI 입문 최적해**: 12GB VRAM GPU 또는 24GB 통합 메모리 맥에서 Q4로 돌릴 수 있으면서 과학·수학 추론 벤치마크가 상위권인 오픈웨이트 모델은 사실상 12B가 현재 가장 균형 잡힌 선택이다.
2. **애플 실리콘에서 강점 극대화**: NVIDIA RTX 4070(12GB)은 Q4가 한계지만, M3/M4 24GB 맥은 Q8까지 쾌적하다. 맥 사용자에게 특히 매력적이다.
3. **프라이버시 민감 업무**: 외부 전송 없이 로컬 구동되므로 법률·의료·금융 문서 처리에 적합하다.
4. **클라우드 대체 여부는 신중히**: GPQA 단일 지표로는 일부 클라우드 모델과 견줄 수준이나, 비교 baseline이 출처마다 어긋나고(모순 ④) 실사용 체감은 여전히 플래그십(Claude·GPT·Gemini)이 앞선다. "최상위 추론은 클라우드, 일상·로컬 처리는 12B"라는 역할 분담이 현실적이다.

### 추가 확인이 필요한 영역

- **클라우드 모델 비교 수치 전반**: GPT-5.2·Claude Opus 4.6의 GPQA 추정치(90%대)는 1차 검증 미완. thinking 조건 일치 여부도 미확인.
- **타 로컬 LLM(Phi-4·Qwen3·Llama 4 Scout) 수치**: 동일조건 검증 데이터 부재.
- **맥 토큰/초 실측치**: 12B 기준 공식 수치 부재, 커뮤니티 실측 갱신 대기.

종합하면, **공식 1차 출처로 확정된 것**(라인업 5종·256K 컨텍스트·패밀리 내 벤치마크·하드웨어 최소요건)은 신뢰도가 높고, **클라우드/타 로컬 모델과의 상대 비교**는 출처 충돌과 미검증이 섞여 있어 정성적 방향성까지만 받아들이는 것이 안전하다.

## 라운드 간 모순
- 컨텍스트 윈도우: Round 1 보고서는 128K로 기술하나 실제 주류 출처(Google/VentureBeat)는 256K 토큰으로 명시 — 보고서 사실 오류
- 근거 출처 충돌: 보고서가 의존한 gemma4.wiki·gemma4-ai.com은 1차/주류 출처가 아니며, 실재하는 1차 출처(Google Developers Blog·HuggingFace 모델 카드·VentureBeat·MarkTechPost)와 교체 검증 필요
- 벤치마크 수치(GPQA ~78-82%, GPT-5.2 92.4%, Claude Opus 4.6 91.3% 등)는 별표 추정치/미검증으로, 1차 출처 공식 수치로 대체 필요
- 컨텍스트 창: Round 1은 128K로 서술, Round 2는 공식 모델카드 근거로 256K(medium 분류)로 정정 — 12B 컨텍스트 길이가 라운드 간 불일치
- 26B 모델 명칭: Round 1 '26B MoE'(활성 3.8B) vs Round 2 '26B A4B'(활성 4B) — 명칭·활성 파라미터 수치 불일치
- 클라우드 비교 baseline 불일치: Round 1은 Claude Sonnet 4.6(GPQA 74.1%)·GPT-5.2(92.4%) 기준, Round 2는 Claude 3.5 Sonnet(~59%)·GPT-4o(~72%) 기준으로 비교 대상 모델이 어긋남
- 12B GPQA Diamond: Round 1 추정 ~78–82% vs Round 2 공식 78.8% — 범위는 겹치나 Round 1은 추정·Round 2는 확정 수치
---

## References

- [Google Developers Blog Gemma 4 12B 발표](https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/)
- [Gemma 4 model card (Google AI for Developers)](https://ai.google.dev/gemma/docs/core/model_card_4)
- [google/gemma-4-12B-it (HuggingFace 모델 카드)](https://huggingface.co/google/gemma-4-12B-it)
- [Gemma 4 12B Developer Guide](https://developers.googleblog.com/gemma-4-12b-the-developer-guide/)
- [Bringing Gemma 4 12B to your Laptop](https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/)
- [Gemma 4 (Google DeepMind)](https://deepmind.google/models/gemma/gemma-4/)

이 블로그 검색

Brave Ogu

구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리