Gemma 4 정체 분석, 로컬 오픈 모델과 클라우드 API의 이중성

- 5월 19, 2026

🤖 Google Gemma 4 종합 분석

로컬 오픈 모델인가, 클라우드 API인가 — 2026년 4월 공개 이후 한 달간의 데이터 총정리

🧠 Google AI Studio 비율 제한 화면에 Gemma 4 26B / 31B가 노출되어 "Gemma는 로컬 모델 아니었나?"라는 혼란이 커지고 있다. 결론부터 말하자면 Gemma의 본질은 여전히 로컬·오픈 가중치 모델이며, 다만 Google이 자사 클라우드를 통해 테스트·프로토타이핑용 API 채널을 추가로 열어둔 것이다. 모델 정체가 바뀐 것이 아니라 접근 채널이 다양해진 셈이다.

🗺️ 1. 질문의 맥락 — 왜 지금 Gemma 4가 화제인가

2026년 4월 2일, Google이 Gemma 4 시리즈를 Apache 2.0 라이선스로 공개하면서 오픈 LLM 진영에 다시 큰 파장이 일었다. 같은 시기 OpenAI GPT-5.5, Anthropic Claude Opus 4.7, Google 자사 Gemini 3.1 Pro까지 거의 동시 출시되며 LLM 시장의 4월은 사상 최대의 격전 분기로 기록됐다. 그 와중에 사용자들이 가장 헷갈려한 지점이 바로 "왜 오픈 모델인 Gemma에 API Rate Limit이 걸려 있나"라는 의문이다.

정답은 단순하다. 가중치(weights)는 누구나 받아 로컬에서 무제한으로 돌릴 수 있지만, Google이 클라우드 GPU 자원으로 대행 호스팅해주는 채널은 자원 공유의 영역이기 때문이다. 즉 모델은 "오픈"이고, 채널은 "공유"다. 이 두 개념의 분리를 이해하는 것이 본 보고서의 첫 단추다.

🧩 2. Gemma 4 시리즈 라인업

Gemma 4는 단일 모델이 아니라 기기·용도·성능 등급별 4종 모델의 집합이다. 모바일 엣지부터 워크스테이션 플래그십까지 폭넓게 커버하며, 모두 동일 Apache 2.0 라이선스를 따라 상업적 사용·재배포·파인튜닝이 자유롭다.

모델	구조	VRAM 요구	주요 활용처
Gemma 4 31B	Dense (조밀)	≥ 20GB (Q4)	워크스테이션·서버, 플래그십
Gemma 4 26B (A4B)	MoE (활성 3.8B) ⚠️	17~18GB	고성능 개인 GPU, 효율 우선
Gemma 4 E4B	경량 멀티모달	8~10GB	랩톱, 비전·오디오 지원
Gemma 4 E2B	초경량 Dense	3~4GB	모바일·태블릿·엣지

⚠️ 26B의 MoE 구조는 자료 간 모순이 존재한다. 자세한 내용은 아래 §6 참조.

🌐 3. 클라우드 vs 로컬 — 호출 제한의 진짜 의미

Gemma 4의 접근 경로는 크게 세 갈래로 나뉜다. 어떤 경로를 선택하는지에 따라 비용 구조, 데이터 주권, 사용 제한이 완전히 달라진다.


flowchart TD
  A([Gemma 4 사용 결정]) --> B{데이터 주권
필요?}
  B -->|YES| C[로컬 구동
Ollama·LM Studio]
  B -->|NO| D{대규모 운영?}
  D -->|YES| E[Vertex AI
유료 quota]
  D -->|NO| F[AI Studio
무료 테스트]
  style A fill:#3498db,stroke:#2980b9,color:#ffffff
  style B fill:#fef9e7,stroke:#f39c12
  style D fill:#fef9e7,stroke:#f39c12
  style C fill:#eafaf1,stroke:#27ae60,color:#1e8449
  style E fill:#eaf2f8,stroke:#2980b9,color:#2471a3
  style F fill:#fdedec,stroke:#e74c3c,color:#c0392b

📊 다이어그램 요약: Gemma 4 활용은 (1) 데이터 주권 필요 시 로컬 구동, (2) 대규모 운영 시 Vertex AI 유료 quota, (3) 소규모 테스트는 AI Studio 무료 채널로 갈라진다. 민감 데이터·상업 서비스라면 로컬이 정답이다.

🔓 로컬 구동 — 진정한 무료·무제한

가중치 다운로드 후 Ollama / LM Studio / llama.cpp 등으로 사용. 토큰당 과금이 0에 수렴하며, 외부 API에 프롬프트가 흘러나가지 않는다. 단 하드웨어 비용은 본인 부담이며, 양자화·드라이버·런타임 관리도 사용자 책임이다.

☁️ 클라우드 무료 테스트 (AI Studio)

aistudio.google.com에서 즉시 호출 가능, 단 분당·일당 호출 수 제한이 걸린다. 프로토타이핑·소규모 검증용으로 적합하며, 대규모 트래픽 단계로 진입하면 Vertex AI로 이전이 권장된다.

🏢 클라우드 유료 운영 (Vertex AI)

호출량·SLA 기반 정식 과금. Google Cloud 인프라의 안정성과 보안 인증을 그대로 활용할 수 있어 엔터프라이즈 도입에 적합. 다만 본 보고서 §6에서 다루듯 유료 quota 세부 구조는 공식 문서 직접 확인을 권장한다.

📊 4. 성능 벤치마크 — 오픈 진영 최상위권

2026년 5월 기준 공개 벤치마크에서 Gemma 4는 reasoning·코딩·수학 영역 모두 오픈 모델 진영 최상위권을 차지했다. 31B Dense 모델은 폐쇄형 중급 모델과 어깨를 나란히 하는 수준이며, 26B MoE는 동급 dense 대비 효율에서 압도적이다.

MMLU Pro · 31B

85.2%

MMLU Pro · 26B

82.6%

AIME 2026 · 31B

89.2%

AIME 2026 · 26B

88.3%

LiveCodeBench v6 · 31B

80.0%

LiveCodeBench v6 · 26B

77.1%

특히 AIME 2026 수학 벤치마크에서 89.2%를 기록한 것은 같은 시기 폐쇄형 중상위 모델과 거의 동일한 수준이며, 양자화 후 17~20GB VRAM이면 돌릴 수 있다는 점에서 "개인 GPU로 GPT 수준 추론을 한다"는 명제가 비로소 현실화됐다고 평가받는다.

⚔️ 5. 경쟁 모델과의 포지션 매트릭스

Gemma 4의 진짜 가치는 단독 성능이 아니라 경쟁 LLM과의 포지셔닝에서 드러난다. 2026년 4~5월 시장에 동시 출시된 주요 모델을 영역별로 정리하면 다음과 같다.

영역	대표 모델	출시	강점
🔓 오픈/로컬	Gemma 4 31B	2026-04-02	가중치 공개, 파인튜닝, 상업 라이선스
🤖 에이전트	GPT-5.5 (OpenAI)	2026-04-23	자율 다단계, 도구 호출 표준
💻 코드 생성	Claude Opus 4.7	2026-04-16	복잡 다파일 리팩터링, 코드 정확도
⚖️ 범용 분석	Claude Sonnet 4.6	—	균형 잡힌 비용/품질, 문체
📚 초대형 컨텍스트	Gemini 3.1 Pro	2026-02-19	2M+ 토큰, 대형 문서 분석
💰 초저비용	Gemini 3.1 Flash Lite	—	속도·단가 우위

위 표에서 명확히 보이듯 GPT-5.5·Claude Opus 4.7·Gemini 3.1 Pro는 모두 closed API 종속 모델이다. 가중치를 직접 보유·수정할 수 없으며, 모든 요청은 외부 서버를 거친다. 반면 Gemma 4는 가중치를 손에 쥘 수 있다는 단 하나의 강점만으로 다른 영역의 약점을 상쇄한다.

⚠️ 6. 자료 간 모순 — 공식 확인이 필요한 항목

조사 과정에서 1차·2차 자료 간 모순이 두 건 발견됐다. 본 보고서는 모순을 숨기지 않고 명시하며, 독자에게 Google 공식 페이지에서 직접 확인할 것을 권한다.

🔴 모순 ① — Gemma 4 26B의 구조 (MoE vs Dense)

1차 조사: "Gemma 4 26B는 MoE 구조"라고만 기술.

2차 조사: "총 25.2B 중 토큰당 3.8B만 활성화하는 A4B(Active 4B) MoE"로 구체화.

미해소 의문: 기존 Gemma 1·2·3 시리즈는 dense 위주였기에, MoE 전환 여부는 Google 공식 모델 카드(Hugging Face / ai.google.dev)에서 최종 확인이 필요하다.

🔴 모순 ② — AI Studio 호출의 비용 구조

1차 조사: "전부 무료 테스트용".

2차 조사: Vertex AI 유료 quota·production tier에 대한 명시적 근거를 확보하지 못함.

본 보고서의 가이드: "무료 테스트는 가능, 대규모 운영은 Vertex AI 또는 로컬"이라는 큰 그림까지만 단정하고, 유료 quota 세부 구조는 cloud.google.com 공식 문서에서 직접 확인을 권한다.

🌟 7. 커뮤니티가 Gemma 4에 열광하는 다섯 가지 이유

▶ 데이터 주권 — 외부 API에 프롬프트를 흘리지 않는다. 금융·의료·법무 등 기밀 정보를 다루는 산업에서 결정적인 강점이다.

▶ 파인튜닝 자유도 — LoRA·QLoRA로 도메인 특화 모델을 자체 데이터로 학습 가능. 의료 차트, 법률 판례, 사내 매뉴얼 등 특화 코퍼스로 모델을 길들일 수 있다.

▶ 상업적 라이선스 — Apache 2.0이라 스타트업·기업 내부 배포에 법적 마찰이 없다. 매출 임계점 같은 추가 제약도 없다.

▶ 오프라인 동작 — 망 분리 환경, 군·금융·의료 등 규제 산업에서도 배포 가능. 인터넷 없이도 정상 작동한다.

▶ 비용 절감 — 자체 GPU만 있다면 토큰당 과금이 0에 수렴. 월 100만 토큰 이상 처리하는 사내 RAG 시스템이라면 1년 내 하드웨어 ROI가 나온다.

🚧 8. 단점과 한계 — 만능은 아니다

아무리 강력한 오픈 모델이라도 한계는 있다. Gemma 4를 도입하기 전 반드시 점검해야 할 약점은 다음과 같다.

▶ 하드웨어 진입장벽 — 31B는 양자화해도 VRAM 20GB 이상, 26B MoE도 17~18GB 필요. RTX 4090(24GB)이 사실상 개인 사용자의 마지노선이며, 그 이하 GPU에서는 E4B·E2B 경량 라인을 선택해야 한다.

▶ 에이전트 도구 호출 신뢰도 — GPT-5.5나 Claude Opus 4.7만큼의 정밀한 함수 호출(tool calling) 안정성은 아직 부족. 자율 다단계 작업에는 별도 검증 필요.

▶ 초장문 컨텍스트 — Gemini 3.1 Pro의 2M+ 토큰 같은 규모는 지원하지 않음. 통상 8K~128K 수준이라 대형 코드베이스·논문 집합 분석에는 부적합.

▶ 운영 부담 — 양자화 포맷 선택(Q4·Q5·Q8·FP16), CUDA 드라이버, 런타임(Ollama·vLLM·llama.cpp) 버전 관리는 모두 사용자 책임. closed API의 "그냥 호출만 하면 됨" 편의는 누릴 수 없다.

⚙️ 9. 설치 가이드 — 4가지 경로별 실전 절차

🥇 A. Ollama — 가장 빠른 길

초보자에게 가장 권장하는 경로. 명령어 두세 줄이면 즉시 사용 가능하다.

# macOS
brew install ollama
ollama serve &

# Gemma 4 실행
ollama run gemma4:31b
ollama run gemma4:26b
ollama run gemma4:e4b

🖼️ B. LM Studio — GUI 선호자용

터미널 거부감이 있다면 LM Studio가 답이다. lmstudio.ai에서 앱 설치 후 Search 탭에서 gemma-4를 검색, 사양에 맞는 GGUF 양자화 모델을 다운로드(Q4_K_M 권장)하고 Chat / Local Server 탭에서 즉시 사용한다. 로컬 OpenAI 호환 API 서버 기능까지 내장돼 있어 기존 코드 재활용도 쉽다.

🧑‍💻 C. Hugging Face Transformers — 개발자용

from transformers import AutoTokenizer, AutoModelForCausalLM

tok = AutoTokenizer.from_pretrained("google/gemma-4-31b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-31b-it",
    device_map="auto",
    torch_dtype="auto",
)

🌐 D. Google AI Studio — 코드 0줄

aistudio.google.com 접속 → "Get API key" → 무료 quota 내에서 즉시 호출 가능. 가장 빠르게 모델 감각을 익힐 수 있지만, 대규모 트래픽은 Vertex AI 이전이 필수다.

🎯 10. 시나리오별 권장 의사결정

결국 모델 선택은 "무엇을 만들고 싶은가"에 달려 있다. 다음은 대표 시나리오별 최적해 가이드다.

시나리오	추천 모델	근거
상업 서비스·민감 데이터	Gemma 4 31B 로컬 / Vertex AI	데이터 주권, Apache 2.0
에이전트·터미널 자동화	GPT-5.5 (Gemma 4 보조)	도구 호출 신뢰도
2M 토큰급 대형 문서	Gemini 3.1 Pro	초장문 컨텍스트 압도적
저예산 대량 텍스트 처리	Gemini 3.1 Flash Lite / Gemma E2B	단가·속도 최우선
고품질 코드 리팩터링	Claude Opus 4.7	복잡 다파일 추론 우위

🧭 11. 결론 — Gemma 4를 어떻게 받아들일 것인가

🧠 Gemma 4는 "오픈 모델이지만 클라우드에서도 돌아간다"는 이중성을 가진 모델이며, 이 이중성 때문에 AI Studio에서 Rate Limit이 보이는 것이다. 완전 무료 사용은 로컬 구동이 정답이고, 클라우드 호출은 편의를 위한 무료 테스트 채널로 보는 것이 안전하다.

성능은 오픈 진영 최상위권이지만 에이전트·초장문 컨텍스트에서는 여전히 closed 진영(GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro)이 우세하다. 따라서 데이터 주권·파인튜닝·오프라인 운영이 필요한 시나리오에서 Gemma 4는 대체 불가능한 카드이며, 그 외 영역에서는 closed 모델과 병행하는 하이브리드 전략이 합리적이다.

2026년 LLM 시장의 핵심 트렌드는 더 이상 "어떤 모델이 가장 강한가"가 아니라 "어떤 모델을 어떤 자리에 배치할 것인가"로 옮겨갔다. Gemma 4의 등장은 그 배치판에 가장 중요한 한 칸을 추가한 사건이며, 향후 1~2년간 사내 RAG·도메인 특화 봇·규제 산업 LLM의 표준 출발선이 될 가능성이 매우 높다.

📚 References

※ 본 글은 정보 제공 목적이며 투자 권유가 아닙니다. 모델 도입 결정은 자체 검증과 책임 하에 진행하시기 바랍니다.

📄 Raw Data

# Google Gemma 4 종합 분석 — 로컬 오픈 모델인가, 클라우드 API인가

## 1. 질문의 맥락 정리

Google AI Studio의 비율 제한(Rate Limit) 화면에 Gemma 4 26B / 31B가 노출된 이유는 단순하다. Gemma는 본질적으로 **로컬 구동을 지향하는 오픈 가중치(open-weights) 모델**이지만, Google이 자사 클라우드 인프라를 통해 **테스트 및 프로토타이핑용 API**도 함께 제공하기 때문이다. 즉 "Gemma는 로컬 모델"이라는 기존 이해는 절반만 맞다 — 모델의 정체는 로컬·오픈 모델이되, 접근 채널이 다양화된 것이다.

## 2. Gemma 4 시리즈 라인업

2026년 4월 2일 공개된 Gemma 4는 Apache 2.0 라이선스를 따르며 상업적 사용·재배포·파인튜닝이 자유롭다([binaryverseai.com](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFUu7LAMbzhErJbxhEpCsx9M6CF2YmucuBatT3fJT7w7Kf31QzjU88Iuh3t6khTudIiOaXt4uwrgjxMYow_XomZmAilevUWRk7oJ22LyE9hvL40ALCsn8MszaWQiIPP4NoUJDle2TCcsk49T9TVcu6FnpttCIf-qvotqcrKFMJoBo7QgPI=)).

| 모델 | 구조 | 주요 활용처 |
| :--- | :--- | :--- |
| **Gemma 4 31B** | Dense (조밀) | 워크스테이션·서버, 최대 성능용 플래그십 |
| **Gemma 4 26B (A4B)** | MoE (활성 3.8B) — *주의: 자료 간 모순 있음, 아래 §6 참조* | 고성능 개인용 GPU, 효율 최우선 |
| **Gemma 4 E4B** | 경량 멀티모달 | 랩톱, 비전·오디오 지원 |
| **Gemma 4 E2B** | 초경량 | 모바일·태블릿·엣지 |

26B의 MoE 해석에 따르면 총 25.2B 파라미터 중 토큰당 3.8B만 활성화되어 31B에 근접한 성능을 훨씬 낮은 비용으로 제공한다.

## 3. 클라우드 vs 로컬 — 호출 제한의 의미

Google AI Studio에 Gemma 4 호출 한도가 표시되는 까닭은 Google이 **클라우드 GPU 자원을 공유**하기 때문이다. 모델 가중치 자체는 누구나 다운로드해 로컬에서 무제한으로 돌릴 수 있으나, 클라우드 채널을 빌릴 때는 자원 남용 방지를 위한 Rate Limit이 걸린다.

- **클라우드 무료 테스트 채널**: AI Studio에서 즉시 호출 가능, 단 분당/일당 호출 수 제한.
- **클라우드 유료/Production 채널**: Vertex AI를 통한 정식 운영, 호출량·SLA 기반 과금 가능.
- **로컬 구동**: 가중치 다운로드 후 Ollama / LM Studio / llama.cpp 등으로 무료·무제한 사용, 단 하드웨어 비용은 본인 부담.

> **모순 명시**: 1차 조사는 "AI Studio 호출은 자원 남용 방지를 위한 무료 테스트용"이라 단정했으나, 2차 조사에서는 Vertex AI를 통한 정식 production tier·유료 quota 존재 여부가 공식 문서로 재확인되지 않았다. 따라서 **본 보고서는 "무료 테스트 채널은 확실히 존재한다"**까지만 단정하고, 유료 quota 구조는 Google Cloud 공식 페이지에서 직접 확인할 것을 권한다.

## 4. 성능 벤치마크 (2026-05 기준)

| Benchmark | Gemma 4 31B | Gemma 4 26B (MoE) |
| :--- | :--- | :--- |
| MMLU Pro | **85.2%** | 82.6% |
| AIME 2026 (수학) | **89.2%** | 88.3% |
| LiveCodeBench v6 | **80.0%** | 77.1% |

오픈 모델 진영에서는 최상위권 reasoning·코딩 성능을 보여준다([binaryverseai.com](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFUu7LAMbzhErJbxhEpCsx9M6CF2YmucuBatT3fJT7w7Kf31QzjU88Iuh3t6khTudIiOaXt4uwrgjxMYow_XomZmAilevUWRk7oJ22LyE9hvL40ALCsn8MszaWQiIPP4NoUJDle2TCcsk49T9TVcu6FnpttCIf-qvotqcrKFMJoBo7QgPI=)).

## 5. 경쟁 모델과의 비교

| 구분 | 모델 | 출시 | 강점 |
| :--- | :--- | :--- | :--- |
| 오픈/로컬 | **Gemma 4 31B** | 2026-04-02 | 가중치 공개, 파인튜닝, 상업 라이선스 |
| 에이전트/터미널 | **GPT-5.5** (OpenAI) | 2026-04-23 | 자율 다단계, 도구 호출 표준([philipconrod.com](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGH4ikeT0m_tG7FHWtNYFr8s2LMWeJM5eYLClgkM1lBzMRPWoK6FAvKgzEVVPJvR7QbnDZQbqG8kSzTCcP4niNkVPvEzKGW2A0Qw2cUOUDRXohkRQDdeMO2yZ9Yb4zWJWcOkldCLz4vQjcr_XperBYzZXyXAORL1k-taEQkeIjQaAI=)) |
| 프로덕션 코드 | **Claude Opus 4.7** (Anthropic) | 2026-04-16 | 복잡 다파일 리팩터링, 코드 정확도([hidekazu-konishi.com](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHO-QcZVrz14qlHpibGKcR-SL_N1x43pFNMeRWW08Ko0HDtN0DbAjOaNWNsR_MZ8zvXdGlX5dgicsdaRLo62C_0eSmag5D9OTCWm9844onOc7nGu5ZsjIhYuc120-OQaY3-uhuIxPPMXT8OF42s5zLSSmFfJB5HoC4yNBjKu0rBpqD43vWfV2YY5Dg=)) |
| 범용 분석 | **Claude Sonnet 4.6** | — | 균형 잡힌 비용/품질, 문체 |
| 초대형 컨텍스트 | **Gemini 3.1 Pro** | 2026-02-19 | 2M+ 토큰, 대형 문서 분석 |
| 초저비용 | **Gemini 3.1 Flash Lite** | — | 속도·단가 우위 |
| 코드 보조 | **GPT-5.4** | — | 가성비 코드 모델 (세대 차) |

Gemma 4의 차별점은 명확하다 — 위 모델들은 모두 **closed API 종속**이지만 Gemma 4는 **가중치를 손에 쥘 수 있다**.

## 6. 자료 간 모순 정리

1. **26B의 구조 (MoE vs Dense)**
   - 1차 조사: "Gemma 4 26B는 MoE 구조"라고만 기술.
   - 2차 조사: "총 25.2B 중 토큰당 3.8B만 활성화하는 A4B(Active 4B) MoE"라고 구체화.
   - 그러나 기존 Gemma 1·2·3 시리즈는 dense 위주였기에, **MoE 전환 여부는 Google 공식 모델 카드(Hugging Face / ai.google.dev)에서 최종 확인을 권장**한다.
2. **AI Studio 호출의 비용 구조**
   - 1차 조사: "전부 무료 테스트용".
   - 2차 조사: 유료 quota·production tier에 대한 명시적 근거를 확보하지 못함.
   - 따라서 본 보고서는 **"무료 테스트는 가능, 대규모 운영은 Vertex AI 또는 로컬"**이라는 가이드까지만 단정한다.

## 7. 커뮤니티가 Gemma 4를 언급하는 진짜 이유

- **데이터 주권**: 외부 API에 프롬프트를 흘리지 않는다.
- **파인튜닝 자유도**: LoRA·QLoRA로 도메인 특화 모델 제작 가능.
- **상업적 라이선스**: Apache 2.0 — 스타트업·기업 내부 배포에 법적 마찰이 없음.
- **오프라인 동작**: 망 분리 환경, 군·금융·의료 등 규제 산업에 적합.
- **비용 절감**: 자체 GPU만 있다면 토큰당 과금이 0에 수렴.

## 8. 단점·한계

- **하드웨어 요구**: 31B는 양자화해도 VRAM 20GB 이상, 26B MoE도 17~18GB 필요.
- **에이전트 도구 호출**: GPT-5.5 / Claude Opus 4.7만큼의 도구 사용 신뢰도는 아직 부족.
- **초장문 컨텍스트**: Gemini 3.1 Pro의 2M+ 토큰 같은 규모는 지원하지 않음.
- **유지보수**: 양자화·드라이버·런타임 관리는 사용자 책임.

## 9. 설치 가이드 (로컬 구동)

### A. Ollama (가장 쉬움)
```bash
# macOS
brew install ollama
ollama serve &

# Gemma 4 실행
ollama run gemma4:31b
ollama run gemma4:26b
ollama run gemma4:e4b
```

### B. LM Studio (GUI)
1. lmstudio.ai에서 앱 설치.
2. Search 탭에서 `gemma-4` 검색 → 사양에 맞는 GGUF 양자화 모델 다운로드(Q4_K_M 권장).
3. Chat / Local Server 탭에서 즉시 사용.

### C. Hugging Face + Transformers (개발자용)
```python
from transformers import AutoTokenizer, AutoModelForCausalLM
tok = AutoTokenizer.from_pretrained("google/gemma-4-31b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-4-31b-it",
    device_map="auto",
    torch_dtype="auto",
)
```

### D. Google AI Studio (코드 0줄)
- aistudio.google.com 접속 → "Get API key" → 무료 quota 내에서 즉시 호출.
- 대규모 트래픽은 Vertex AI로 이전 권장.

## 10. 권장 의사결정 트리

- **상업 서비스·민감 데이터 보유** → Gemma 4 31B 로컬 또는 Vertex AI 배포.
- **에이전트·터미널 자동화 필요** → GPT-5.5 우선, Gemma 4는 보조.
- **2M 토큰급 문서 처리** → Gemini 3.1 Pro.
- **저예산 텍스트 처리** → Gemini 3.1 Flash Lite 또는 Gemma 4 E2B 로컬.
- **고품질 코드 생성·리팩터링** → Claude Opus 4.7.

## 11. 결론

Gemma 4는 "오픈 모델이지만 클라우드에서도 돌아간다"는 이중성을 가진 모델이며, 이 이중성 때문에 AI Studio에서 Rate Limit이 보이는 것이다. **완전 무료 사용은 로컬 구동이 정답**이고, **클라우드 호출은 편의를 위한 무료 테스트 채널**로 보는 것이 안전하다. 성능은 오픈 진영 최상위권이지만 에이전트·초장문 컨텍스트에서는 여전히 closed 진영(GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro)이 우세하다. 따라서 **데이터 주권·파인튜닝·오프라인 운영이 필요한 시나리오**에서 Gemma 4는 대체 불가능한 카드이며, 그 외 영역에서는 closed 모델과 병행하는 하이브리드 전략이 합리적이다.

## 라운드 간 모순
- Gemma 4 26B를 'MoE 구조'로 단정했으나 Google 공식 발표 확인 필요 — 기존 Gemma 시리즈는 dense 모델 위주였음
- Google AI Studio의 Gemma API 호출이 '무료 테스트용'이라 했으나 실제 production tier/유료 quota 존재 여부 미확인
---

## References

- [BinaryVerseAI Gemma 4 Release Note](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQFUu7LAMbzhErJbxhEpCsx9M6CF2YmucuBatT3fJT7w7Kf31QzjU88Iuh3t6khTudIiOaXt4uwrgjxMYow_XomZmAilevUWRk7oJ22LyE9hvL40ALCsn8MszaWQiIPP4NoUJDle2TCcsk49T9TVcu6FnpttCIf-qvotqcrKFMJoBo7QgPI=)
- [Philip Conrod GPT-5.5 Launch](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQGH4ikeT0m_tG7FHWtNYFr8s2LMWeJM5eYLClgkM1lBzMRPWoK6FAvKgzEVVPJvR7QbnDZQbqG8kSzTCcP4niNkVPvEzKGW2A0Qw2cUOUDRXohkRQDdeMO2yZ9Yb4zWJWcOkldCLz4vQjcr_XperBYzZXyXAORL1k-taEQkeIjQaAI=)
- [Hidekazu Konishi Claude Opus 4.7 Note](https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQHO-QcZVrz14qlHpibGKcR-SL_N1x43pFNMeRWW08Ko0HDtN0DbAjOaNWNsR_MZ8zvXdGlX5dgicsdaRLo62C_0eSmag5D9OTCWm9844onOc7nGu5ZsjIhYuc120-OQaY3-uhuIxPPMXT8OF42s5zLSSmFfJB5HoC4yNBjKu0rBpqD43vWfV2YY5Dg=)

이 블로그 검색

Brave Ogu

구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리