Gemma 4 vs Gemini Flash, API로 검색 되는 모델은?
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
🔍 API로 부른 Gemma 4, 인터넷 검색 될까? — Gemini Flash 계열과 전격 비교
2026년 5월 기준 · 오픈 웨이트 vs 프론티어 관리형 모델 분석
결론부터 말하면, Gemini API로 호출한 Gemma 4는 로컬 설치 없이도 구글 검색(Google Search Grounding)을 네이티브로 지원합니다. 즉 인터넷 검색이 가능합니다. 다만 직접 내려받아 PC·서버에서 돌리는 로컬(self-hosted) Gemma는 검색이 안 되어 별도 파이프라인을 붙여야 합니다. 순수 추론 성능은 Gemini 계열이 앞서지만, 비용과 개방성에서는 Gemma 4가 확실한 우위입니다.
💡 핵심 한 줄: "인터넷 검색 가능 여부"는 모델 자체가 아니라 '어디서 어떻게 호스팅하느냐'에 달려 있습니다. API 경로면 Gemma도 검색되고, 로컬 경로면 직접 붙여야 합니다.
📋 먼저, 등장하는 세 모델 정리
질문에 나온 세 모델은 모두 2026년 들어 막 공개된 실재하는 최신 모델입니다. 헷갈리기 쉬운 정체성을 먼저 깔끔하게 구분해 두겠습니다.
🟢 Gemma 4 (26B · 31B) — 오픈 웨이트
2026년 4월 2일 출시. Gemini 3 연구를 기반으로 한 개방형(Apache 2.0) 모델입니다. 초소형 E2B·E4B(128K 컨텍스트)와 중형 26B MoE(gemma-4-26b-a4b-it)·31B Dense(gemma-4-31b-it, 256K 컨텍스트)로 나뉩니다. Hugging Face·AI Studio·Gemini API 모두에서 접근 가능하며, AI Studio에서 본 '26B·31B'가 바로 이 둘입니다.
🟡 Gemini 3.1 Flash-Lite — 최고 가성비
2026년 5월 정식 출시(GA). 입력 100만 토큰당 $0.25, 출력 $1.50의 초저지연·최고 가성비 관리형 모델입니다. 직전 세대인 2.5 Flash보다 첫 토큰 응답이 약 2.5배 빠릅니다.
🔵 Gemini 3.5 Flash — 최신 플래그십 Flash
질문하신 날짜(2026-05-19~20) 직전 Google I/O 2026에서 막 공개된 최신 모델입니다. 출력 토큰 속도가 타 프론티어 모델 대비 약 4배, 에이전트 벤치마크에서는 상위 모델인 Gemini 3.1 Pro마저 능가한다고 발표됐습니다. 에이전트·코딩 용도에 초점을 둔 모델입니다.
세 모델의 출시 시점을 시간순으로 보면 이렇게 최근 2개월에 몰려 있습니다.
📖 용어 풀이 — '오픈 웨이트(Open Weight)'는 모델의 학습된 가중치를 공개해 누구나 내려받아 운용·파인튜닝할 수 있는 형태입니다. 반대로 '관리형(Managed)'은 구글 서버에서만 돌아가고 API로만 접근합니다. 'MoE(전문가 혼합)'는 입력마다 일부 전문가 네트워크만 활성화해 처리량을 높이는 구조, 'Dense'는 모든 파라미터를 항상 사용해 추론 정밀도가 높은 구조입니다.
📊 성능 비교 — 벤치마크로 본 지능 서열
직접 맞붙은 데이터가 공개된 조합은 Gemma 4 31B vs Gemini 3 Flash입니다(3.5 Flash는 출시 직후라 제3자 벤치마크가 아직 축적되지 않았습니다). 독립 벤치마크 집계 기준 주요 지표를 막대로 비교하면 다음과 같습니다.
MMMLU (다국어 지식, %)
GPQA (대학원급 추론, %)
순수 지능·추론에서는 Gemini 계열이 명확히 우위입니다. Gemini 3 Flash가 GPQA·MMMLU는 물론 Humanity's Last Exam, MMMU-Pro 등 주요 벤치마크 전반에서 Gemma 4 31B를 앞섭니다. 최신 3.5 Flash는 3 Flash보다 한 단계 위이므로, 추론·에이전트 성능 서열은 대략 다음 순서로 보는 것이 합리적입니다.
Gemini 3.5 Flash > Gemini 3.1 Flash-Lite ≈ Gemini 3 Flash > Gemma 4 31B > Gemma 4 26B
다만 Gemma 4 31B는 '규모 대비 지능(intelligence-per-parameter)' 최상위권 오픈 모델입니다. 31B Dense가 GPQA 84%대를 찍는 건 동급 오픈 웨이트 중 최고 수준이고, 결정적으로 호스팅 비용이 압도적으로 쌉니다. 26B는 MoE 구조라 추론 정밀도는 다소 낮지만 처리량(throughput)이 좋아, 대량 단순 작업이면 26B, 추론 품질이 중요하면 31B가 유리합니다.
💰 가격 격차는 더 극적입니다
100만 토큰당 비용을 각 항목 최댓값 기준으로 정규화하면, Gemma 4의 가격 경쟁력이 한눈에 들어옵니다.
입력 가격 ($/1M tokens)
출력 가격 ($/1M tokens)
즉 Gemma 4 31B는 Gemini 3 Flash 대비 입력 약 1/3.6, 출력 약 1/7.5 수준입니다. 대량 호출을 돌리면 누적 비용 차이가 어마어마하게 벌어집니다.
반면 컨텍스트 윈도우(한 번에 처리하는 정보량)는 Gemini가 압도합니다. 긴 문서·대량 검색 결과를 한 번에 소화하는 능력이 필요하면 Gemini 쪽이 유리합니다.
컨텍스트 윈도우 (토큰, 1M 기준 정규화)
🌐 핵심 질문 — Gemma로 인터넷 검색이 되는가?
이 질문이 가장 중요하고, 동시에 인터넷에서 정보가 가장 엇갈리는 지점입니다. 공식 문서를 기준으로 한 정답은 "호스팅 방식에 따라 다르다"입니다. 아래 흐름으로 정리됩니다.
flowchart TD
A([Gemma 4로 검색]) --> B{어디서
호스팅?}
B -->|Gemini API| C[google_search 툴
검색 가능 ✅]
B -->|로컬 설치| D[RAG 직접 구축
필요 ⚠️]
style A fill:#3498db,stroke:#2980b9,color:#ffffff
style B fill:#fef9e7,stroke:#f39c12
style C fill:#eafaf1,stroke:#27ae60,color:#1e8449
style D fill:#fdedec,stroke:#e74c3c,color:#c0392b
🔁 다이어그램 요약: Gemma 4의 인터넷 검색은 Gemini API로 호출하면 google_search 툴로 바로 가능하고(검색 가능), 직접 내려받아 로컬에서 돌리면 외부 검색을 붙이는 RAG 로직을 개발자가 직접 만들어야 한다(검색 불가).
✅ API 호출 시: 가능 (네이티브 지원)
Gemini API로 호스팅된 Gemma 4는 요청의 tools 파라미터에 {"google_search": {}}만 넣으면 실시간 웹 검색을 수행하고, 응답에 출처(citation)와 그라운딩 메타데이터를 함께 반환합니다. Gemini 모델과 완전히 동일한 방식입니다. 즉, 로컬에 설치하지 않아도 API로 부르면 인터넷 검색이 됩니다.
⚠️ 로컬 설치 시: 기본 불가능
직접 다운로드해 자기 인프라·PC에서 구동하는 Gemma는 인터넷에 연결되지 않습니다. 검색이 필요하면 외부 검색 API(Google Custom Search, SerpAPI 등)로 받아온 결과를 모델 컨텍스트에 직접 주입하는 RAG 로직을 개발자가 직접 구축해야 합니다.
📖 그라운딩(Grounding)이란? 모델이 자기 내부 지식만으로 답하지 않고, 실시간 검색 결과 같은 외부 사실에 답변을 '접지'시키는 기능입니다. 덕분에 최신 정보 반영과 출처 인용이 가능해져 환각(hallucination)이 줄어듭니다. RAG(검색 증강 생성)는 이를 직접 구현하는 일반 기법이고, google_search 그라운딩은 구글이 그 과정을 통째로 대신해 주는 관리형 버전인 셈입니다.
한 가지 실무적 차이가 있습니다. Gemini 3.x Flash 계열은 멀티스텝 검색·출처 인용이 더 정교하고, 1M 컨텍스트로 대량 검색 결과를 소화하기 유리합니다. Gemma 4도 같은 google_search 툴을 쓰지만 컨텍스트가 256K로 작아, 매우 긴 검색 기반 작업에서는 Gemini 쪽이 더 안정적입니다.
🆓 무료 티어 호출 한도 — 출처마다 수치가 엇갈립니다
"무료 티어에서 상당히 많이 호출하고 싶다"는 관심사에 대해서는 출처마다 수치가 달라 단정하기 어렵습니다. 두 가이드를 나란히 비교해 보겠습니다.
| 모델 | 출처 A (2026-03) | 출처 B (2026) |
|---|---|---|
| Flash 계열 | 10 RPM · 250 RPD | 30 RPM · 1,500 RPD |
| Flash-Lite | 15 RPM · 1,000 RPD | 30 RPM · 1,500 RPD |
| Gemma 4 | Gemini API 일일 한도 체계 공유 (약 1,500 RPD대, 정확 수치 출처별 상이) | |
📖 한도 단위 — RPM(Requests Per Minute, 분당 요청), RPD(Requests Per Day, 일당 요청), TPM(Tokens Per Minute, 분당 토큰). 대량 호출의 실질 천장은 보통 RPD가 결정합니다.
참고로 Gemini 3.5 Flash는 출시 직후라 무료 티어 제공 여부가 아직 불명확합니다. 초기에는 유료 위주일 가능성도 있습니다. 무료 한도는 모델·리전·프로젝트·과금 상태에 따라 실시간으로 바뀌므로, 확정 수치는 반드시 Google AI for Developers 공식 Rate limits 문서와 본인 AI Studio 대시보드에서 직접 확인해야 합니다.
✓ 방향성은 분명합니다 — 대량 무료 호출이 목적이라면 RPD가 가장 넉넉한 Flash-Lite / Gemma 계열이 정답입니다.
🎯 결론 — 목적별 모델 선택 가이드
"무엇이 가장 중요한가"라는 한 가지 기준만 정하면, 선택은 의외로 단순해집니다.
flowchart TD
A([모델 선택]) --> B{최우선 기준?}
B -->|추론·검색 품질| C[Gemini 3.5 Flash]
B -->|저비용·대량 호출| D[Flash-Lite / Gemma 4]
B -->|데이터 소유·온프레미스| E[Gemma 4 31B / 26B]
style A fill:#3498db,stroke:#2980b9,color:#ffffff
style B fill:#fef9e7,stroke:#f39c12
style C fill:#eafaf1,stroke:#27ae60,color:#1e8449
style D fill:#eaf2f8,stroke:#2980b9
style E fill:#f4ecf7,stroke:#8e44ad
🔁 다이어그램 요약: 추론·검색 품질이 최우선이면 Gemini 3.5 Flash, 저비용 대량 호출이 핵심이면 Flash-Lite 또는 Gemma 4, 데이터 소유권·파인튜닝·온프레미스가 중요하면 오픈 웨이트인 Gemma 4 31B(품질)·26B(처리량)를 고른다.
1. 실시간 검색 + 최고 추론품질 → Gemini 3.5 Flash(또는 3.1 Flash-Lite). 검색 그라운딩이 가장 정교하고 1M 컨텍스트로 대량 검색 결과 처리에 유리합니다.
2. 무료·저비용 대량 호출 → Gemini 3.1 Flash-Lite 또는 Gemma 4. 둘 다 RPD가 넉넉하고, Gemma 4는 호스팅 단가가 압도적으로 쌉니다.
3. "API Gemma로 인터넷 검색"은 가능 → tools=[{"google_search": {}}]만 붙이면 됩니다. 로컬 Gemma만 검색 파이프라인을 직접 만들어야 합니다.
4. 데이터 소유·파인튜닝·온프레미스 → Gemma 4 31B(품질) / 26B MoE(처리량). Apache 2.0으로 자유롭게 운용 가능하되, 순수 추론 점수는 Gemini에 다소 뒤집니다.
🧠 한마디 정리: 지능은 Gemini, 지갑은 Gemma. 그리고 검색은 모델이 아니라 '경로'가 결정합니다 — API로 부르면 Gemma도 똑똑하게 검색합니다.
추가로 직접 확인하면 좋은 것
✓ 본인 프로젝트의 실제 무료 RPM/RPD (AI Studio 대시보드)
✓ Gemini 3.5 Flash의 무료 티어 포함 여부 (출시 직후라 정책 변동 가능)
✓ Gemma 4와 Gemini 3.5 Flash의 직접 벤치마크 (데이터 축적 대기 중)
📌 본 글의 가격·벤치마크·무료 한도 수치는 2026년 5월 기준 공개 자료를 종합한 것으로, 모델 정책과 요금은 수시로 변동됩니다. 실제 도입 전에는 Google AI for Developers 공식 문서와 본인 프로젝트 대시보드에서 최신 수치를 반드시 재확인하시기 바랍니다.
참고 출처: Google AI for Developers(Gemma on Gemini API · Rate limits), Google 블로그, Google Cloud 블로그, artificialanalysis.ai, llm-stats.com.
📄 Raw Data
핵심 사실이 모두 공식·1차 자료로 검증됐고, 라운드 간 모순도 해소됐습니다. 최종 보고서를 작성합니다.
---
# Gemma 4 vs Gemini Flash 계열: 성능·무료 티어·인터넷 검색(Grounding) 종합 비교
## 1. 질문의 핵심과 검증 결과 요약
질문은 두 갈래입니다. ① **API로 호출하는 Gemma 4(26B·31B)가 Gemini 3.1 Flash Lite, Gemini 3.5 Flash와 비교해 상대 성능이 어느 정도인가**, ② **로컬 설치가 아니라 API로 부른 Gemma도 인터넷 검색이 되는가, 안 되는가**입니다.
먼저 결론부터 명확히 합니다. 누적 조사 라운드 사이에 정면 충돌이 있었으나(아래 5절에서 명시), **공식 문서로 교차검증한 결과 핵심 사실은 다음과 같이 확정됩니다.**
- **Gemma 4는 Gemini API를 통해 호출하면 로컬 설치 없이도 Google 검색(`google_search`) 그라운딩을 네이티브로 지원합니다.** 즉 인터넷 검색이 **가능**합니다 ([Google AI for Developers — Run Gemma with the Gemini API](https://ai.google.dev/gemma/docs/core/gemma_on_gemini_api)).
- 단, **로컬에 직접 설치한(self-hosted) Gemma**는 인터넷에 연결되지 않으며, 검색을 원하면 별도 검색 파이프라인(RAG)을 직접 붙여야 합니다.
- 순수 추론 성능은 **Gemini 계열 > Gemma 4**이지만, **비용·개방성에서는 Gemma 4가 우위**입니다.
## 2. 기초 정보 — 2026년 5월 기준 모델 라인업
질문에 등장하는 세 모델은 모두 **실재하는 최신 모델**이며, 출시 시점이 매우 최근입니다.
| 모델 | 분류 | 출시 | 핵심 정체성 |
|------|------|------|-------------|
| **Gemma 4 (26B·31B)** | 오픈 웨이트 (Apache 2.0) | 2026-04-02 | Gemini 3 연구 기반의 개방형 모델 |
| **Gemini 3.1 Flash-Lite** | 프론티어 관리형 | 2026-05 GA | 초저지연·최고 가성비 |
| **Gemini 3.5 Flash** | 프론티어 관리형 | 2026-05-19 (I/O 2026) | 에이전트·코딩용 최신 플래그십 Flash |
- **Gemma 4** 패밀리는 E2B·E4B(초소형, 128K 컨텍스트)와 **26B MoE**(`gemma-4-26b-a4b-it`)·**31B Dense**(`gemma-4-31b-it`)(중형, 256K 컨텍스트)로 구성됩니다. Apache 2.0 라이선스로, Hugging Face·Google AI Studio·Gemini API 모두에서 접근 가능합니다 ([Gemma 4 model overview](https://ai.google.dev/gemma/docs/core), [Google 블로그 — Gemma 4](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)). 사용자가 본 "AI Studio의 26B·31B"가 바로 이 두 모델입니다.
- **Gemini 3.5 Flash**는 질문하신 날짜(2026-05-19~20) 직전 Google I/O 2026에서 막 공개된 **최신 모델**입니다. 출력 토큰 속도가 타 프론티어 모델 대비 약 4배, 에이전트 벤치마크에서 Gemini 3.1 Pro를 능가한다고 발표됐습니다 ([MarkTechPost — Gemini 3.5 Flash at I/O 2026](https://www.marktechpost.com/2026/05/20/google-introduces-gemini-3-5-flash-at-i-o-2026-a-faster-and-cheaper-model-for-ai-agents-and-coding/)).
- **Gemini 3.1 Flash-Lite**는 입력 $0.25 / 출력 $1.50(100만 토큰당) 가격의 최고 가성비 모델로, 이전 2.5 Flash 대비 첫 토큰 응답이 약 2.5배 빠릅니다 ([Google Cloud 블로그](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-flash-lite-is-now-generally-available)).
## 3. 성능 비교 — 벤치마크 데이터
직접적인 head-to-head 데이터가 공개된 조합은 **Gemma 4 31B vs Gemini 3 Flash**입니다(Gemini 3.5 Flash는 출시 직후라 제3자 벤치마크가 아직 축적되지 않음). 독립 벤치마크 집계 기준은 다음과 같습니다 ([artificialanalysis.ai](https://artificialanalysis.ai/models/comparisons/gemma-4-31b-vs-gemini-3-flash), [llm-stats.com](https://llm-stats.com/models/compare/gemini-3-flash-preview-vs-gemma-4-31b-it)).
| 항목 | Gemini 3 Flash | Gemma 4 31B |
|------|----------------|-------------|
| MMMLU (다국어 지식) | **91.8%** | 88.4% |
| GPQA (대학원급 추론) | **90.4%** | 84.3% (Diamond) |
| 컨텍스트 윈도우 | **1,000,000 토큰** | 262,144 토큰 (256K) |
| 입력 가격(100만 토큰) | $0.50 | **$0.14** |
| 출력 가격(100만 토큰) | $3.00 | **$0.40** |
해석:
- **순수 지능·추론은 Gemini 계열이 명확히 우위.** Gemini 3 Flash가 GPQA, MMMLU, Humanity's Last Exam, MMMU-Pro 등 주요 벤치마크 전반에서 Gemma 4 31B를 앞섭니다. 최신 **Gemini 3.5 Flash는 Gemini 3 Flash보다 한 단계 위**이므로, 추론·에이전트 성능 서열은 **Gemini 3.5 Flash > Gemini 3.1 Flash-Lite ≈ Gemini 3 Flash > Gemma 4 31B > Gemma 4 26B** 순으로 보는 것이 합리적입니다.
- **다만 Gemma 4 31B는 "규모 대비(intelligence-per-parameter)" 최상위권 오픈 모델**입니다. 31B Dense가 GPQA 84%대를 기록하는 것은 동급 오픈 웨이트 중 최고 수준이며, 호스팅 가격은 Gemini 3 Flash의 **입력 1/3.6, 출력 1/7.5** 수준으로 압도적으로 저렴합니다.
- **26B는 MoE(전문가 혼합) 구조**로 31B Dense보다 추론 정밀도는 다소 낮지만 처리량(throughput) 효율이 높습니다. 대량 단순 작업이면 26B, 추론 품질이 중요하면 31B가 유리합니다.
## 4. 인터넷 검색(Google Search Grounding) — 사용자 핵심 질문
이것이 질문의 가장 중요한 지점이며, 누적 라운드가 가장 크게 엇갈린 부분입니다. **공식 문서 기준 정답은 다음과 같습니다.**
- **API 호출 시: 가능(네이티브 지원).** Gemini API를 통해 호스팅된 Gemma 4는 요청의 `tools` 파라미터에 `{"google_search": {}}`를 설정하면 **실시간 웹 검색을 수행하고, 응답에 출처(citation)와 그라운딩 메타데이터를 포함**합니다. Gemini 모델과 동일한 방식입니다 ([Run Gemma with the Gemini API](https://ai.google.dev/gemma/docs/core/gemma_on_gemini_api), [Grounding with Google Search](https://ai.google.dev/gemini-api/docs/google-search)). 즉, **로컬에 설치하지 않아도 API로 부르면 인터넷 검색이 됩니다.**
- **로컬 설치(self-hosted) 시: 기본 불가능.** 직접 다운로드해 자기 인프라/PC에서 구동하는 Gemma는 인터넷에 연결되지 않습니다. 검색이 필요하면 외부 검색 API(예: Google Custom Search, SerpAPI 등)로 받아온 결과를 모델 컨텍스트에 직접 주입하는 RAG 로직을 **개발자가 직접 구축**해야 합니다.
정리하면, **"인터넷 검색 가능 여부"는 모델 자체가 아니라 '어디서 어떻게 호스팅하느냐'에 달려 있습니다.** Gemini API라는 관리형 경로를 타면 Gemma도 검색이 되고, 로컬 경로를 타면 직접 붙여야 합니다.
> 한 가지 실무적 차이: Gemini 3.x Flash 계열은 멀티스텝 검색·출처 인용이 더 정교하고 1M 컨텍스트로 대량 검색 결과를 소화하기 유리합니다. Gemma 4도 동일 `google_search` 툴을 쓰지만 컨텍스트가 256K로 더 작아, 매우 긴 검색 기반 작업에서는 Gemini 쪽이 안정적입니다.
## 5. 라운드 간 모순 명시 (정직성 원칙)
조사 라운드들 사이에 다음과 같은 충돌이 있었고, 공식 문서로 판정했습니다.
- **모순 ①:** Round 1은 본문에서 "Gemma에 `google_search` 툴을 연결할 수 있다"고 하면서, 결론에서는 "검색이 내장돼 있지 않아 직접 검색 API 연동 로직을 개발해야 한다"고 **자기 모순**을 보였습니다.
- **모순 ②:** Round 1은 "API로 부른 Gemma는 검색 미지원, 외부 결과 주입 필요"라 했으나, Round 2는 "Gemma 4가 `google_search` 그라운딩을 **네이티브 지원**한다"고 정반대로 서술했습니다.
- **판정:** **Round 2가 정확합니다.** Google 공식 문서(`ai.google.dev/gemma/docs/core/gemma_on_gemini_api`)가 API 경유 Gemma 4의 네이티브 `google_search` 지원을 명시합니다. Round 1의 혼선은 "로컬 Gemma(검색 불가)"와 "API Gemma(검색 가능)"를 구분하지 못한 데서 비롯된 것으로 보입니다.
- **모순 ③(세대 오류):** Round 3은 Gemini 1.5 Flash·2.0 Flash-Lite·Gemma 2 27B 등 **구세대 모델**을 근거로 비교했습니다. 이는 2026년 5월 현 시점 기준 **outdated**이며(2.0 Flash 계열은 2026-06-01 종료 예정), 본 보고서는 최신 Gemma 4 / Gemini 3.x 기준으로 재작성했습니다 ([Gemini API 모델 라이프사이클](https://ai.google.dev/gemini-api/docs/changelog)).
## 6. 무료 티어 호출 한도 — 주의: 출처 간 수치 불일치
사용자의 또 다른 관심사인 "무료 티어에서 상당히 많은 호출"에 대해서는 **출처마다 수치가 엇갈려 단정하기 어렵습니다.**
- 일부 자료(2026년 3월 기준)는 무료 티어를 Gemini 2.5 Pro(5 RPM·100 RPD), 2.5 Flash(10 RPM·250 RPD), 2.5 Flash-Lite(**15 RPM·1,000 RPD**)로 보고합니다 ([pecollective](https://pecollective.com/tools/gemini-free-tier-guide/)).
- 반면 다른 2026년 가이드는 Flash 계열 무료 티어를 **30 RPM·1,500 RPD·1M TPM**으로 제시하며, 무료 대상에 2.5 Flash/Flash-Lite, 3 Flash, 3.1 Flash-Lite가 포함된다고 합니다 ([TokenMix](https://tokenmix.ai/blog/gemini-api-free-tier-limits)).
- Gemma 4 역시 Gemini API 무료 티어의 일일 한도 체계(약 1,500 RPD대)를 공유하는 것으로 보고되나, 정확한 RPM/RPD는 출처마다 다릅니다.
- **Gemini 3.5 Flash는 출시 직후라 무료 티어 제공 여부가 아직 불명확**하며, 초기에는 유료 위주일 가능성이 있습니다.
> 무료 한도는 모델·리전·프로젝트·과금 상태에 따라 실시간으로 바뀌므로, **확정 수치는 반드시 [Google AI for Developers 공식 Rate limits 문서](https://ai.google.dev/gemini-api/docs/rate-limits)와 본인 AI Studio 프로젝트 대시보드에서 직접 확인**해야 합니다. 다만 방향성은 분명합니다 — **대량 무료 호출이 목적이라면 Flash-Lite/Gemma 계열이 RPD가 가장 넉넉**합니다.
## 7. 결론 및 시사점
1. **실시간 검색 + 최고 추론품질이 필요하면 → Gemini 3.5 Flash(또는 3.1 Flash-Lite).** 검색 그라운딩이 가장 정교하고 1M 컨텍스트로 대량 검색 결과 처리에 유리합니다.
2. **무료/저비용 대량 호출이 핵심이면 → Gemini 3.1 Flash-Lite 또는 Gemma 4.** 둘 다 RPD가 넉넉하고, Gemma 4는 호스팅 단가가 압도적으로 저렴합니다.
3. **"API Gemma로 인터넷 검색"은 가능합니다.** `tools=[{"google_search": {}}]`만 붙이면 됩니다. 로컬 Gemma만 직접 검색 파이프라인을 만들어야 합니다.
4. **데이터 소유권·파인튜닝·온프레미스가 중요하면 → Gemma 4 31B(품질) / 26B MoE(처리량).** Apache 2.0으로 자유롭게 운용 가능하되, 순수 추론 점수에서는 Gemini 계열에 다소 뒤집니다.
5. **추가 확인 권장 영역:** ① 본인 프로젝트의 실제 무료 RPM/RPD(대시보드), ② Gemini 3.5 Flash의 무료 티어 포함 여부(출시 직후라 정책 변동 가능), ③ Gemma 4와 Gemini 3.5 Flash의 직접 벤치마크(데이터 축적 대기 중).
## 라운드 간 모순
- Round1이 Gemma를 API로 호출할 때 'google_search 툴을 연결할 수 있다'고 하면서, 동시에 결론에서는 '검색 기능이 내장되어 있지 않아 직접 검색 API 연동 로직을 개발해야 한다'고 서술 — Gemma의 네이티브 grounding 지원 여부가 모호하게 충돌함(공식 문서 확인 필요)
- Round 1은 Gemma가 Google Search grounding을 미지원하여 외부 검색 결과를 직접 주입해야 한다고 했으나, Round 2는 Gemma 4가 google_search grounding tool을 네이티브 지원한다고 함 — 사용자 핵심 질문(API로 호출한 Gemma의 인터넷 검색 가능 여부)에서 정면 충돌하며 출처가 불명확함
---
## References
- [Google AI for Developers Gemma on Gemini API](https://ai.google.dev/gemma/docs/core/gemma_on_gemini_api)
- [Google 블로그 Gemma 4](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)
- [artificialanalysis.ai Gemma4 31B vs Gemini 3 Flash](https://artificialanalysis.ai/models/comparisons/gemma-4-31b-vs-gemini-3-flash)
- [Google Cloud Gemini 3.1 Flash-Lite GA](https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-flash-lite-is-now-generally-available)
- [Gemini API Rate limits](https://ai.google.dev/gemini-api/docs/rate-limits)
- 공유 링크 만들기
- X
- 이메일
- 기타 앱
댓글
댓글 쓰기