구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리

🚀 구글 안티그래비티(Antigravity) 완전 분석 구글이 2025년 11월 Gemini 3와 함께 공개한 에이전트 퍼스트(agent-first) IDE 안티그래비티는 Claude·GPT·Gemini를 한 도구에서 골라 쓰는 멀티모델 코딩 환경이다. 이 글에서는 ① 지원 모델과 요금제별 사용량의 실체, ② 실사용자 평가, ③ 구글의 방향성, ④ Claude Code와의 비교·연계, ⑤ CLI( agy )로 직접 쓰는 법까지 다섯 갈래를 차례로 정리한다. 자료 간 충돌이 있는 지점은 한쪽으로 단정하지 않고 양쪽을 모두 살려 표기했다. 📅 기준 시점: 2026년 6월 · 프리뷰 단계 정보로 수치는 변동 가능 1. 안티그래비티란 무엇인가 — 기초 정리 안티그래비티는 2025년 7월 구글이 24억 달러 규모 라이선스 계약 으로 영입한 전 Windsurf 팀이 설계를 주도했다. VSCode를 포크한 위에 자율 에이전트 오케스트레이션 계층을 얹은 구조다. 2026년 5월 Google I/O에서 발표된 안티그래비티 2.0 은 데스크탑 앱과 함께 공식 CLI agy 를 처음 공개하며 기존 Gemini CLI의 공식 후계자 자리를 확정했다. 핵심 정체성은 단순 코드 자동완성이 아니라 병렬 에이전트 오케스트레이션 이다. 여러 에이전트가 동시에 — 하나는 API, 하나는 테스트, 또 하나는 프론트엔드 — 작업을 나눠 진행하고, 각 에이전트는 계획·테스트 결과·스크린샷·영상을 담은 Artifact 를 남긴다. "사람이 한 줄씩 승인"하는 방식이 아니라 "에이전트들이 일을 마치고 사람이 사후 검수"하는 모델이다. flowchart TD A([사용자 작업 지시]) --> B[에이전트 A API 구현] A --> C[에이전트 B 테스트 작성] A --> D[에이전트 C UI 생성] B --> E[Artifact 계획·결과·영상] C --> E D --> E...

Gemini 무료 API 모델 7종 완전 해부와 조합 활용법

🤖 Gemini 무료 API 모델 7종, 정체부터 조합법까지 완전 해부

Google AI Studio 콘솔의 무료 티어(Free Tier) 비율 제한 화면을 열면 "Flash", "Generate", "Ultra", "Embedding" 같은 이름이 줄줄이 나타납니다. 문제는 같은 'Flash'라는 단어가 붙어 있어도 텍스트 LLM·음성 합성·이미지 생성·로봇 두뇌가 전부 뒤섞여 있다는 점입니다. 이 글에서는 무료로 쓸 수 있는 Gemini 계열 모델 7종의 정체를 공식 문서 기준으로 분류하고, 실제로 어떤 조합으로 묶으면 무엇을 만들 수 있는지까지 한 번에 정리합니다.

결론부터 말하면, 콘솔에 보이는 이름들은 "급(級)이 다른 별개 제품"이 한 화면에 모여 있는 것입니다. 분류부터 잡고 들어가야 혼선이 없습니다.

📊 한눈에 보는 4계층 분류

콘솔의 모델들은 기능적으로 네 계층으로 깔끔하게 정리됩니다. 이 표 하나만 기억해도 절반은 끝난 셈입니다.

계층 해당 모델 한 줄 정의
범용 LLM Flash, Flash-Lite, (Pro) 텍스트·이미지·코드 입력 → 텍스트 출력
음성 (Audio) Flash TTS, Native Audio, Flash Live 말하기 / 실시간 대화 전용
이미지 생성 Imagen 4 Generate / Ultra / Fast 텍스트 → 그림
특수 목적 Robotics-ER, Embedding, Gemma 로봇 · 벡터검색 · 오픈모델

🔍 모델별 정체 해부 (공식 문서 기준)

🟢 범용 LLM — 모든 작업의 주력 일꾼

① Gemini Flash / Flash-Lite — 텍스트·이미지·코드를 입력받아 텍스트로 답하는 범용 멀티모달 LLM입니다. Flash는 복잡한 추론·긴 문서·멀티모달 작업용, Flash-Lite는 분류·요약·챗봇 응답처럼 "빠르고 싸야 하는" 작업용입니다. 두 모델 모두 100만 토큰 컨텍스트를 지원하며, 무료 티어에서는 Flash-Lite의 한도가 가장 넉넉합니다(15 RPM / 1,000 RPD).

🟣 음성 — 합성과 실시간 대화

② Flash TTS (Text-to-Speech) — 글자를 사람 목소리로 읽어주는 모델입니다. 공식적으로 "저지연·저비용·제어 가능한(controllable) 음성 생성"에 최적화됐다고 명시합니다. 즉 속도·톤을 프롬프트로 조절할 수 있습니다. (단, 일부 후기가 주장한 "200개 이상 오디오 태그" 같은 수치는 공식 문서에서 확인되지 않습니다.)

③ Native Audio / Flash Live — 이 둘은 사실상 한 묶음입니다. 공식 구조상 "Native Audio 모델"이 엔진이고 "Live API"가 그 엔진을 쓰는 인터페이스입니다. 텍스트 변환을 거치지 않고 오디오를 직접 처리해 1초 미만 지연으로 대화하며, 말 끊기(barge-in)와 감정·억양 인식까지 합니다. "Gemini 3 Flash Live"는 이 Live 계열의 3세대 버전으로 보는 것이 타당합니다.

🔵 이미지 생성 — Imagen 4 (★헷갈리는 지점)

④ Imagen 4 Generate / Ultra / Fast — 가장 오해가 많은 부분입니다. "Ultra Generate"를 영상 생성(Veo) 모델로 추정하는 경우가 있는데, 공식 문서 확인 결과 이 추정은 틀렸습니다. 이들은 모두 Imagen 4 이미지 생성 제품군의 품질·속도 등급입니다. 실제 모델 ID가 그 증거입니다.

imagen-4.0-generate-001 = 표준 (장당 $0.04)
imagen-4.0-ultra-generate-001 = 최고품질, 텍스트 렌더링·프롬프트 충실도 최강 (장당 $0.06)
imagen-4.0-fast-generate-001 = 고속 (장당 $0.02)

🔴 무료 사용 주의: 공식 자료에 따르면 Imagen 4 Fast는 무료 티어가 아예 없습니다("no free tier at all"). Standard/Ultra는 2K 해상도까지 지원합니다. 콘솔에서 "Fast Generate"가 활성으로 보였다면 지역·계정 차이거나 최근 정책 변경일 수 있으니 직접 재확인이 필요합니다.

🟠 특수 목적 — 오픈모델 · 벡터 · 로봇

⑤ Gemma 4 — 오픈 웨이트 모델 (★버전 주의) — "Gemma2"가 아니라 Gemma 4가 최신입니다. 2026년 4월 2일 Apache 2.0 라이선스로 출시됐으며, 구성은 E2B·E4B(초경량 온디바이스용)·26B MoE·31B Dense이고 이미지·영상 입력을 지원합니다. 용도는 두 갈래입니다. (a) Gemini API로 호출(무료 한도 내), (b) Kaggle·Hugging Face에서 가중치를 직접 내려받아 내 PC/서버에 배포. 데이터를 외부로 보내지 않고 폐쇄망에서 돌려야 할 때 핵심 선택지입니다.

⑥ Gemini Embedding — 텍스트를 숫자 벡터로 바꿔 의미 기반 검색을 가능하게 하는 변환기입니다(gemini-embedding-001). 정식 출시(GA)됐고 무료 티어는 일 1,500건. 핵심 용도는 RAG(검색증강생성)·의미 검색·문서 클러스터링·추천·중복 제거이며, 다국어 임베딩 벤치마크(MTEB) 상위권입니다. 챗봇에 "내 문서를 학습시키는" 핵심 부품입니다.

⑦ Gemini Robotics-ER — 로봇의 두뇌 — "ER"은 체화 추론(Embodied Reasoning)입니다. 로봇이 물리 공간을 이해하고 "집을 수 있는 물건을 가리켜라" 같은 명령에 2D 좌표를 찍어주는 상위 전략 플래너 역할입니다. 실제 손발을 움직이는 VLA(Vision-Language-Action) 모델 위에서 "무엇을 어떤 순서로 할지"를 판단합니다. 최신은 Robotics-ER 1.6입니다.

📈 무료 티어 한도 현황 (2026년 5월 기준)

💡 용어 정리: RPM=분당 요청 수(Requests Per Minute), RPD=하루 요청 수(Requests Per Day), TPM=분당 토큰 수(Tokens Per Minute). 무료 티어는 이 세 가지로 사용량을 제한합니다.

모델 RPM RPD 비고
Gemini 2.5 Flash-Lite 15 1,000 가장 넉넉
Gemini 2.5 Flash 10 250 범용 주력
Gemini 2.5 Pro 5 100 ⚠️ 아래 주의 참조
Gemini Embedding 1,500 RAG용

공통 250,000 TPM 적용. 하루 요청 한도(RPD)를 막대로 비교하면 다음과 같습니다.

Embedding
1,500
Flash-Lite
1,000
Flash
250
Pro
100

🔴 Pro의 무료 여부 — 출처 간 모순: 한 자료는 "무료 티어가 Pro·Flash·Flash-Lite 3종을 무료 제공"이라 하면서 동시에 "2026년 4월 1일부로 Pro를 무료 사용자에게 유료 장벽 뒤로 제한"이라고 서술해 자기모순을 보입니다. 정리하면 Pro의 무료 접근은 현재 불확실하거나 축소된 상태로 보이며, 반드시 본인 콘솔에서 직접 확인해야 합니다. 별도로 Gemini 3 Flash·3.1 Flash-Lite가 더 빡빡한 한도의 프리뷰로 무료 제공됩니다.

⚠️ 무료 티어의 숨은 비용: 무료 티어의 입력·출력은 Google이 모델 개선에 사용할 수 있습니다. 민감 정보는 넣지 말고, 필요 시 최소 Tier 1 결제 등록으로 학습 제외 정책을 적용받는 것이 권장됩니다.

🎨 Imagen 4 가격·등급 비교

이미지 한 장당 비용은 등급에 따라 3배까지 차이 납니다. 품질이 절대적으로 중요한 표지·텍스트 삽화는 Ultra, 대량 시안 생성은 Fast(단, 유료)가 합리적입니다.

Ultra (최고품질)
$0.06
Generate (표준)
$0.04
Fast (고속·무료없음)
$0.02

🧩 조합 활용: 무엇을 만들 수 있나

각 모델의 검증된 역할을 조합하면, 비용 0에 가깝게 실제 서비스를 만들 수 있습니다. 가장 추천하는 첫 프로젝트는 RAG 지식 챗봇입니다. 흐름은 다음과 같습니다.


graph LR
  A[문서 입력
매뉴얼·블로그] --> B[Embedding
벡터 변환] B --> C[Flash-Lite
근거 기반 답변] C --> D[Q&A 봇
완성] style A fill:#eaf2f8,stroke:#2980b9 style B fill:#fef9e7,stroke:#f39c12 style C fill:#e8f8f5,stroke:#16a085 style D fill:#eafaf1,stroke:#27ae60

🔗 다이어그램 요약: 사내 매뉴얼·블로그 글을 Embedding으로 벡터화해 DB에 넣고, 사용자 질문이 오면 Flash-Lite가 그 문서를 근거로 답하는 Q&A 봇 구조입니다. 무료 티어 한도가 가장 넉넉한 두 모델만 쓰므로 비용 0으로 만들 수 있는 가장 현실적인 첫 프로젝트입니다.

한 단계 더 나아가 음성 AI 비서를 만들고 싶다면, 실시간 대화·문서 검색·음성 출력을 이렇게 엮습니다.


graph LR
  A[음성 질문] --> B[Flash Live
실시간 인식] B --> C[Embedding
내 문서 검색] C --> D[Flash TTS
음성 답변] style A fill:#f0f4f8,stroke:#8e44ad style B fill:#fef9e7,stroke:#f39c12 style C fill:#e8f8f5,stroke:#16a085 style D fill:#f4ecf7,stroke:#8e44ad

🔗 다이어그램 요약: 사용자가 말로 묻고(Flash Live 실시간 인식), 내 노트·문서를 검색(Embedding)해 사람 목소리로 답하는(Flash TTS) 개인 음성 비서 구조입니다. 텍스트 변환을 거치지 않아 1초 미만 지연으로 자연스러운 대화가 가능합니다.

그 외 검증된 역할 기반으로 구현 가능한 조합들입니다.

📝 콘텐츠 자동 생산 라인Flash(원고) + Imagen 4(삽화) + Flash TTS(나레이션). 블로그·쇼츠용 글·그림·음성을 한 번에. 단 Imagen Fast는 유료임에 유의.

🌐 실시간 통역 에이전트Flash Live + Native Audio. 말의 톤·감정을 보존한 채 실시간으로 통역.

🦾 물리 자동화 PoCRobotics-ER(공간 판단) + Flash-Lite(로그·재고 분석). 창고 분류 로봇의 의사결정 두뇌.

🧠 핵심 정리

"같은 'Flash'라도 LLM(Gemini Flash)·음성(Flash TTS·Flash Live)·이미지(Fast Generate)가 전혀 다른 제품이다. 이름의 함정을 기억하고, 비용 0으로 효용이 가장 큰 Flash-Lite + Embedding(RAG 챗봇)부터 시작하라."

모순 2건 정리: (a) "Ultra/Fast Generate"는 영상(Veo)이 아니라 Imagen 4 이미지 등급이 맞습니다. (b) "Gemma"의 최신은 Gemma 4(2026-04-02)로, "Gemma 2"는 오류입니다.

⚠️ 남은 불확실성 2건: Gemini Pro의 무료 제공 여부와 Imagen 4 Fast의 무료 여부는 출처마다 엇갈리거나 공식상 "무료 없음"이라, 본인 콘솔 실측과 대조가 필요합니다.

🚀 무료 티어 첫걸음 추천: 한도가 가장 넉넉하고 다른 모델로 확장하기 쉬운 토대인 Flash-Lite + Embedding 조합으로 RAG 챗봇을 만들어 보세요. 여기서 음성(Flash Live·TTS)이나 이미지(Imagen 4)를 한 모듈씩 붙여 나가는 것이 가장 안정적인 확장 경로입니다.

📚 참고 자료

Gemini API Rate Limits
Imagen 4 Family GA
Gemma 4 발표
Gemini Robotics-ER 1.6
Gemini Embeddings Docs

본 콘텐츠는 정보 제공을 목적으로 하며, 모델 한도·가격·정책은 시점·지역·계정에 따라 달라질 수 있습니다. 실제 사용 전 반드시 본인 콘솔과 공식 문서에서 최신 정보를 확인하시기 바랍니다.

📄 Raw Data
조사가 충분히 모였습니다. 검증된 사실과 라운드 간 모순을 종합해 보고서를 작성합니다.

---

# Gemini API 무료 티어 모델 전수 해부: 각 모델의 정체와 조합 활용법

## 1. 질문 파악

질문의 핵심은 세 가지입니다. ① 무료 티어 콘솔의 비율 제한(rate limit) 화면에 보이는 모델들이 **각각 무슨 일을 하는 물건인가**, ② 공식 문서·실사용 후기 기준 **어떻게 쓰는가**, ③ 이들을 **어떤 조합으로 묶으면 무엇을 만들 수 있는가**.

먼저 짚어둘 점이 있습니다. 콘솔에 보이는 이름들은 "급(級)이 다른 별개 제품"이 섞여 있습니다. 어떤 것은 **텍스트 LLM**, 어떤 것은 **음성 전용**, 어떤 것은 **이미지 생성기**, 어떤 것은 **로봇 두뇌**, 어떤 것은 **벡터 변환기**입니다. 같은 "Flash"라는 단어가 붙어 있어도 용도가 전혀 다릅니다. 이 분류부터 잡고 들어가야 혼선이 없습니다.

---

## 2. 기초 정보 — 4개 계층으로 나눠 보기

콘솔의 모델들은 기능적으로 네 계층으로 정리됩니다.

| 계층 | 해당 모델 | 한 줄 정의 |
|------|-----------|-----------|
| **범용 LLM** | Gemini Flash, Flash-Lite, (Pro) | 텍스트·이미지·코드 입력 → 텍스트 출력 |
| **음성 (Audio)** | Flash TTS, Native Audio, Flash Live | 말하기/실시간 대화 전용 |
| **이미지 생성** | Imagen 4 Generate / Ultra / Fast | 텍스트 → 그림 |
| **특수 목적** | Robotics-ER, Embedding, Gemma | 로봇·벡터검색·오픈모델 |

---

## 3. 모델별 정체 분석 (공식 문서 기준)

### ① Gemini Flash / Flash-Lite — 주력 일꾼
범용 멀티모달 LLM입니다. 텍스트·이미지·코드를 입력받아 텍스트로 답합니다. **Flash**는 복잡한 추론·긴 문서·멀티모달 작업용, **Flash-Lite**는 분류·요약·챗봇 응답처럼 "빠르고 싸야 하는" 작업용입니다. 무료 티어에서 Flash-Lite의 한도가 가장 넉넉합니다(15 RPM / 1,000 RPD). 두 모델 모두 100만 토큰 컨텍스트를 지원합니다([Gemini API Rate Limits](https://ai.google.dev/gemini-api/docs/rate-limits)).

### ② Flash TTS — 음성 합성(Text-to-Speech)
글자를 사람 목소리로 읽어주는 모델입니다. 공식적으로 "저지연·저비용·**제어 가능한(controllable)** 음성 생성"에 최적화됐다고 명시합니다([Google Blog](https://blog.google/products/gemini/gemini-audio-model-updates/)). 즉 속도·톤을 프롬프트로 조절할 수 있습니다. 단, 1라운드 조사가 주장한 "200개 이상의 오디오 태그" 같은 구체 수치는 공식 문서에서 확인되지 않아 그대로 받아들이긴 어렵습니다.

### ③ Native Audio / Flash Live — 실시간 음성 대화
이 둘은 사실상 **한 묶음**입니다. 1라운드는 별개처럼 다뤘지만, 공식 구조는 *"Gemini 2.5 Flash Native Audio 모델"이 엔진이고 "Live API"가 그 엔진을 쓰는 인터페이스*입니다([Google Cloud](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)). 핵심은 텍스트 변환을 거치지 않고 오디오를 직접 처리해 1초 미만 지연으로 대화하고, **말 끊기(barge-in)와 감정·억양 인식**까지 한다는 점입니다. 질문에 등장한 "Gemini 3 Flash Live"는 이 Live 계열의 3세대 버전으로 보는 것이 타당합니다.

### ④ Imagen 4 Generate / Ultra / Fast — 이미지 생성기 (★모순 해소 지점)
**여기가 가장 헷갈리는 부분입니다.** 질문의 "Ultra Generate"와 "Fash(Flash) Generate"의 정체에 대해 라운드 간 충돌이 있었습니다.

- 라운드 간 모순 노트는 *"무료 티어에서 추론용 Pro/Ultra가 빠졌으니, 콘솔의 'Ultra Generate'는 추론 모델이 아니라 영상 생성(Veo) 모델일 것"*이라고 추정했습니다.
- 그러나 **공식 문서 확인 결과 이 추정은 틀렸습니다.** 이들은 모두 **Imagen 4 이미지 생성 제품군의 등급**입니다. 실제 모델 ID가 그 증거입니다:
  - `imagen-4.0-generate-001` → **Generate(표준)**, 장당 $0.04
  - `imagen-4.0-ultra-generate-001` → **Ultra Generate(최고품질)**, 장당 $0.06, 텍스트 렌더링·프롬프트 충실도 최강
  - `imagen-4.0-fast-generate-001` → **Fast Generate(고속)**, 장당 $0.02

  출처: [Imagen 4 family GA 발표](https://developers.googleblog.com/announcing-imagen-4-fast-and-imagen-4-family-generally-available-in-the-gemini-api/). 즉 "Ultra/Fast Generate = 영상(Veo)"이 아니라 **"Ultra/Fast = Imagen 4 안의 품질·속도 등급"**입니다. Round 3의 해석이 맞고, 모순 노트의 Veo 추정은 폐기합니다.

  ⚠️ **단, 무료 사용 시 주의:** 공식 자료에 따르면 **Imagen 4 Fast는 무료 티어가 아예 없습니다("no free tier at all")**. Standard/Ultra는 2K 해상도까지 지원합니다([LaoZhang 정리](https://blog.laozhang.ai/en/posts/gemini-image-api-guide-2026)). 따라서 질문자가 콘솔에서 "Fast Generate"를 0/0이 아닌 상태로 봤다면, 지역·계정별 차이거나 최근 정책 변경일 수 있어 콘솔에서 재확인이 필요합니다.

### ⑤ Gemma 4 — 오픈 웨이트 모델 (★버전 모순 해소)
질문은 "Gemma4"라고 했는데 1라운드는 "Gemma 2"로 답해 버전이 어긋났습니다. **확인 결과 질문자가 맞습니다.** Gemma 4는 **2026년 4월 2일 Apache 2.0 라이선스로 출시된 최신판**입니다([Google Blog](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)). 구성은 E2B·E4B(초경량, 온디바이스용)·26B MoE·31B Dense이며 이미지·영상 입력을 지원합니다([Gemma 4 docs](https://ai.google.dev/gemma/docs/core)). 

용도는 두 갈래입니다. (a) Gemini API로 호출(무료 한도 내), (b) Kaggle·Hugging Face에서 **가중치를 직접 내려받아 내 PC/서버에 배포**. 데이터를 외부로 보내지 않고 폐쇄망에서 돌려야 할 때 핵심 선택지입니다.

### ⑥ Gemini Embedding (gemini-embedding-001) — 벡터 변환기
질문의 "Gemini Embedding 1"이 이것입니다. 텍스트를 숫자 벡터로 바꿔 **의미 기반 검색**을 가능하게 합니다. 정식 출시(GA)됐고 무료 티어는 일 1,500건입니다([Embeddings docs](https://ai.google.dev/gemini-api/docs/embeddings)). 핵심 용도는 **RAG(검색증강생성), 의미 검색, 문서 클러스터링, 추천, 중복 제거**이며 다국어 임베딩 벤치마크(MTEB) 상위권입니다. 챗봇에 "내 문서를 학습시키는" 핵심 부품입니다.

### ⑦ Gemini Robotics-ER — 로봇의 두뇌
"ER"은 **체화 추론(Embodied Reasoning)**입니다. 로봇이 물리 공간을 이해하고 "집을 수 있는 물건을 가리켜라" 같은 명령에 2D 좌표를 찍어주는, **상위 전략 플래너** 역할입니다. 실제 손발을 움직이는 VLA(Vision-Language-Action) 모델 위에서 "무엇을 어떤 순서로 할지"를 판단합니다. 최신은 **Robotics-ER 1.6**으로 Gemini API·AI Studio로 호출 가능합니다([DeepMind](https://deepmind.google/blog/gemini-robotics-er-1-6/)).

---

## 4. 무료 티어 현황 데이터 (2026년 5월 기준)

| 모델 | RPM | RPD | 비고 |
|------|-----|-----|------|
| Gemini 2.5 Flash-Lite | 15 | 1,000 | 가장 넉넉 |
| Gemini 2.5 Flash | 10 | 250 | 범용 주력 |
| Gemini 2.5 Pro | 5 | 100 | ⚠️ 아래 모순 참조 |
| Gemini Embedding | — | 1,500 | RAG용 |

(공통 250,000 TPM, 출처 [Rate limits](https://ai.google.dev/gemini-api/docs/rate-limits))

**⚠️ 라운드 및 출처 간 모순 — Pro의 무료 여부:** 한 자료는 *"무료 티어가 2.5 Pro·Flash·Flash-Lite 3종을 무료로 제공한다"*고 하면서, 동시에 *"2026년 4월 1일부로 Pro 모델을 무료 사용자에게는 유료 장벽 뒤로 제한했다"*고 서술해 **자기모순**을 보입니다([TokenMix](https://tokenmix.ai/blog/gemini-api-free-tier-limits) 외). 2라운드 조사도 "Pro 계열은 무료 티어 제외"라고 못 박았습니다. 정리하면 **Pro의 무료 접근은 현재 불확실하거나 축소된 상태로 보이며, 반드시 본인 콘솔에서 직접 확인**해야 합니다. 추가로 Gemini 3 Flash·3.1 Flash-Lite가 더 빡빡한 한도의 프리뷰로 무료 제공됩니다.

**무료 티어의 숨은 비용:** 무료 티어의 입력·출력은 Google이 모델 개선에 사용할 수 있습니다. 민감 정보는 넣지 말고, 필요시 최소 Tier 1 결제 등록으로 학습 제외 정책을 적용받는 것이 권장됩니다([2라운드 조사 근거]).

---

## 5. 조합 활용 아이디어 (무엇을 만들 수 있나)

검증된 모델 역할에 기반한, 실제 구현 가능한 조합입니다.

- **음성 AI 비서/말동무**: `Flash Live(실시간 대화)` + `Flash TTS(목소리)` + `Embedding(내 문서 기억)`. 사용자가 말로 묻고, 내 노트·문서를 검색해 음성으로 답하는 개인 비서.
- **RAG 지식 챗봇**: `Embedding(문서 벡터화)` + `Flash(답변 생성)`. 사내 매뉴얼·블로그 글을 임베딩 DB에 넣고 근거 기반으로 답하는 Q&A 봇. 무료 티어로 가장 현실적인 첫 프로젝트.
- **콘텐츠 자동 생산 라인**: `Flash(원고)` + `Imagen 4(삽화)` + `Flash TTS(나레이션)`. 블로그·쇼츠용 글·그림·음성을 한 번에. 단 Imagen Fast는 유료임에 유의.
- **실시간 통역 에이전트**: `Flash Live` + `Native Audio`. 말의 톤·감정을 보존한 채 실시간 통역.
- **물리 자동화 PoC**: `Robotics-ER(공간 판단)` + `Flash-Lite(로그·재고 분석)`. 창고 분류 로봇의 의사결정 두뇌.

---

## 6. 결론 및 시사점

1. **이름의 함정을 기억할 것.** 같은 "Flash"라도 LLM(Gemini Flash)·음성(Flash TTS, Flash Live)·이미지(Fast Generate)가 전혀 다른 제품입니다.
2. **모순 2건은 정리됐습니다.** (a) "Ultra/Fast Generate"는 영상(Veo)이 아니라 **Imagen 4 이미지 등급**이 맞습니다. (b) "Gemma"의 최신은 **Gemma 4(2026-04-02)**로 질문자가 옳고 1라운드의 "Gemma 2"는 오류입니다.
3. **남은 불확실성 1건:** Gemini **Pro의 무료 제공 여부**는 출처마다 엇갈리며, **Imagen 4 Fast 무료 여부**도 공식 문서상 "무료 없음"이라 콘솔 실측과 대조가 필요합니다.
4. **무료 티어 첫걸음 추천:** 비용 0으로 효용이 가장 큰 조합은 `Flash-Lite + Embedding`(RAG 챗봇)입니다. 한도가 가장 넉넉하고, 다른 모델로 확장하기 쉬운 토대가 됩니다.

## 라운드 간 모순
- Round 1은 'Ultra'를 최상위 추론 모델(2.5 Pro/Ultra)로 정의했으나, Round 2는 Pro/Ultra 추론 계열이 2026-04-01부로 무료 티어에서 제외됐다고 함 → 무료 티어 사용자가 콘솔에서 본 'Ultra Generate'는 추론 모델이 아니라 영상 생성 모델(Veo 계열)일 가능성이 큼. Round 1의 모델 정의가 사용자 질문의 'Ultra Generate/Flash Generate'와 불일치
- 질문은 'Gemma4'를 지칭했으나 Round 1은 'Gemma 2'로 답해 버전 불일치
---

## References

- [Gemini API Rate Limits](https://ai.google.dev/gemini-api/docs/rate-limits)
- [Imagen 4 Family GA](https://developers.googleblog.com/announcing-imagen-4-fast-and-imagen-4-family-generally-available-in-the-gemini-api/)
- [Gemma 4 발표](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)
- [Gemini Robotics-ER 1.6](https://deepmind.google/blog/gemini-robotics-er-1-6/)
- [Gemini Embeddings Docs](https://ai.google.dev/gemini-api/docs/embeddings)
- [Gemini Live API (Native Audio)](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-live-api)

댓글

이 블로그의 인기 게시물

Vim 9.2 릴리즈 총정리: 더 빠르고 강력해진 텍스트 편집의 제왕

폐쇄망 SoC 설계자를 위한 가볍고 빠른 Vim 최적화 가이드

에이전트 시대를 위한 터미널 cmux 가이드: 설치부터 AI 활용까지