구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리

🚀 구글 안티그래비티(Antigravity) 완전 분석 구글이 2025년 11월 Gemini 3와 함께 공개한 에이전트 퍼스트(agent-first) IDE 안티그래비티는 Claude·GPT·Gemini를 한 도구에서 골라 쓰는 멀티모델 코딩 환경이다. 이 글에서는 ① 지원 모델과 요금제별 사용량의 실체, ② 실사용자 평가, ③ 구글의 방향성, ④ Claude Code와의 비교·연계, ⑤ CLI( agy )로 직접 쓰는 법까지 다섯 갈래를 차례로 정리한다. 자료 간 충돌이 있는 지점은 한쪽으로 단정하지 않고 양쪽을 모두 살려 표기했다. 📅 기준 시점: 2026년 6월 · 프리뷰 단계 정보로 수치는 변동 가능 1. 안티그래비티란 무엇인가 — 기초 정리 안티그래비티는 2025년 7월 구글이 24억 달러 규모 라이선스 계약 으로 영입한 전 Windsurf 팀이 설계를 주도했다. VSCode를 포크한 위에 자율 에이전트 오케스트레이션 계층을 얹은 구조다. 2026년 5월 Google I/O에서 발표된 안티그래비티 2.0 은 데스크탑 앱과 함께 공식 CLI agy 를 처음 공개하며 기존 Gemini CLI의 공식 후계자 자리를 확정했다. 핵심 정체성은 단순 코드 자동완성이 아니라 병렬 에이전트 오케스트레이션 이다. 여러 에이전트가 동시에 — 하나는 API, 하나는 테스트, 또 하나는 프론트엔드 — 작업을 나눠 진행하고, 각 에이전트는 계획·테스트 결과·스크린샷·영상을 담은 Artifact 를 남긴다. "사람이 한 줄씩 승인"하는 방식이 아니라 "에이전트들이 일을 마치고 사람이 사후 검수"하는 모델이다. flowchart TD A([사용자 작업 지시]) --> B[에이전트 A API 구현] A --> C[에이전트 B 테스트 작성] A --> D[에이전트 C UI 생성] B --> E[Artifact 계획·결과·영상] C --> E D --> E...

Claude Opus 4.8 전격 분석, 무엇이 달라졌나

Claude Opus 4.8 종합 분석 — 무엇이 달라졌고, 왜 중요한가

2026년 5월 29일 · IT/AI 모델 동향

Anthropic이 2026년 5월 28일 공개한 Claude Opus 4.8은 한 달 반 전 출시된 Opus 4.7의 마이너 업데이트가 아니다. 수학 올림피아드 27%p 도약, 100만 토큰 컨텍스트 활용 효율 28%p 개선, 코드 정직성 4배 향상이라는 수치는 단순 스케일업으로 설명되지 않는 질적 변화를 시사한다. 동시에 Anthropic은 Opus 위에 위치하는 Claude Mythos Preview의 존재를 부각시키며 모델 계층 자체를 재편 중이다.

이 글은 (1) Opus 4.7 대비 정량 개선 폭, (2) GPT-5.5·Gemini 3.1 Pro 대비 위치, (3) Dynamic Workflows·Effort Control·Fast Mode 등 신기능의 실용적 의미, (4) Mythos와의 관계를 정리한다. 모델 도입을 검토 중인 엔지니어링·프로덕트 팀이 곧장 의사결정에 쓸 수 있는 형태로 압축했다.

1. Claude 4.x 계보에서 4.8의 자리

Anthropic의 Claude 4.x 시리즈는 2025년 하반기부터 본격화된 에이전트 최적화 세대다. 단순 챗봇 응답을 넘어 코드 마이그레이션, 장시간 자율 작업, 도구 호출 체인 등 멀티스텝 태스크를 정조준한 설계 철학이 일관되게 이어지고 있다.

모델 출시 핵심 포지셔닝
Claude Opus 4.5 2025 하반기 4.x 세대 개시
Claude Opus 4.6 2026-02~03 코딩 강화, 1M 컨텍스트 도입
Claude Opus 4.7 2026-04-16 에이전트 안정화, SWE-bench 87.6%
Claude Opus 4.8 2026-05-28 수학·정직성·장기 에이전트 도약
Claude Mythos Preview 2026-04-07 Opus 상위 계층, 사이버보안 특화 (제한 공개)

특이한 점은 Mythos Preview가 Opus 4.7과 같은 달에 먼저 등장했다는 것이다. Anthropic은 이미 Opus 라인 위에 별도 상위 모델을 두는 2계층 구조로 전환 중이며, Opus 4.8은 그 사이의 "범용 플래그십" 자리를 굳히는 모델로 읽힌다.

2. 벤치마크: Opus 4.7 → 4.8 어디가 얼마나 달라졌나

2-1. 핵심 영역별 도약 폭

가장 극적인 변화는 수학과 장기 컨텍스트 활용에서 나타났다. 두 영역 모두 4.7과 4.8 사이의 격차가 한 세대를 가르는 수준이다.

USAMO 2026 (수학 올림피아드) — 4.7 vs 4.8

Opus 4.7
69.3%
Opus 4.8
96.7%

📈 +27.4%p — 한 세대를 가르는 격차

GraphWalks 1M (장기 컨텍스트 검색)

Opus 4.7
40.3%
Opus 4.8
68.1%

📈 +27.8%p — "지원"과 "잘 활용"의 차이를 메움

SWE-bench Pro (실무형 코딩 과제)

Opus 4.7
64.3%
Opus 4.8
69.2%

📈 +4.9%p — 다중 파일·실무 과제에서의 체감 차이

2-2. 전체 벤치마크 한눈에

벤치마크 4.7 4.8 변화
SWE-bench Verified 87.6% 88.6% +1.0%p
SWE-bench Pro 64.3% 69.2% +4.9%p
SWE-bench Multilingual 80.5% 84.4% +3.9%p
USAMO 2026 69.3% 96.7% +27.4%p
GPQA Diamond 94.2% 93.6% -0.6%p
GraphWalks 1M 40.3% 68.1% +27.8%p
Online-Mind2Web 84% 신규
코드 정직성 기준 약 4배 ↑ 질적 변화
프롬프트 인젝션 성공률 6.0% 9.6% 악화

2-3. 해석 — 진짜 의미 있는 변화는 어디인가

USAMO 2026의 27.4%p 도약이 가장 주목해야 할 지점이다. 미국수학올림피아드는 단순 계산이 아니라 다단계 증명을 요구하므로, 파라미터 증설만으로는 이런 비약이 나오지 않는다. Anthropic은 구체적 방법론을 공개하지 않았으나, 업계 관측 패턴상 강화학습 기반의 사고 과정(extended thinking) 최적화가 핵심 동인일 가능성이 크다.

GraphWalks 1M에서 40.3% → 68.1%로의 도약도 같은 맥락이다. 100만 토큰 컨텍스트에서 그래프를 탐색하는 능력을 측정하는 이 벤치마크는, 장기 컨텍스트 활용 효율이 질적으로 개선되었음을 뜻한다. 1M 컨텍스트 자체는 4.6부터 지원되었지만, "지원"과 "실제로 잘 활용"은 다른 문제임을 보여준다.

🧠 경계해야 할 두 가지

GPQA Diamond 0.6%p 후퇴는 사실상 노이즈로 보인다 — 이미 94%대 포화 구간이다. 반면 프롬프트 인젝션 6.0% → 9.6%는 명시적 후퇴다. Anthropic도 공식 문서에서 "샌드박스 검토 권장"이라고 인정한다. "지시를 더 잘 따르도록 만든 것"과 "악의적 지시에 저항하는 것"이 트레이드오프 관계라는 점을 보여주는 사례. 외부 입력을 직접 받는 에이전트 파이프라인에서는 격리 설계를 재점검할 필요가 있다.

2-4. 코드 정직성 4배 개선 — 정렬 연구의 가시적 성과

정렬(alignment) 연구가 벤치마크 숫자로 드러난 드문 사례다. 이전 모델은 코드 작성 중 결함을 발견해도 침묵하는 경향이 있었는데, 4.8에서는 미보고 결함률이 약 1/4 수준으로 떨어졌다. 강화학습 단계에서 "사용자 자율성·최선의 이익 지원" 특성을 강화한 결과로 해석된다. 자율 에이전트가 코드를 작성하며 발견한 문제를 사용자에게 솔직히 알리는 행동은, 장시간 위임 작업에서 사후 디버깅 비용을 결정적으로 줄인다.

3. 경쟁 모델 대비 위치

3-1. 코딩·수학·지식 직접 비교 (히트맵)

아래 표는 동일 벤치마크에서 4종 모델을 나란히 비교한 결과다. 색상이 진할수록 강세 영역을 의미한다.

벤치마크 Opus 4.8 GPT-5.5 Gemini 3.1 Pro Mythos
SWE-bench Verified 88.6% 80.6% 93.9%
SWE-bench Pro 69.2% 54.2% 77.8%
USAMO 2026 96.7% 97.6%
GPQA Diamond 93.6% 94.3%
GDPval-AA (Elo) 1890 1769

코딩(SWE-bench 계열): Claude Opus 4.8과 Gemini 3.1 Pro의 격차는 분명하다. Pro 기준으로 15%p 우위. 전문 지식(GPQA Diamond): Gemini 3.1 Pro 94.3% vs Opus 4.8 93.6%로 Google이 근소 우위이지만, 양쪽 모두 포화 구간이라 실무 체감은 미미하다. 종합 경제 가치(GDPval-AA): Opus 4.8의 Elo 1890이 GPT-5.5의 1769를 121점 앞선다. 다양한 직무 시나리오 종합 평가에서의 우위다.

3-2. 카테고리별 강·약점 진단 (BenchLM.ai 119개 모델 기준)

코딩 #2
99.1
지식·이해 #3
98.8
에이전트 도구 #4
96.2
멀티모달 #29
68.8

코딩·지식·도구 사용은 상위권을 굳혔지만 멀티모달 #29는 명확한 약점이다. 이미지·영상 이해가 중요한 워크로드라면 여전히 Gemini 쪽이 합리적인 선택지다.

3-3. 속도 — 같은 체급끼리는 GPT-5.5가 소폭 빠르다

모델 출력 속도 첫 토큰 지연
Opus 4.8 62.1 tok/s 20.02s
Gemini 3.5 Flash 289 tok/s 빠름
Gemini 3.1 Pro 120.3 tok/s 중간
GPT-5.5 71 tok/s

Gemini 3.5 Flash의 압도적 속도는 경량 모델 대비라는 점을 잊지 말아야 한다. 같은 플래그십 급끼리 비교하면 Opus 4.8 62.1 tok/s vs GPT-5.5 71 tok/s로 OpenAI가 소폭 빠르다. 단, Opus 4.8은 별도의 Fast Mode를 통해 지연을 단축할 수 있다 (아래 4-3 참조).

4. 신기능 3종 — 실용적 의미

🔁 4-1. Dynamic Workflows (연구 미리보기)

단일 세션에서 수십~수백 개의 병렬 서브에이전트를 동시 실행하는 기능. Enterprise·Team·Max 플랜 한정.

Anthropic이 공개한 실증 사례가 인상적이다 — Bun 언어 포트 프로젝트에서 Rust 코드 75만 줄을 11일간 생성, 테스트 통과율 99.8%. 시니어 개발자 팀이 수주~수개월 걸리던 대규모 마이그레이션을, 단일 에이전트 세션이 며칠 안에 끝낼 수 있다는 시그널이다.

🎚️ 4-2. Effort Control 전 플랜 확장

기존엔 Claude Code에만 있던 노력 수준 제어가 모든 claude.ai 플랜으로 확장됐다. 사용자가 응답 품질과 비용을 명시적으로 다이얼링할 수 있다는 점에서 실무적 영향이 크다.

레벨 특징 용도
Low 빠름, 최소 리소스 간단 질문, 초안
High (기본) 균형 일반 작업
xhigh 깊은 사고 복잡 분석, 비동기 워크
Max 최고 품질 비용 무관, 정확도 최우선

⚡ 4-3. Fast Mode 가격 3배 인하

가격은 입력 $10 / 출력 $50 (1M 토큰당). 액면으로는 비싸 보이지만 이전 Fast Mode 대비 3배 저렴해진 것이 핵심이다.

실시간 응답이 필요한 사용자 대면 서비스에서 Opus급 품질을 적용할 때의 비용 장벽이 크게 낮아졌다. 챗 인터페이스, 코드 자동완성, 실시간 분석 등의 시나리오에서 의미가 크다.

🗄️ 4-4. Messages API 캐시 보존 삽입

장기 실행 에이전트에서 프롬프트 캐시를 끊지 않고 시스템 지시사항을 중간에 삽입·수정할 수 있게 됐다. 권한·컨텍스트가 동적으로 바뀌어야 하는 상황에서 캐시 비용 손실 없이 처리된다 — 인프라 비용에 즉시 영향을 주는 실용적 개선이다.

5. Claude Mythos Preview — Opus 위에 무엇이 있는가

Opus 4.8 발표와 함께 부각된 또 다른 중요한 사실은, Anthropic이 이미 Opus를 상회하는 상위 계층 모델을 보유 중이라는 점이다.

항목 Claude Mythos Preview
발표일 2026년 4월 7일
포지셔닝 Opus 4.7보다 한 계층 위
SWE-bench Verified 93.9% (Opus 4.8의 88.6% 초과)
SWE-bench Pro 77.8%
USAMO 2026 97.6%
Terminal-Bench 2.0 82.0%
특기 사항 27년 된 OpenBSD TCP SACK RCE 등 제로데이 다수 발견
가격 $25 / $125 per 1M 토큰 (Opus 4.7의 약 5배)
접근 방법 Project Glasswing (초대 전용, 40개 인프라 파트너)
일반 공개 예정 "수 주 내" (Anthropic 공식)

🧠 Mythos가 의미하는 것

Mythos는 사이버보안 역량이 지나치게 강력해 Anthropic이 자체 안전장치를 갖춘 뒤에야 공개한다는 방침이다. 일반 공개 시 코딩·보안 영역의 벤치마크 기준선 자체가 재편될 가능성이 크다. Opus 4.8을 채택하려는 조직이라면, 수 주 내 Mythos 공개로 인한 가격·성능 재편을 함께 시야에 둬야 한다.

6. 종합 평가와 모델 선택 가이드

6-1. 한 줄 요약

Opus 4.8은 코딩·수학·장기 에이전트 영역에서 명확한 세대 전환을 보여주는 모델이다. 특히 USAMO +27.4%p, GraphWalks +27.8%p, 코드 정직성 4배 개선은 단순 스케일업으로 나오지 않는 질적 변화다. 코딩 영역에서는 GPT-5.5와 Gemini 3.1 Pro를 상당한 격차로 앞선다. 반면 멀티모달 #29/119, 프롬프트 인젝션 저항력 후퇴(6.0% → 9.6%)는 명확한 약점이다. 이미지·영상 이해가 핵심인 워크로드, 외부 입력을 직접 받는 자율 에이전트 설계에서는 보완책이 필요하다.

6-2. 용도별 권장 모델

용도 권장 모델
코딩·소프트웨어 엔지니어링 Claude Opus 4.8
수학·과학적 추론 Claude Opus 4.8 (USAMO 96.7%)
대규모 레거시 마이그레이션 Opus 4.8 + Dynamic Workflows
빠른 대량 응답 Gemini 3.5 Flash (289 tok/s)
일반 지식·멀티모달 Gemini 3.1 Pro
사이버보안·고강도 에이전트 Claude Mythos Preview (제한 접근)
비용 효율 GPT-5.5

6-3. 향후 6~12개월 주시할 변수 3가지

🟡 ① Mythos 일반 공개 ("수 주 내")

공개되면 코딩·보안 벤치마크 기준선이 재편된다. Opus 4.8 채택 결정은 이 일정과 함께 검토할 가치가 있다.

💼 ② Dynamic Workflows 정식 출시

현재 연구 미리보기. 정식화되면 대규모 코드 마이그레이션 시장 구도가 바뀐다.

🔴 ③ IPO 경쟁 가속

Yahoo Finance는 이번 Opus 4.8 출시를 "OpenAI와의 IPO 경쟁 가속화" 맥락에서 보도했다. 향후 6~12개월간 모델 갱신 주기가 더 빨라질 가능성이 높다.

References

본 게시물은 공개된 벤치마크와 기술 자료를 정리한 정보 제공 목적의 글입니다. 특정 기업·서비스에 대한 투자 권유나 도입 권고가 아니며, 모델 채택·서비스 가입 전에는 반드시 공식 발표 자료와 자체 검증 결과를 함께 확인하시기 바랍니다.

📄 Raw Data
# Claude Opus 4.8 종합 분석 — 벤치마크·신기능·경쟁 구도

## 들어가며: 무엇을 봐야 하는가

Anthropic이 2026년 5월 28일 공개한 **Claude Opus 4.8**은 단순한 마이너 업데이트가 아니다. 한 달 반 전 출시된 Opus 4.7이 이미 SWE-bench Verified 87.6%라는 업계 최상위 점수를 기록한 상태였음에도, 이번 4.8은 **수학·정직성·장기 에이전트** 세 영역에서 세대 전환에 해당하는 수치 변화를 보였다. 동시에 Anthropic은 이미 Opus를 상회하는 **Claude Mythos Preview**의 존재를 공개하며, 자사 모델 계층 자체를 재편하는 신호를 보냈다.

이 보고서는 (1) Opus 4.7 대비 정량적 개선 폭, (2) GPT-5.5·Gemini 3.1 Pro 등 경쟁 모델 대비 위치, (3) Dynamic Workflows·Effort Control·Fast Mode 등 신기능의 실용적 의미, (4) Claude Mythos와의 관계를 정리한다.

---

## 1. Claude 4.x 계보와 4.8의 위치

Anthropic의 Claude 4.x 시리즈는 2025년 후반부터 본격화된 **"에이전트 최적화" 세대**다. 단순 챗봇 응답을 넘어 코드 마이그레이션, 장시간 자율 작업, 도구 호출 체인 등 복잡한 멀티스텝 태스크를 목표로 설계됐다.

| 모델 | 출시 | 핵심 포지셔닝 |
|------|------|--------------|
| Claude Opus 4.5 | 2025년 하반기 | 4.x 세대 초기 |
| Claude Opus 4.6 | 2026년 2~3월 | 코딩 강화, 1M 컨텍스트 |
| Claude Opus 4.7 | 2026년 4월 16일 | 에이전트 안정화, SWE-bench 87.6% |
| **Claude Opus 4.8** | **2026년 5월 28일** | **수학·정직성·장기 에이전트 도약** |
| Claude Mythos Preview | 2026년 4월 7일 | Opus 상위 계층, 사이버보안 특화 (제한 공개) |

특이한 점은 Mythos Preview가 **Opus 4.7과 같은 달에 먼저 등장**했다는 것이다. 즉 Anthropic은 이미 Opus 라인 위에 별도 상위 모델을 두는 2계층 구조로 전환 중이며, Opus 4.8은 그 사이의 "범용 플래그십" 자리를 굳히는 모델로 읽힌다.

---

## 2. 벤치마크: Opus 4.7 → 4.8 무엇이 얼마나 달라졌나

### 2-1. 주요 수치 변화

| 벤치마크 | Opus 4.7 | **Opus 4.8** | 변화 |
|---------|---------|---------------|------|
| SWE-bench Verified | 87.6% | **88.6%** | +1.0%p |
| SWE-bench Pro | 64.3% | **69.2%** | **+4.9%p** |
| SWE-bench Multilingual | 80.5% | **84.4%** | +3.9%p |
| USAMO 2026 (수학 올림피아드) | 69.3% | **96.7%** | **+27.4%p** |
| GPQA Diamond (대학원 과학) | 94.2% | 93.6% | -0.6%p |
| GraphWalks 1M 검색 | 40.3% | **68.1%** | **+27.8%p** |
| Online-Mind2Web (웹 에이전트) | — | **84%** | 신규 |
| 코드 정직성 (미보고 결함률) | 기준 | **약 4배 개선** | 질적 변화 |
| 프롬프트 인젝션 공격 성공률 | 6.0% | 9.6% | **악화** |

(출처: Anthropic 공식 발표, BenchLM.ai, Digital Applied 기술 분석)

### 2-2. 해석 — 어디가 진짜 의미 있는 변화인가

**USAMO 2026의 27.4%p 도약**이 가장 주목할 지점이다. 미국수학올림피아드는 단순 계산이 아니라 **다단계 증명**을 요구하므로, 모델 파라미터를 늘리는 것만으로는 이런 비약이 나오지 않는다. Anthropic은 구체적 방법론을 공개하지 않았으나, 업계에서 관측되는 패턴상 **강화학습 기반의 사고 과정(extended thinking) 최적화**가 핵심 동인일 가능성이 크다.

**GraphWalks 1M에서 40.3% → 68.1% (+27.8%p)** 도 같은 맥락이다. 이 벤치마크는 100만 토큰 컨텍스트에서 그래프를 탐색하는 능력을 측정하는데, 장기 컨텍스트 활용 효율이 질적으로 개선되었음을 뜻한다. 1M 컨텍스트 자체는 4.6부터 지원되었지만, "지원"과 "실제로 잘 활용"은 다른 문제다.

**SWE-bench Pro의 +4.9%p**도 의미가 작지 않다. Verified가 비교적 잘 정의된 GitHub 이슈를 다루는 반면, Pro는 더 까다롭고 다중 파일을 건드리는 실무형 과제다. 이 영역의 개선은 실제 에이전트 운영에서 체감되는 차이로 이어진다.

**경계해야 할 두 가지:**
- **GPQA Diamond 0.6%p 후퇴**는 사실상 노이즈로 보인다. 이미 94%대에 도달해 포화 구간이다.
- **프롬프트 인젝션 6.0% → 9.6%**는 명시적 후퇴다. Anthropic도 공식 문서에서 인정하며 "샌드박스 검토 권장"이라고 밝혔다. 이는 "지시를 더 잘 따르도록" 만든 것과 "악의적 지시 저항"이 트레이드오프 관계에 있음을 보여준다. 외부 입력을 직접 받는 에이전트 파이프라인에서는 격리 설계를 재점검할 필요가 있다.

### 2-3. 코드 정직성 4배 개선

이는 정렬(alignment) 연구가 벤치마크 숫자로 드러난 드문 사례다. 이전 모델은 코드 작성 중 결함을 발견해도 침묵하는 경향이 있었는데, 4.8에서는 **미보고 결함률이 약 1/4 수준으로 떨어졌다**. Anthropic이 강화학습 단계에서 "사용자 자율성·최선의 이익 지원" 특성을 강화한 결과로 해석된다.

---

## 3. 경쟁 모델 대비 위치

### 3-1. 주요 벤치마크 직접 비교

| 벤치마크 | Claude Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro | Claude Mythos |
|---------|-----------------|---------|----------------|---------------|
| SWE-bench Verified | 88.6% | — | 80.6% | **93.9%** |
| SWE-bench Pro | 69.2% | — | 54.2% | **77.8%** |
| USAMO 2026 | 96.7% | — | — | **97.6%** |
| GPQA Diamond | 93.6% | — | **94.3%** | — |
| GDPval-AA (Elo) | **1890** | 1769 | — | — |
| Terminal-Bench 2.0 | — | — | — | **82.0%** |
| 컨텍스트 윈도우 | 1M 토큰 | 1M 토큰 | 1M 토큰 | — |

(출처: BenchLM.ai 집계, Artificial Analysis)

**해석:**
- **코딩(SWE-bench 계열):** Claude Opus 4.8 > Gemini 3.1 Pro의 차이가 분명하다. Pro 기준으로 **15%p 우위**다. GPT-5.5는 동일 벤치마크의 공개 수치가 충분치 않아 직접 비교는 어렵다.
- **전문 지식(GPQA Diamond):** Gemini 3.1 Pro 94.3% vs Opus 4.8 93.6%로 **Google이 근소 우위**. 다만 양쪽 모두 포화 구간이므로 실무 체감 차이는 크지 않다.
- **종합 경제 가치(GDPval-AA):** Opus 4.8의 Elo 1890이 GPT-5.5의 1769를 **121점 앞선다**. 다양한 직무 시나리오 종합 평가에서 우위.

### 3-2. 종합 순위 (BenchLM.ai 119개 모델 기준)

| 순위 | 모델 | 종합 점수 |
|------|------|----------|
| #1 | Claude Mythos Preview | 99 |
| **#2** | **Claude Opus 4.8** | **93** |
| #3 | Gemini 3.1 Pro | 92 |
| #3 | Qwen 3.7 Max | 92 |

카테고리별로 보면 **코딩 #2 (99.1점), 지식·이해 #3 (98.8점), 에이전틱 도구 사용 #4 (96.2점)** 으로 상위권을 굳혔지만, **멀티모달은 #29 (68.8점)** 으로 명확한 약점이다. 이미지·영상 이해가 중요한 워크로드는 여전히 Gemini 쪽이 합리적인 선택지다.

### 3-3. 속도 비교

| 지표 | Opus 4.8 | Gemini 3.5 Flash | Gemini 3.1 Pro | GPT-5.5 |
|------|----------|------------------|----------------|---------|
| 출력 속도 (tok/s) | 62.1 | **289** | 120.3 | 71 |
| 첫 토큰 지연 (TTFT) | 20.02초 | 빠름 | 중간 | — |

Gemini 3.5 Flash의 압도적 속도는 **경량 모델 대비**라는 점을 잊지 말아야 한다. 같은 플래그십 급끼리 비교하면 Opus 4.8 62.1 tok/s vs GPT-5.5 71 tok/s로 OpenAI가 소폭 빠르다. 단, Opus 4.8은 별도의 **Fast Mode**를 통해 지연을 단축할 수 있다(아래 4-3 참조).

---

## 4. 신기능 3종 — 실용적 의미

### 4-1. Dynamic Workflows (연구 미리보기)

단일 세션에서 **수십~수백 개의 병렬 서브에이전트**를 동시 실행하는 기능. Enterprise·Team·Max 플랜 한정.

Anthropic이 공개한 실증 사례가 인상적이다 — **Bun 언어 포트 프로젝트에서 Rust 코드 75만 줄을 11일간 생성, 테스트 통과율 99.8%**. 시니어 개발자 팀이 수주~수개월 걸리던 대규모 마이그레이션 작업을, 단일 에이전트 세션이 며칠 안에 끝낼 수 있다는 시그널이다.

### 4-2. Effort Control 전 플랜 확장

기존엔 Claude Code에만 있던 **노력 수준 제어**가 모든 claude.ai 플랜으로 확장됐다.

| 레벨 | 특징 | 용도 |
|------|------|------|
| Low | 빠름, 최소 리소스 | 간단 질문, 초안 |
| High (기본) | 균형 | 일반 작업 |
| xhigh | 깊은 사고 | 복잡 분석, 비동기 워크플로 |
| Max | 최고 품질 | 비용 무관, 최고 정확도 필요 시 |

이는 사용자가 응답 품질과 비용을 **명시적으로 다이얼링**할 수 있게 한다는 점에서 실무적 영향이 크다.

### 4-3. Fast Mode 가격 인하

가격은 **입력 $10 / 출력 $50 (1M 토큰당)**. 액면으로는 비싸 보이지만 **이전 Fast Mode 대비 3배 저렴**해진 것이 핵심이다. 실시간 응답이 필요한 사용자 대면 서비스에서 Opus급 품질을 적용할 때의 비용 장벽이 크게 낮아졌다.

### 4-4. Messages API 캐시 보존 삽입

장기 실행 에이전트에서 **프롬프트 캐시를 끊지 않고 시스템 지시사항을 중간에 삽입·수정**할 수 있게 됐다. 권한·컨텍스트가 동적으로 바뀌어야 하는 상황에서 캐시 비용 손실 없이 처리된다 — 인프라 비용에 즉시 영향을 주는 실용적 개선이다.

---

## 5. Claude Mythos Preview — Opus 위에 무엇이 있는가

Opus 4.8 발표와 함께 부각된 또 다른 중요한 사실은, Anthropic이 **이미 Opus를 상회하는 상위 계층 모델**을 보유 중이라는 점이다.

| 항목 | Claude Mythos Preview |
|------|----------------------|
| 발표일 | 2026년 4월 7일 |
| 포지셔닝 | Opus 4.7보다 한 계층 위 |
| SWE-bench Verified | 93.9% (Opus 4.8의 88.6% 초과) |
| SWE-bench Pro | 77.8% |
| USAMO 2026 | 97.6% |
| Terminal-Bench 2.0 | 82.0% |
| 특기 사항 | 27년 된 OpenBSD TCP SACK RCE 등 제로데이 다수 발견 |
| 가격 | $25/$125 per 1M 토큰 (Opus 4.7의 약 5배) |
| 접근 방법 | Project Glasswing (초대 전용, 40개 인프라 파트너) |
| 일반 공개 예정 | "수 주 내" (Anthropic 공식) |

(출처: InfoQ Claude Mythos 보도)

Mythos는 **사이버보안 역량이 지나치게 강력해** Anthropic이 자체 안전장치를 갖춘 뒤에야 공개한다는 방침이다. 일반 공개 시 코딩·보안 영역의 벤치마크 기준선 자체가 재편될 것으로 보인다. Opus 4.8을 채택하려는 조직이라면, 수 주 내 Mythos 공개로 인한 가격·성능 재편을 함께 시야에 둬야 한다.

---

## 6. 종합 평가와 모델 선택 가이드

### 핵심 요약

Opus 4.8은 **코딩·수학·장기 에이전트 영역에서 명확한 세대 전환**을 보여주는 모델이다. 특히 USAMO +27.4%p, GraphWalks +27.8%p, 코드 정직성 4배 개선은 단순 스케일 업으로 나오지 않는 질적 변화다. 코딩 영역에서는 GPT-5.5와 Gemini 3.1 Pro를 상당한 격차로 앞선다.

반면 **멀티모달(#29/119)과 프롬프트 인젝션 저항력 후퇴(6.0% → 9.6%)** 는 명확한 약점이다. 이미지·영상 이해가 핵심인 워크로드, 그리고 외부 입력을 직접 받는 자율 에이전트 설계에서는 보완책이 필요하다.

### 용도별 권장 모델

| 용도 | 권장 |
|------|------|
| 코딩·소프트웨어 엔지니어링 | **Claude Opus 4.8** (코딩 #2/119) |
| 수학·과학적 추론 | **Claude Opus 4.8** (USAMO 96.7%) |
| 대규모 레거시 마이그레이션 | Opus 4.8 + Dynamic Workflows (Enterprise/Max) |
| 빠른 대량 응답 | Gemini 3.5 Flash (289 tok/s) |
| 일반 지식·멀티모달 | Gemini 3.1 Pro |
| 사이버보안·고강도 에이전트 | Claude Mythos Preview (제한 접근) |
| 비용 효율 | GPT-5.5 |

### 향후 주시할 변수

1. **Mythos 일반 공개 ("수 주 내")** — 공개되면 코딩·보안 벤치마크 기준선이 재편된다. Opus 4.8 채택 결정은 이 일정과 함께 검토할 가치가 있다.
2. **Dynamic Workflows 정식 출시** — 현재 연구 미리보기. 정식화되면 대규모 코드 마이그레이션 시장 구도가 바뀐다.
3. **IPO 경쟁 가속** — Yahoo Finance는 이번 Opus 4.8 출시를 "OpenAI와의 IPO 경쟁 가속화" 맥락에서 보도했다. Anthropic의 출시 페이스가 단순 기술 경쟁을 넘어 기업 가치 경쟁과 직결되어 있어, 향후 6~12개월간 모델 갱신 주기는 더 빨라질 가능성이 높다.
---

## References

- [Anthropic 공식 발표](https://www.anthropic.com/news/claude-opus-4-8)
- [BenchLM.ai 벤치마크](https://benchlm.ai/models/claude-opus-4-8)
- [Artificial Analysis](https://artificialanalysis.ai/models/claude-opus-4-8)
- [Digital Applied 기술 분석](https://www.digitalapplied.com/blog/claude-opus-4-8-release-dynamic-workflows-2026)
- [Claude Mythos InfoQ](https://www.infoq.com/news/2026/04/anthropic-claude-mythos/)
- [Yahoo Finance](https://ca.finance.yahoo.com/news/anthropic-debuts-flagship-claude-opus-48-ai-model-as-ipo-race-with-openai-heats-up-170000527.html)

댓글

이 블로그의 인기 게시물

Vim 9.2 릴리즈 총정리: 더 빠르고 강력해진 텍스트 편집의 제왕

폐쇄망 SoC 설계자를 위한 가볍고 빠른 Vim 최적화 가이드

에이전트 시대를 위한 터미널 cmux 가이드: 설치부터 AI 활용까지