라벨이 AI 벤치마크인 게시물 표시

구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리

🚀 구글 안티그래비티(Antigravity) 완전 분석 구글이 2025년 11월 Gemini 3와 함께 공개한 에이전트 퍼스트(agent-first) IDE 안티그래비티는 Claude·GPT·Gemini를 한 도구에서 골라 쓰는 멀티모델 코딩 환경이다. 이 글에서는 ① 지원 모델과 요금제별 사용량의 실체, ② 실사용자 평가, ③ 구글의 방향성, ④ Claude Code와의 비교·연계, ⑤ CLI( agy )로 직접 쓰는 법까지 다섯 갈래를 차례로 정리한다. 자료 간 충돌이 있는 지점은 한쪽으로 단정하지 않고 양쪽을 모두 살려 표기했다. 📅 기준 시점: 2026년 6월 · 프리뷰 단계 정보로 수치는 변동 가능 1. 안티그래비티란 무엇인가 — 기초 정리 안티그래비티는 2025년 7월 구글이 24억 달러 규모 라이선스 계약 으로 영입한 전 Windsurf 팀이 설계를 주도했다. VSCode를 포크한 위에 자율 에이전트 오케스트레이션 계층을 얹은 구조다. 2026년 5월 Google I/O에서 발표된 안티그래비티 2.0 은 데스크탑 앱과 함께 공식 CLI agy 를 처음 공개하며 기존 Gemini CLI의 공식 후계자 자리를 확정했다. 핵심 정체성은 단순 코드 자동완성이 아니라 병렬 에이전트 오케스트레이션 이다. 여러 에이전트가 동시에 — 하나는 API, 하나는 테스트, 또 하나는 프론트엔드 — 작업을 나눠 진행하고, 각 에이전트는 계획·테스트 결과·스크린샷·영상을 담은 Artifact 를 남긴다. "사람이 한 줄씩 승인"하는 방식이 아니라 "에이전트들이 일을 마치고 사람이 사후 검수"하는 모델이다. flowchart TD A([사용자 작업 지시]) --> B[에이전트 A API 구현] A --> C[에이전트 B 테스트 작성] A --> D[에이전트 C UI 생성] B --> E[Artifact 계획·결과·영상] C --> E D --> E...

Claude Opus 4.8 전격 분석, 무엇이 달라졌나

Claude Opus 4.8 종합 분석 — 무엇이 달라졌고, 왜 중요한가 2026년 5월 29일 · IT/AI 모델 동향 Anthropic이 2026년 5월 28일 공개한 Claude Opus 4.8 은 한 달 반 전 출시된 Opus 4.7의 마이너 업데이트가 아니다. 수학 올림피아드 27%p 도약, 100만 토큰 컨텍스트 활용 효율 28%p 개선, 코드 정직성 4배 향상이라는 수치는 단순 스케일업으로 설명되지 않는 질적 변화를 시사한다. 동시에 Anthropic은 Opus 위에 위치하는 Claude Mythos Preview 의 존재를 부각시키며 모델 계층 자체를 재편 중이다. 이 글은 (1) Opus 4.7 대비 정량 개선 폭, (2) GPT-5.5·Gemini 3.1 Pro 대비 위치, (3) Dynamic Workflows·Effort Control·Fast Mode 등 신기능의 실용적 의미, (4) Mythos와의 관계를 정리한다. 모델 도입을 검토 중인 엔지니어링·프로덕트 팀이 곧장 의사결정에 쓸 수 있는 형태로 압축했다. 1. Claude 4.x 계보에서 4.8의 자리 Anthropic의 Claude 4.x 시리즈는 2025년 하반기부터 본격화된 에이전트 최적화 세대 다. 단순 챗봇 응답을 넘어 코드 마이그레이션, 장시간 자율 작업, 도구 호출 체인 등 멀티스텝 태스크를 정조준한 설계 철학이 일관되게 이어지고 있다. 모델 출시 핵심 포지셔닝 Claude Opus 4.5 2025 하반기 4.x 세대 개시 Claude Opus 4.6 2026-02~03 코딩 강화, 1M 컨텍스트 도입 Claude Opus 4.7 2026-04-16 에이전트 안정화, SWE-bench 87.6% Claude Opus 4.8 2026-05-28 수학·정직성·장기 에이전트 도약 Claude Mythos Preview 2026-04-07 Opus 상위 계층, 사이버보안 특화 (제한 공개) ...

엔트로픽 Claude Sonnet 4.6 전격 출시: GPT-5.2를 위협하는 성능과 벤치마크 분석

🚀 엔트로픽의 반격: Claude Sonnet 4.6 전격 공개 — 벤치마크·가격·실전 비교 총정리 2026.02.18 · AI 모델 리뷰 · Claude Sonnet 4.6 지난밤, 인공지능 업계의 시선이 다시 엔트로픽(Anthropic) 으로 집중됐습니다. 엔트로픽이 최신 모델 Claude Sonnet 4.6 을 공식 릴리즈하며, 기존 Sonnet 4.5는 물론 최상위 Opus 시리즈의 성능마저 위협하는 압도적 기술력을 선보였기 때문입니다. 코딩·컴퓨터 사용(Computer Use)·장기 문맥 추론 등 핵심 영역에서 혁신적 진보를 이뤄낸 이번 업데이트, 지금부터 상세히 살펴보겠습니다. ⚡ 1. Sonnet 4.6 핵심 개선 사항 — '지능의 가성비' 극대화 Sonnet 4.6의 가장 큰 특징은 빠른 처리 속도를 유지하면서도, 최상위 모델급 지능을 구현 했다는 점입니다. 개발자와 기업 모두에게 '비용 대비 최고의 성능'을 제공합니다. 🔥 비약적인 코딩 능력 향상 개발자들 사이에서 이미 "코드 작성의 새로운 표준" 으로 불리고 있습니다. Sonnet 4.5 대비 코드 수정 시 맥락 이해도가 대폭 개선되었으며, 복잡한 버그 수정과 시스템 설계 작업에서 Opus 4.5보다 높은 사용자 선호도를 기록했습니다. 특히 Claude Code 환경에서의 자율적 코드 리팩토링, 테스트 작성, 디버깅 능력이 크게 향상되어, 실제 프로덕션 워크플로에 바로 투입 가능한 수준입니다. 📚 100만 토큰 컨텍스트 윈도우 (Beta) 베타 버전에서 100만 토큰 에 달하는 방대한 데이터를 한 번에 처리할 수 있게 되었습니다. 수천 페이지의 기술 문서, 대규모 코드베이스 전체, 법률·의료 분야의 장문 보고서까지 한 번에 입력하고 분석할 수 있습니다. 이는 기존 20만 토큰 대비 5배 확장 된 수치입니다. 🖥️ 컴퓨터 사용(Computer Use) 신뢰도 확보 브라우저 기반 자동화와 GUI...

Claude 4.6 Opus 기습 공개: 벤치마크 파괴와 지능의 도약

🚀 Claude 4.6 Opus 전격 공개 — AI 추론 능력의 새로운 기준점 앤스로픽(Anthropic)이 차세대 플래그십 모델 Claude 4.6 Opus 를 기습 공개했습니다. 추론 능력의 질적 도약과 멀티모달 통합 성능 극대화를 앞세워, Gemini 3 Pro·GPT-o와의 전면전을 선포한 이번 모델의 모든 것을 심층 분석합니다. ⚡ 1. Claude 4.6 Opus — 무엇이 달라졌나? (vs 4.5 Opus) Claude 4.6 Opus는 이전 버전 4.5에서 지적되었던 핵심 한계점을 세 가지 축에서 완벽하게 보완했습니다. 🔥 응답 속도 40% 향상 Opus급 모델의 고질적인 느린 응답 속도를 새로운 아키텍처 최적화로 해결했습니다. 실시간 대화와 대규모 코드 생성에서 체감 성능이 크게 높아졌습니다. 🎯 Context Window 효율성 극대화 200K+ 컨텍스트를 지원하면서 Needle In A Haystack 테스트에서 99.9% 정확도 를 달성했습니다. 수백 페이지의 기술 문서 분석 시 발생하던 환각(Hallucination) 현상이 대폭 감소했습니다. 🖥️ Computer Use 능력 정교화 3.5 Sonnet에서 선보인 Computer Use 기능이 Opus 4.6에 탑재되면서, 복잡한 워크플로우를 스스로 설계하고 실행하는 고차원적 도구 사용 능력이 크게 강화되었습니다. 📊 2. 압도적인 벤치마크 수치 — 주요 지표 분석 앤스로픽 공식 자료와 초기 테스터 데이터를 교차 검증한 결과, 주요 지표에서 놀라운 성장이 확인되었습니다. 벤치마크 Claude 4.6 Opus 변화 GPQA (과학 추론) 68.5% ⬆ 인간 전문가 수준 근접 MMLU (지식 이해) 90.2% ⬆ 최초 90% 돌파 HumanEval (코딩) 94.5% ⬆ 코딩 분야 독보적 1위 MATH (수학) +15%↑ ⬆ 논리적 추론 엄밀성 강화 💡 주목할 점: MMLU...