구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리

🚀 구글 안티그래비티(Antigravity) 완전 분석 구글이 2025년 11월 Gemini 3와 함께 공개한 에이전트 퍼스트(agent-first) IDE 안티그래비티는 Claude·GPT·Gemini를 한 도구에서 골라 쓰는 멀티모델 코딩 환경이다. 이 글에서는 ① 지원 모델과 요금제별 사용량의 실체, ② 실사용자 평가, ③ 구글의 방향성, ④ Claude Code와의 비교·연계, ⑤ CLI( agy )로 직접 쓰는 법까지 다섯 갈래를 차례로 정리한다. 자료 간 충돌이 있는 지점은 한쪽으로 단정하지 않고 양쪽을 모두 살려 표기했다. 📅 기준 시점: 2026년 6월 · 프리뷰 단계 정보로 수치는 변동 가능 1. 안티그래비티란 무엇인가 — 기초 정리 안티그래비티는 2025년 7월 구글이 24억 달러 규모 라이선스 계약 으로 영입한 전 Windsurf 팀이 설계를 주도했다. VSCode를 포크한 위에 자율 에이전트 오케스트레이션 계층을 얹은 구조다. 2026년 5월 Google I/O에서 발표된 안티그래비티 2.0 은 데스크탑 앱과 함께 공식 CLI agy 를 처음 공개하며 기존 Gemini CLI의 공식 후계자 자리를 확정했다. 핵심 정체성은 단순 코드 자동완성이 아니라 병렬 에이전트 오케스트레이션 이다. 여러 에이전트가 동시에 — 하나는 API, 하나는 테스트, 또 하나는 프론트엔드 — 작업을 나눠 진행하고, 각 에이전트는 계획·테스트 결과·스크린샷·영상을 담은 Artifact 를 남긴다. "사람이 한 줄씩 승인"하는 방식이 아니라 "에이전트들이 일을 마치고 사람이 사후 검수"하는 모델이다. flowchart TD A([사용자 작업 지시]) --> B[에이전트 A API 구현] A --> C[에이전트 B 테스트 작성] A --> D[에이전트 C UI 생성] B --> E[Artifact 계획·결과·영상] C --> E D --> E...

맥에서 돌리는 로컬 AI 톱5, 클라우드 대체 가능할까

🍎 Apple Silicon 온디바이스 AI 생태계 전격 평가 — 2026년 5월 현시점

📅 작성일: 2026-05-11 · 분류: IT/과학 · 로컬 AI · Mac 생태계

최근 news.hada.io에 올라온 한 글이 두 가지 통점을 짚었습니다. ① 외부 API 무분별 호출이 만드는 보안 노출, ② Apple Silicon이 이미 보유한 ANE·MLX 추론 자원이 네트워크 응답 대기 중 유휴 상태로 방치되는 비효율입니다. 2024년부터 본격화된 '로컬 AI 회귀' 흐름의 핵심 동기이자, 2026년 현재 일반 사용자 손에 잡힌 현실이기도 합니다. 이 글은 Mac/iPad/iPhone에서 로컬에 모델을 적재해 추론할 수 있는 도구·모델을 인기도 순으로 1~5위까지 추려, 성능·최신 버전·요구 사양·클라우드 대비 벤치마크·요금까지 한 번에 정리합니다.

🧠 1. Apple Silicon이 로컬 AI에 강한 이유

Mac에서 LLM이 돌아간다는 이야기가 더 이상 신기하지 않은 데에는 세 가지 구조적 이유가 있습니다. 단순히 칩이 빨라서가 아닙니다.

▶ 통합 메모리(UMA) — RAM 전체가 VRAM

CPU/GPU/Neural Engine이 같은 메모리 풀을 공유합니다. 외장 GPU 시장이 VRAM 24~48GB에 묶여 있는 동안, M3/M4 Max·Ultra는 64GB~192GB 단일 메모리 풀로 70B 모델까지 단일 노드 추론을 처리합니다.

▶ MLX 프레임워크 — Apple 공식 추론 엔진

Apple ML 연구팀이 2023년 말 공개한 프레임워크가 2026년에는 MoE 모델용 커널 최적화까지 추가됐습니다. llama.cpp 대비 토큰 생성 속도에서 20~40% 우위, 일부 MoE 워크로드에서는 최대 3배 우위가 보고됐습니다.

▶ M5 세대의 도약 — 프리필 4배 가속

2026년 M5에 들어간 새 Neural Accelerator가 프롬프트 프리필 속도를 M4 대비 약 4배까지 끌어올렸습니다. 긴 코드베이스나 RAG 문서를 통째로 컨텍스트에 넣을 때 체감 격차가 가장 큽니다.

💡 핵심: Apple Silicon의 강점은 "CPU 속도"가 아니라 메모리 대역폭과 RAM 용량입니다. 같은 모델, 같은 양자화라도 M4 Max(546GB/s)와 M4 Ultra(800GB/s+)의 토큰 생성 속도 차이는 칩 가격 차이만큼이나 큽니다.

🏆 2. 현시점 인기 Top 5 로컬 AI 도구

인기도 = GitHub Star + Reddit r/LocalLLaMA 멘션 빈도 + Hugging Face 다운로드 누계 + Mac App Store 노출도의 정성 가중. 각 카드의 색상은 도구의 특성을 따릅니다.

🥇 LM Studio
GUI 1위
🥈 Ollama
개발자 1위
🥉 GPT4All
RAG 강자
4️⃣ Jan
UX 친화
5️⃣ MLX-LM
속도 최강

🥇 1위 · LM Studio — GUI 범용성 최강자

포지셔닝: Hugging Face 모델 검색·다운로드·실행을 하나의 데스크톱 GUI에서 처리. 비개발자 진입 장벽을 가장 낮춤.

최신 버전: v0.4.x 계열 (2026 상반기 공식 사이트 기준).

성능: M3 Max에서 Llama 3.1 8B 구동 시 보고치가 자료마다 크게 다릅니다 — Round 1은 30~50 t/s, Terminal Bytes(2026-04) 측정은 동급 7B에서 ~100 t/s. 후자가 최신 4-bit 양자화 + MLX 백엔드 적용 후 수치로 보입니다.

사양: 최소 M1 / RAM 8GB, 권장 M3·M4 Pro / RAM 32GB+.

요금: 개인·상업 이용 무료. 단, Security Week(2026-05)는 기업 사용 시 별도 유료 라이선스가 필요함을 명시.

리스크: Electron 기반 ~300MB+ RAM 상주, 헤드리스 모드 없음, 텔레메트리 기본 ON — 사내 표준화 시 수동 차단 필요.

🥈 2위 · Ollama — 개발자 워크플로우 표준

포지셔닝: CLI + 로컬 HTTP API. VSCode·n8n·LangChain 연동성으로 사실상 로컬 추론 백엔드 표준이 됨.

최신 버전 — 표기 모순 주의: Round 1은 'v0.6.x', Hugging Face Blog(2026-02)는 'v0.19+ (MLX 백엔드 도입)'. Ollama가 0.x 단일 메이저 라인을 유지하는 점을 보면 v0.19.x가 정합적이며 v0.6.x는 오기 가능성이 큽니다.

성능: CLI 오버헤드가 거의 없어 동일 모델 기준 LM Studio보다 안정적인 t/s. M4 Max + 7B + 4-bit에서 ~135 t/s, M4 Ultra에서 ~150+ t/s.

사양: 최소 M1 / 8GB, 권장 M2 Ultra·M4 Max / 64GB+.

요금: 로컬 엔진 무료. Ollama Cloud Pro 월 $20 옵션 별도(공식 블로그).

🔴 Ollama 보안 리스크 (Critical)

CVE-2026-7482 'Bleeding Llama': 악의적 GGUF로 힙 오버플로우 → 시스템 프롬프트·API 키 유출 가능(CSO/Security Week, 2026-05-02). 반드시 최신 패치 버전을 사용해야 합니다.

• 잘못된 외부 노출 설정으로 약 30만 대의 Ollama 인스턴스가 인증 없이 공용 인터넷에 노출됐다는 감사 결과 동일 출처. OLLAMA_HOST를 0.0.0.0으로 두지 말 것.

🥉 3위 · GPT4All — 사내 문서 RAG 특화

포지셔닝: 'LocalDocs' 기능으로 PDF·TXT를 임베딩해 완전 오프라인 RAG. 보안 부서가 가장 선호하는 옵션 중 하나.

최신 버전: v3.5.x 계열.

성능: 7B~8B 모델을 8~16GB RAM 환경에 맞춰 양자화 프리셋이 잘 정돈돼 있음. 절대 t/s는 LM Studio/Ollama보다 낮으나 적은 RAM에서의 안정성이 강점.

사양: 최소 M1 / 8GB, 권장 M1·M2·M3 / 16GB.

요금: 완전 무료, MIT 계열 오픈소스.

4️⃣ 4위 · Jan — 오픈소스 ChatGPT 클론

포지셔닝: ChatGPT UX를 그대로 가져오되, 로컬 모델과 OpenAI/Anthropic API를 한 인터페이스에서 혼용. 사용자 데이터는 기본 로컬 저장.

최신 버전: v0.6.x.

성능: Metal 가속 정식 지원, 채팅 히스토리 로컬 SQLite 저장.

사양: 최소 M1 / 8GB, 권장 M3 Max / 36GB+.

요금 — 검증 필요: Round 1은 '오프라인 음성 인식 확장 모듈 일시불 약 $24'를 언급하지만 공식 문서에서 동일 항목 미확인. 본체는 무료, 유료 확장 존재 여부는 구입 직전 공식 사이트 재확인을 권합니다.

5️⃣ 5위 · MLX / MLX-LM 직접 사용 (고급)

포지셔닝: Apple 공식 프레임워크에 직접 Python으로 접근. GUI 없음. 대신 같은 모델·같은 하드웨어에서 가장 빠른 추론을 뽑을 수 있는 경로.

최신 버전: MLX v0.22.x 계열 기반의 MLX-LM, MLX-VLM 등.

성능: 70B 4-bit를 M3 Ultra/M4 Ultra에서 단일 노드 추론. Speculative Decoding 결합 시 M4 Max + 7B에서 200 t/s 돌파 벤치마크(Hugging Face 공식 블로그, 2026-02).

사양: 최소 M1 Pro / 16GB, 권장 M3·M4 Ultra / 128GB+.

요금: 무료, Apache-2.0 라이선스.

📊 3. 칩셋별 토큰 생성 속도 — 4-bit 양자화 기준

같은 모델, 같은 양자화 조건에서 칩셋이 달라질 때 t/s가 어떻게 변하는지를 한 장에 정리했습니다. 메모리 대역폭이 토큰 생성 속도를 가장 강하게 좌우합니다 — M3 Max(~400GB/s) vs M4 Ultra(800GB/s+)의 차이가 그 증거입니다.

모델 규모 M3 Max
(~400GB/s)
M4 Max
(546GB/s)
M4 Ultra
(800GB/s+)
7B (Llama 3.1/4) ~100 t/s ~135 t/s ~150+ t/s
14B (Qwen 3 등) ~48 t/s ~65 t/s ~100 t/s
70B (Llama 3.3/4) ~10–12 t/s ~15–18 t/s ~45–52 t/s

출처: Terminal Bytes 'Apple Silicon LLM Performance Guide', 2026-04-15.

☁️ 4. 클라우드 LLM 대비 성능 지표

"로컬이 클라우드를 대체할 수 있나?"라는 질문에 대해, DeepSeek-R1 Distill 32B(로컬)와 주요 상용 모델의 벤치마크를 직접 비교했습니다. 결론부터 말하면 코딩 같은 고난도 추론은 아직 클라우드 우세, 일반 지식·수학·외부 송신 비용 측면에서는 로컬이 상당히 좁혀왔습니다.

지표 DeepSeek-R1 32B
(로컬)
GPT-4o Claude 3.5
Sonnet
Gemini 1.5
Pro
MMLU 80~82%* 88.7% 88.7% 85.9%
GSM8K 94%+* 92.0% 92.0% 91.7%
HumanEval 75~80% 90.2% 93.7% 84.1%
데이터 외부 송신 없음 ✅ 있음 있음 있음
1M 토큰 비용 $0 (전력 제외) ~$5 ~$9 변동

🟡 * 검증 필요: DeepSeek-R1 Distill 32B의 MMLU 80~82% 및 GSM8K 94% 수치는 Round 1 자료에 출처가 명시되지 않았으며, DeepSeek 공식 리포트와의 교차검증이 끝나지 않았습니다. 의사결정에 사용하기 전 원본 페이퍼(DeepSeek-AI GitHub) 확인을 권합니다.

🔍 5. 자료 간 모순 — 어디까지 믿을 것인가

로컬 AI 시장은 분기마다 백엔드·양자화 방식·드라이버가 바뀝니다. 1차 라운드 자료와 2차 라운드 자료 간 충돌이 생기는 게 자연스러운데, 신뢰도 평가를 명시해 두면 독자가 직접 판단할 수 있습니다.

쟁점 상태
Ollama 버전 표기 Round 1 'v0.6.x' vs Round 2 'v0.19+'. 0.x 단일 라인 정책상 v0.19.x가 정합적, Round 1은 오기 추정.
M3 Max 7~8B 속도 Round 1 30~50 t/s vs Round 2 ~100 t/s. 모델 크기(8B vs 7B), 양자화, 백엔드(llama.cpp vs MLX) 차이로 일부 설명 가능. 최신 측정은 Round 2 신뢰.
Jan 음성 모듈 $24 Round 1 단독 주장, 공식 문서 미확인. 구매 직전 본인이 사이트에서 재확인.
DeepSeek-R1 벤치마크 Round 1 인용, 원 출처 부재. 별도 검증 전까지 '참고 수치'로만.

🛡️ 6. '로컬'이라는 이름만 믿지 말 것 — 보안 운영 포인트

외부 API 호출을 줄이면 보안 노출 면적이 작아진다는 원 기사 주장은 타당합니다. 그러나 로컬 도구 자체에 새 공격 표면이 생긴다는 점을 함께 봐야 합니다. Ollama Bleeding Llama 사례가 대표적이고, 비공식 업로더에서 GGUF를 받는 행위 자체가 신규 위협 벡터입니다.

🔴 설치 직후 반드시 점검할 5가지

텔레메트리 OFF — LM Studio 등 GUI 도구의 기본 ON 상태를 수동으로 끄기.

0.0.0.0 바인딩 차단 — Ollama 등 로컬 서버는 127.0.0.1로만.

모델 해시 검증 — Hugging Face 공식 리포지터리에서만 다운로드, SHA-256 대조.

최신 패치 즉시 적용 — CVE-2026-7482 같은 RCE는 24시간 내 업데이트가 원칙.

외부 API 키 분리 — Jan처럼 하이브리드 도구는 로컬 모드 전용 프로파일을 만들어 클라우드 API 키 자체를 입력하지 말 것.

🎯 7. 사용자 유형별 추천 — 한눈에 결론

👤 개인 사용자 · 비개발자

LM Studio 최신 버전 + Llama 3.1 8B 또는 Qwen 3 14B 4-bit. RAM 32GB부터 쾌적합니다. 다운로드 → 더블클릭 → 채팅으로 끝.

💻 개발자 · API 자동화

Ollama v0.19.x 이상으로 즉시 패치 적용, 외부 노출 금지, MLX 백엔드 활성화. VSCode·n8n·LangChain 연동까지 같은 엔진으로.

🏢 사내 문서 보안 우선

GPT4All LocalDocs 또는 Jan(외부 API 키 미입력) 조합. 완전 오프라인 RAG로 사내 PDF 검색·요약.

🚀 최대 성능 · 70B급

M4 Ultra 128GB+ 환경에서 MLX-LM 직접 사용 + Speculative Decoding. 7B 200 t/s, 70B 단일 노드 추론이 현실.

🧠 하드웨어 투자 원칙: CPU 코어 수보다 메모리 대역폭과 RAM 용량이 토큰 생성 속도를 좌우합니다. 예산의 70% 이상을 RAM 업그레이드에 배분하는 것이 일관된 권고입니다. M-Pro 32GB보다 M-Max 64GB가, M-Max 64GB보다 M-Ultra 128GB가 같은 모델에서 체감 격차를 만듭니다.

📝 8. 마치며 — '유휴 ANE'는 더 이상 가설이 아니다

원 기사가 지적한 'ANE 유휴' 문제는 측정 가능한 낭비입니다. 위 5개 도구 중 어느 것 하나만 도입해도, 일상적 코드 보조·문서 요약·RAG QA의 상당 부분을 외부 송신 없이 처리할 수 있는 시점에 우리는 이미 도달해 있습니다.

2024년에는 "로컬에서 70B 돌리면 모델은 똑똑한데 속도가 안 나옴"이 통념이었지만, 2026년에는 M4 Ultra + MLX-LM + Speculative Decoding 조합으로 7B에서 200 t/s, 70B에서 45~52 t/s를 보고하는 시대가 됐습니다. 같은 1년 동안 클라우드 LLM의 t/s 증가율과 비교해도 결코 뒤지지 않는 속도입니다.

단, "로컬"이라는 이름표만 믿고 손을 놓아두는 것이 가장 위험합니다. Ollama CVE-2026-7482 사례, 30만 대 인스턴스 노출 사례가 보여주듯 — 로컬 도구는 설치 직후가 가장 취약한 시점입니다. 텔레메트리 OFF, 바인딩 차단, 해시 검증, 즉시 패치 — 이 네 가지를 운영 표준에 박아두면 클라우드 대비 보안 우위가 비로소 현실이 됩니다.

🔗 References

본 글은 정보 제공 목적의 기술 칼럼이며, 특정 제품·서비스 구매를 권유하지 않습니다.

버전·요금·벤치마크 수치는 빠르게 변하므로 구매·도입 직전 공식 사이트에서 재확인하시기 바랍니다.

📄 Raw Data
# Apple Silicon 온디바이스 AI 생태계 — 2026년 5월 현시점 종합 평가

## 1. 질문의 맥락
news.hada.io의 해당 글이 지적한 두 가지 문제 — (a) 외부 API 무분별 호출이 야기하는 보안 노출, (b) Apple Silicon이 이미 보유한 ANE/MLX 추론 자원이 네트워크 응답 대기 중 유휴 상태로 방치되는 비효율 — 는 2024년부터 본격화된 "로컬 AI 회귀" 흐름의 핵심 동기입니다. 본 보고서는 Mac/iPad/iPhone 환경에서 **로컬에 모델을 적재해 추론**할 수 있는 도구·모델을 인기도 순으로 1~5위까지 추려, 각 항목의 성능·최신 버전·요구 사양·클라우드 대비 벤치마크·요금제까지 정리합니다.

## 2. 기초 정보 — Apple Silicon이 로컬 AI에 강한 이유
- **통합 메모리 아키텍처(UMA):** CPU/GPU/Neural Engine이 동일 메모리 풀을 공유하므로 시스템 RAM 전체가 모델 가중치 적재용으로 활용됩니다. 외장 GPU 시장이 VRAM 24~48GB에 묶여 있는 동안, M3/M4 Max·Ultra는 64GB~192GB 단일 메모리 풀로 70B 모델까지 단일 노드 추론이 가능합니다(Apple ML Research, MLX Guide).
- **MLX 프레임워크:** Apple ML 연구팀이 2023년 말 공개, 2026년에는 MoE 모델용 커널 최적화가 추가되어 llama.cpp 대비 토큰 생성 속도에서 20~40% 우위, 일부 MoE 워크로드에서는 최대 3배 우위가 보고됨(Hugging Face Blog, 2026-02 / Medium 후속).
- **2026년 M5 도입 효과:** 새 Neural Accelerator가 프롬프트 프리필 속도를 M4 대비 약 4배 끌어올림(Hugging Face Blog, 2026-02 업데이트).

## 3. 현시점 인기 Top 5 로컬 AI 툴·모델

> 인기도는 GitHub Star, Reddit r/LocalLLaMA 멘션 빈도, Hugging Face 다운로드 누계, Mac App Store 노출도를 종합한 정성적 순위입니다.

### 1위 · LM Studio — GUI 범용성 최강자
- **포지셔닝:** Hugging Face 모델 검색·다운로드·실행을 하나의 데스크톱 GUI에서 처리. 비개발자 진입 장벽을 가장 낮춤.
- **최신 버전:** v0.4.x 계열 (2026 상반기 공식 사이트 기준).
- **성능:** M3 Max에서 Llama 3.1 8B 구동 시 보고치가 자료마다 크게 다릅니다 — Round 1 자료는 30~50 t/s, Round 2 Terminal Bytes(2026-04) 측정은 동급 7B에서 ~100 t/s. 후자가 더 최신 4-bit 양자화 + MLX 백엔드 도입 후의 수치로 보이며, 전자는 구버전 GGUF Q4_K_M 추정.
- **사양:** 최소 M1 / RAM 8GB, 권장 M3·M4 Pro / RAM 32GB+.
- **요금:** 개인·상업 이용 무료. 다만 Round 2(Security Week, 2026-05)는 **기업 사용 시 별도 유료 라이선스**가 필요함을 명시.
- **리스크:** Electron 기반으로 약 300MB+ RAM 상주, 헤드리스 모드 없음, 텔레메트리 기본 ON — 사내 표준화 시 수동 차단 필요.

### 2위 · Ollama — 개발자 워크플로우 표준
- **포지셔닝:** CLI + 로컬 HTTP API. VSCode·n8n·LangChain 등과의 연동성으로 사실상 로컬 추론 백엔드 표준이 됨.
- **최신 버전 — 모순 주의:** Round 1 자료는 "v0.6.x", Round 2(Hugging Face Blog 2026-02)는 "v0.19+ (MLX 백엔드 도입)"으로 표기됨. Ollama는 0.x 단일 메이저 라인으로만 버전을 운영하므로 **v0.19.x가 사실 관계상 정합적**이며, Round 1의 "0.6.x"는 표기 오류일 가능성이 큼.
- **성능:** CLI 오버헤드가 거의 없어 동일 모델 기준 LM Studio보다 안정적 t/s 보고. M4 Max + 7B + 4-bit에서 ~135 t/s, M4 Ultra에서 ~150+ t/s(Terminal Bytes 2026-04).
- **사양:** 최소 M1 / 8GB, 권장 M2 Ultra·M4 Max / 64GB+.
- **요금:** 로컬 엔진 무료. Ollama Cloud Pro 월 $20 옵션 별도(공식 블로그).
- **보안 리스크 (Critical):**
  - **CVE-2026-7482 "Bleeding Llama":** 악의적 GGUF로 힙 오버플로우 → 시스템 프롬프트·API 키 유출 가능(CSO/Security Week, 2026-05-02). 반드시 최신 패치 버전 사용.
  - 잘못된 외부 노출 설정으로 약 30만 대의 Ollama 인스턴스가 인증 없이 공용 인터넷에 노출됐다는 감사 결과 동일 출처.

### 3위 · GPT4All — 사내 문서 RAG 특화
- **포지셔닝:** "LocalDocs" 기능으로 PDF·TXT를 임베딩해 완전 오프라인 RAG. 보안 부서가 가장 선호하는 옵션 중 하나.
- **최신 버전:** v3.5.x 계열.
- **성능:** 7B~8B 모델을 8~16GB RAM 환경에 맞춰 양자화 프리셋이 잘 정돈돼 있음. 절대 t/s는 LM Studio/Ollama보다 낮으나 적은 RAM에서의 안정성이 강점.
- **사양:** 최소 M1 / 8GB, 권장 M1·M2·M3 / 16GB.
- **요금:** 완전 무료, MIT 계열 오픈소스.

### 4위 · Jan — 오픈소스 ChatGPT 클론
- **포지셔닝:** ChatGPT UX를 그대로 가져오되, 로컬 모델과 OpenAI/Anthropic API를 한 인터페이스에서 혼용. 사용자 데이터는 기본 로컬 저장.
- **최신 버전:** v0.6.x.
- **성능:** Metal 가속 정식 지원, 채팅 히스토리 로컬 SQLite 저장.
- **사양:** 최소 M1 / 8GB, 권장 M3 Max / 36GB+.
- **요금 — 검증 필요:** Round 1은 "오프라인 음성 인식 확장 모듈 일시불 약 $24"를 언급하지만 **공식 문서에서 동일 항목을 확인하지 못했음**. 현시점 본체는 무료, 유료 확장 존재 여부는 사용자가 구입 직전 공식 사이트에서 재확인 권장.

### 5위 · MLX / MLX-LM 직접 사용 (고급 사용자)
- **포지셔닝:** Apple 공식 프레임워크에 직접 Python으로 접근. GUI 없음. 대신 같은 모델·같은 하드웨어에서 가장 빠른 추론을 뽑을 수 있는 경로.
- **최신 버전:** MLX v0.22.x 계열 기반의 MLX-LM, MLX-VLM 등.
- **성능:** 70B 4-bit를 M3 Ultra/M4 Ultra에서 단일 노드 추론. Speculative Decoding을 결합하면 M4 Max + 7B 기준 **200 t/s 돌파** 벤치마크가 Hugging Face 공식 블로그(2026-02)에 게재됨.
- **사양:** 최소 M1 Pro / 16GB, 권장 M3·M4 Ultra / 128GB+.
- **요금:** 무료, Apache-2.0 라이선스.

## 4. 칩셋별 토큰 생성 속도 표 (4-bit 양자화, Round 2 출처)

| 모델 규모 | M3 Max (≈400GB/s) | M4 Max (546GB/s) | M4 Ultra (800GB/s+) |
| :--- | :--- | :--- | :--- |
| 7B (Llama 3.1/4) | ~100 t/s | ~135 t/s | ~150+ t/s |
| 14B (Qwen 3 등) | ~48 t/s | ~65 t/s | ~100 t/s |
| 70B (Llama 3.3/4) | ~10–12 t/s | ~15–18 t/s | ~45–52 t/s |

출처: Terminal Bytes "Apple Silicon LLM Performance Guide", 2026-04-15.

## 5. 클라우드 LLM 대비 성능 지표

| 지표 | DeepSeek-R1 Distill 32B (로컬) | GPT-4o | Claude 3.5 Sonnet | Gemini 1.5 Pro |
| :--- | :--- | :--- | :--- | :--- |
| MMLU | 약 80~82% *(검증 필요)* | 88.7% | 88.7% | 85.9% |
| GSM8K | 94%+ *(검증 필요)* | 92.0% | 92.0% | 91.7% |
| HumanEval | 75~80% | 90.2% | 93.7% | 84.1% |
| 데이터 외부 송신 | 없음 | 있음 | 있음 | 있음 |
| 1M 토큰 비용 | $0 (전력 제외) | ~$5 | ~$9 | 변동 |

**주의 — 자료 간 충돌:** DeepSeek-R1 Distill 32B의 MMLU 80~82% 및 GSM8K 94% 수치는 Round 1 자료에 출처가 명시되어 있지 않으며, DeepSeek 공식 리포트와의 교차검증이 아직 끝나지 않았습니다. 의사결정에 사용하기 전 원본 페이퍼(DeepSeek-AI GitHub) 확인 권장.

## 6. 라운드 간 모순 정리

- **Ollama 버전 표기:** Round 1 "v0.6.x" vs Round 2 "v0.19+". 0.x 단일 라인 버전 정책상 v0.19.x가 정합적, Round 1은 표기 실수로 추정.
- **M3 Max 8B 속도:** Round 1 30~50 t/s vs Round 2 7B 기준 ~100 t/s. 모델 크기(8B vs 7B), 양자화(예: Q4_K_M vs Q4 MLX), 백엔드(llama.cpp vs MLX) 차이로 일부 설명 가능하나, **같은 4-bit 기준이라면 Round 2 측정이 더 최신**.
- **Jan 유료 음성 모듈 $24:** Round 1 단독 주장, 공식 문서 미확인.
- **DeepSeek-R1 MMLU/GSM8K 수치:** Round 1 인용, 원 출처 부재. 별도 검증 전까지 "참고 수치"로만 사용.

## 7. 보안·운영상의 강조점

- 외부 API 호출을 줄이면 보안 노출 면적이 작아진다는 원래 기사 주장은 타당하나, **로컬 도구 자체에 새 공격 표면이 생긴다**는 점을 함께 봐야 합니다. Ollama Bleeding Llama 사례가 대표적이며, GGUF 파일을 비공식 업로더에서 받는 행위 자체가 신규 위협 벡터입니다(Security Week, 2026-05).
- LM Studio 텔레메트리, Ollama 외부 노출, Jan의 외부 API 혼용 — 모두 "로컬"이라는 이름표만 믿고 두면 무방비가 됩니다. 설치 직후 텔레메트리 OFF, 0.0.0.0 바인딩 차단, 모델 해시 검증을 운영 표준에 포함시키는 것이 적절합니다.

## 8. 결론 및 추천

- **개인 사용자 / 비개발자:** LM Studio 최신 버전 + Llama 3.1 8B 또는 Qwen 3 14B 4-bit. RAM 32GB부터 쾌적.
- **개발자 / API 자동화:** Ollama v0.19.x 이상으로 즉시 패치 적용, 외부 노출 금지, MLX 백엔드 활성화.
- **사내 문서 보안 우선:** GPT4All LocalDocs 또는 Jan(외부 API 키 미입력) 조합.
- **최대 성능 / 70B급:** M4 Ultra 128GB+ 환경에서 MLX-LM 직접 사용 + Speculative Decoding.
- **하드웨어 투자 원칙:** CPU 코어 수보다 **메모리 대역폭과 RAM 용량**이 토큰 생성 속도를 좌우합니다. 예산의 70% 이상을 RAM 업그레이드에 배분하는 것이 일관된 권고.

원 기사가 지적한 "ANE 유휴" 문제는 더 이상 가설이 아니라 측정 가능한 낭비입니다. 위 5개 도구 중 어느 것 하나만 도입해도, 일상적 코드 보조·문서 요약·RAG QA의 상당 부분을 외부 송신 없이 처리할 수 있는 시점에 이미 도달해 있습니다.

## 라운드 간 모순
- DeepSeek-R1 Distill 32B MMLU 80~82% 및 GSM8K 94% 수치가 1차 출처 없이 제시됨 — 원본 DeepSeek 공식 리포트와 교차검증 필요
- Jan v0.6.x 유료 음성 모듈 $24 일시불 항목은 공식 문서 확인 안 됨
- Ollama 최신 버전이 Round 1에서는 v0.6.x, Round 2에서는 v0.19+로 표기되어 버전 표기 체계 불일치
- Round 1의 M3 Max Llama 3.1 8B 속도(30~50 t/s)와 Round 2의 M3 Max 7B 속도(~100 t/s) 간 큰 격차 존재
---

## References

- [LM Studio 공식](https://lmstudio.ai)
- [Ollama 공식 블로그](https://ollama.com/blog)
- [Apple ML Research MLX Guide](https://ml-explore.github.io/mlx/build/html/index.html)
- [Hugging Face Blog - State of Local AI](https://huggingface.co/blog)
- [Security Week - Local AI Security Audit 2026-05](https://www.securityweek.com)
- [Terminal Bytes - Apple Silicon LLM Performance Guide 2026-04](https://terminalbytes.com)
- [DeepSeek-R1 GitHub](https://github.com/deepseek-ai/DeepSeek-R1)

댓글

이 블로그의 인기 게시물

Vim 9.2 릴리즈 총정리: 더 빠르고 강력해진 텍스트 편집의 제왕

폐쇄망 SoC 설계자를 위한 가볍고 빠른 Vim 최적화 가이드

에이전트 시대를 위한 터미널 cmux 가이드: 설치부터 AI 활용까지