Claude Code 토큰 비용, 세 도구로 얼마나 줄일까

- 6월 01, 2026

AI 토큰 비용, 줄일 곳은 따로 있다 — caveman·codesight·codeburn 해부

📅 2026년 6월 2일 · IT/개발 도구 분석

AI 코딩 도구의 청구서가 부담스러워지는 순간, 누구나 "토큰을 어떻게 줄이지"를 고민한다. 결론부터 말하면 비용의 75%는 입력·캐시에서 나오고 출력은 25%에 불과하다. 그래서 화제의 세 도구 caveman·codesight·codeburn은 각각 비용 구조의 전혀 다른 지점을 건드린다. 광고된 효과와 실측의 격차까지 따져 어디부터 손대야 진짜 절감이 되는지 정리했다.

왜 지금 토큰 비용이 화두인가

AI 코딩 도구의 과금은 본질적으로 컨텍스트 윈도우에 들어가는 토큰 수에 비례한다. 모델이 한 번 추론할 때 처리하는 입력 토큰, 캐시 토큰, 출력 토큰을 각각 단가로 곱해 청구하는 구조다. Claude Code 공식 문서 기준 기업 개발팀의 평균 비용은 개발자 1인당 활성 일 약 $13, 월 $150~250 수준이다. 6인 팀이 최적화 없이 한 달을 쓰면 $2,400대 청구서가 나왔다는 사례도 보고된다.

▶ 반드시 짚어야 할 비용 구조의 비대칭성: 독립 벤치마크 기준 출력 토큰은 전체 세션 비용의 약 25%에 불과하다. 나머지 75%는 입력과 캐시 몫이다. 이 사실이 뒤에서 세 도구를 평가하는 결정적 잣대가 된다 — 출력만 줄이는 도구는 구조적으로 절감 상한이 낮다.

세션 비용 구조 (독립 벤치마크 기준)

입력 + 캐시 토큰 약 75% — 절감 레버의 본체

출력 토큰 약 25% — 압축해도 상한이 낮음

통상적인 토큰 절약 — 큰 절감은 습관에서 나온다

도구 이야기에 앞서 분명히 해둘 것이 있다. 가장 효과 큰 레버는 입력·캐시 쪽 습관이다. Anthropic이 공식 권장하는 핵심 레버 9가지 중 절감폭이 큰 것들은 다음과 같다.

대표 레버별 보고된 절감폭

프롬프트 캐싱 (cache_control) 최대 90%

의미론적 프롬프트 (구조화 지시) 최대 74%

모델 계층 분리 (Opus/Sonnet/Haiku) 중앙값 68%

나머지 레버도 함께 보면, 비용의 어디를 줄이는지가 한눈에 들어온다.

레버	원리	효과
컨텍스트 능동 관리	작업 전환 시 /clear, /compact로 요약 압축	누적 토큰 재처리 제거
CLAUDE.md 슬림화	200줄 미만 유지, 나머지는 Skills로 분리	세션당 고정비 절감
Hooks 전처리	PreToolUse 훅으로 로그·검색 결과 선처리	수십만 → 수백 토큰
서브에이전트 위임	출력 방대한 작업 위임, 메인엔 요약만 회수	메인 컨텍스트 보존
시맨틱 캐싱 (Redis)	유사 쿼리 응답 재활용	고반복 워크로드 최대 73%

✓ 핵심 통찰: 가장 효과 큰 레버는 캐싱·모델 라우팅·CLAUDE.md 슬림화 같은 입력·캐시 쪽 습관이다. 출력 압축은 후순위다. 도구를 도입하기 전에 이 습관부터 점검해야 한다.

세 도구는 비용 구조의 어디를 때리나

caveman, codesight, codeburn은 경쟁 도구가 아니다. 서로 다른 층위를 메우는 보완재다. 각각을 목적·동작·실제 이득·설치 순으로 본다.

① Caveman — 출력 토큰을 깎는 "원시인 문법" 스킬

목적·동작 — Julius Brussee가 만든 Claude Code 스킬. AI가 응답할 때 관사·정중어·배경 설명을 빼고 "원시인 문법"으로 답하게 강제해 설명에 쓰이는 출력 토큰을 줄인다. 코드 자체는 손대지 않고 코드를 둘러싼 텍스트 래퍼만 압축한다.

일반: "I've updated the authentication middleware to validate the JWT token before processing the request…"
Caveman: "Fix auth. JWT validate before request. Works."

광고 vs 실측 — 절감률 격차가 핵심

GitHub 공식 주장

65%

독립 실측 (출력만)

30~50%

독립 실측 (전체 세션)

4~10%

독립 벤치마크의 더 뼈아픈 지적은, 단순히 프롬프트에 be brief 한 줄 넣은 것이 caveman과 토큰 수(401~449 vs 419)·품질(0.970~0.976 vs 0.985)에서 거의 동등했다는 점이다. thinking 토큰은 영향받지 않고, 스킬 자체가 입력 토큰으로 로드돼 순수 절감을 깎는다. 결론적으로 "출력 설명이 유난히 긴 반복 작업"에 한해 보조적으로 쓸 도구이지, 비용을 반토막 내는 도구가 아니다.

설치·사용 (Node.js ≥18)

# macOS / Linux / WSL

curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

# 활성화 / 명령

/caveman        # 기본 압축

/caveman ultra  # 최대 압축

normal mode    # 원래 모드 복귀

/caveman-stats  # 세션 절약액 조회

v1.8.2(2026-05-12), MIT 라이선스. 저장소 자체 표기 스타·버전은 설치 전 원 저장소에서 직접 확인 권장.

② Codesight — 프로젝트 "탐색 비용"을 통째로 없애는 컨텍스트 도구

목적·동작 — caveman과 정반대 갈래. AI가 매 대화마다 프로젝트 구조를 파악하느라 쓰는 수천~수만 입력 토큰을 타격한다. 코드베이스를 한 번 스캔해 구조화된 컨텍스트 맵을 만들고 세션 시작 시 즉시 주입한다. 15개 감지기 + 11개 AST 추출기(TS·Python·Go·Rust·PHP·C#·Swift·Kotlin 등)로 구성.

실제 프로젝트 절감 배율 (벤더 벤치마크)

SaaS C

131.8배

SaaS A

83.7배

SaaS B

59.4배

예: SaaS C는 수동 탐색 47,450 토큰 → Codesight 후 4,162 토큰. "수동 탐색"은 AI가 파일을 하나씩 읽어 구조를 파악하는 기존 방식이다.

처음 접하는 대형 코드베이스일수록 이득이 크고, 이미 잘 아는 소규모 프로젝트에서는 차이가 줄어든다. 결정적으로 이 도구는 비용의 75%를 차지하는 입력 토큰 쪽을 타격한다는 점에서 caveman과 층위가 다르다.

설치·사용 (MCP 연동)

npx codesight        # 설치 없이 컨텍스트 맵 생성

npx codesight --init # CLAUDE.md 등 자동 생성

# settings.json (MCP 서버 등록)

"mcpServers": { "codesight":

  { "command": "npx", "args": ["codesight", "--mcp"] } }

등록 후 codesight_scan, codesight_get_routes 등 13개 도구를 직접 호출. v1.9.3, 의존성 없음, MIT 라이선스.

③ Codeburn — 토큰이 "어디로 새는지" 보여주는 가시성 도구

🧠 목적·동작 — 절감 도구가 아니라 측정 도구다. "어디에 쓰는지 모르면 무엇을 줄일지 알 수 없다"가 전제. Claude Code·Codex·Cursor·OpenCode 세션 transcript를 로컬에서 직접 읽어 인터랙티브 TUI 대시보드로 시각화한다. 서버·프록시·API 키 없음. 13개 작업 유형으로 분류해 모델·도구·프로젝트·날짜별 비용을 추적한다.

직접적 토큰 절감은 없다. 대신 "어느 작업 유형에 비용이 집중되는지", "캐시 히트율은 얼마인지", "one-shot 성공률은 어떤지"를 데이터로 드러내 최적화 의사결정의 출발점을 제공한다. codeburn optimize는 11가지 낭비 패턴을 스캔해 수정 제안과 예상 절감액을 함께 제시한다. 즉, 위 9가지 레버 중 무엇부터 손댈지를 정해주는 도구다.

설치·사용

npm install -g codeburn  # 또는 brew install codeburn

codeburn            # 지난 7일

codeburn today     # 오늘

codeburn optimize  # 낭비 패턴 스캔 + 제안

TUI 단축키: 좌우(기간 전환), c(모델 비교), o(최적화 뷰), q(종료). v0.9.11(2026-05-27), MIT 라이선스.

한눈에 보는 포지셔닝

항목	Caveman	Codesight	Codeburn
타깃 토큰	출력 (~25%)	입력 탐색 (다수)	없음 (분석)
접근법	응답 스타일 압축	사전 컨텍스트 주입	가시성 확보
실제 절감	세션 4~10%	첫 탐색 83~131배	간접 (진단)
적합 상황	설명 불필요한 반복 코딩	처음 접하는 대형 코드베이스	최적화 시작점 진단

비용 구조상 가장 큰 덩어리(입력·캐시)를 타격하는 건 codesight, 어디를 칠지 알려주는 건 codeburn, 가장 작은 덩어리(출력)를 보조적으로 깎는 게 caveman이다.

합리적 도입 순서

세 도구를 다 깔 필요는 없다. 비용 구조를 따라 진단 → 가장 큰 갈래 먼저 → 작은 갈래는 보조 순으로 접근하는 것이 합리적이다.


flowchart TD
  A([토큰 비용 절감 시작]) --> B[codeburn
현황·낭비처 진단]
  B --> C{대형·생소
코드베이스?}
  C -->|YES| D[codesight
입력 비용 제거]
  C -->|NO| E[caveman
출력 보조 압축]
  D --> E
  style A fill:#3498db,stroke:#2980b9,color:#ffffff
  style B fill:#f4ecf7,stroke:#8e44ad
  style C fill:#fef9e7,stroke:#f39c12
  style D fill:#eafaf1,stroke:#27ae60,color:#1e8449
  style E fill:#fef9e7,stroke:#e67e22,color:#c0392b

🔁 다이어그램 요약: 먼저 codeburn으로 현재 토큰 소비·낭비처를 진단하고, 대형·생소한 코드베이스라면 효과가 가장 큰 codesight로 입력(탐색) 비용을 제거한 뒤, 출력 설명이 과한 반복 작업에 한해서만 caveman을 선택적으로 얹는다.

💡 검증이 필요한 영역(정직한 한계) — 본 분석의 스타 수·버전·벤치마크 배율은 상당수가 각 저장소의 자체 표기이거나 단일 출처 수치다. 특히 caveman의 절감률은 출처 간 명백히 충돌하며, codesight의 83~131배는 벤더 제공 벤치마크다.

도입 결정 전에는 자신의 실제 워크로드에서 codeburn으로 before/after를 직접 측정해 검증하기를 강력히 권한다.

결론 — 정답은 마법 도구가 아니라 구조적 접근

① 큰 절감은 도구가 아니라 습관에서 나온다. 프롬프트 캐싱(최대 90%)·모델 계층 분리(중앙값 68%)·CLAUDE.md 슬림화·/clear 같은 공식 레버가 효과의 본체다.

② caveman은 기대치를 낮춰 접근하라. 공식은 65%를 주장하지만 독립 벤치마크는 전체 세션 4~10%로 본다. be brief 한 줄로 거의 동등한 효과가 나온 실측이 있으니, 설치 전에 한 줄 지시부터 시험하는 게 합리적이다.

③ 측정 → 가장 큰 갈래(입력·캐시)부터 → 작은 갈래는 보조 도구로. 이 순서가 토큰 비용 문제의 구조적 정답이다.

요약하면, "비용이 화두"라는 말의 진짜 답은 어느 도구를 깔지가 아니라 내 세션의 토큰이 어디서 새는지 먼저 측정하는 것이다. 측정 없이 도구부터 깔면, 정작 비용의 75%를 차지하는 입력·캐시는 손대지 못한 채 가장 작은 25% 출력만 만지작거리게 된다.

참고 자료

▶ Claude Code 공식 비용 관리 문서
▶ caveman GitHub 저장소
▶ codesight GitHub 저장소
▶ codeburn GitHub 저장소
▶ Hacker News — caveman 독립 벤치마크 토론
▶ Redis — LLM 토큰 최적화
▶ Sitepoint — Claude API 토큰 최적화

본 글은 공개된 도구 저장소·공식 문서·독립 벤치마크를 종합해 정리한 정보 분석 자료입니다. 도구의 스타 수·버전·절감 배율은 각 출처 표기 시점 기준이며 변동될 수 있으니, 도입 전 실제 워크로드에서 직접 측정·검증하시기 바랍니다.

📄 Raw Data

조사 결과가 5차원 게이트를 모두 통과했고 라운드 간 모순도 없으므로, 누적 자료를 싱크탱크 수석 연구원 톤으로 종합해 최종 보고서를 작성합니다.

---

# AI API 토큰 비용 절감: 일반 방법론과 Claude Code 특화 도구(Caveman·Codesight·Codeburn) 종합 분석

## 1. 질문 파악

이 질문은 사실상 세 겹으로 되어 있다. 첫째, **AI API에서 토큰을 절약하는 통상적 방법·툴·노하우** 전반. 둘째, GitHub에서 회자되는 **caveman, codesight, codeburn 세 도구의 목적·동작·이득**. 셋째, **이 세 도구를 Claude Code 기준으로 설치하고 사용하는 구체적 절차**다.

질문 뒤에 깔린 의도는 분명하다 — "비용이 화두가 됐다"는 전제 자체가 *지금 쓰는 비용 중 어디가 낭비인지, 그것을 줄이는 레버가 무엇인지*를 알고 싶다는 신호다. 따라서 단순 도구 나열이 아니라, **각 도구가 토큰 비용 구조의 어느 부분을 타격하는지**, 그리고 **광고된 효과가 실제 효과와 얼마나 일치하는지**까지 검증해 전달하는 것이 핵심이다.

---

## 2. 기초 정보 — 왜 토큰 비용이 지금 화두인가

AI 코딩 도구의 과금은 본질적으로 **컨텍스트 윈도우에 들어가는 토큰 수에 비례**한다. 모델이 한 번 추론할 때 처리하는 입력 토큰, 캐시 토큰, 출력 토큰을 각각 단가로 곱해 청구하는 구조다.

[Claude Code 공식 비용 문서](https://code.claude.com/docs/en/costs)에 따르면, 기업 개발팀의 Claude Code 평균 비용은 **개발자 1인당 활성 일 약 $13, 월 $150~250** 수준이다. 6인 팀이 최적화 없이 한 달을 쓰면 $2,400대 청구서가 나왔다는 사례 보고도 있다. 비용 대부분이 컨텍스트 크기에 비례하므로, "토큰 절약 = 비용 절약"이 거의 등식으로 성립한다.

여기서 반드시 짚어야 할 **비용 구조의 비대칭성**이 있다. 한 세션의 토큰은 입력·캐시·출력으로 나뉘는데, 독립 벤치마크 기준 **출력 토큰은 Claude Code 전체 세션 비용의 약 25%에 불과**하다([Hacker News 벤치마크 토론](https://news.ycombinator.com/item?id=47954745)). 나머지 약 75%는 입력과 캐시가 차지한다. 이 사실은 뒤에서 도구를 평가할 때 결정적 잣대가 된다 — *출력만 줄이는 도구는 구조적으로 절감 상한이 낮다.*

토큰 절약은 크게 두 갈래로 나뉜다.
- **발생 자체를 줄이기**: 프롬프트 최적화, 컨텍스트 관리, 캐싱
- **낭비처를 찾아 없애기**: 토큰 소비를 측정·분석하는 가시성 도구

세 도구(caveman, codesight, codeburn)는 각각 이 갈래의 서로 다른 지점에 위치한다.

---

## 3. 현황 — 통상적인 토큰 절약 방법론

### 3.1 Anthropic 공식 권장 9가지 레버

| # | 레버 | 원리 | 보고된 절감 |
|---|------|------|------------|
| 1 | **프롬프트 캐싱** | `cache_control`로 고정 콘텐츠(시스템 프롬프트·배경지식·도구 정의)를 캐시 → 재호출 시 정가의 10% | 캐시 토큰 기준 **최대 90%** |
| 2 | **모델 계층 분리** | 복잡 추론만 Opus, 일반 코딩은 Sonnet, 단순 서브에이전트는 `model: haiku` | 중앙값 **68%** |
| 3 | **컨텍스트 능동 관리** | 작업 전환 시 `/clear`, `/compact <지시>`로 요약 압축 | 누적 토큰 재처리 제거 |
| 4 | **CLAUDE.md 슬림화** | 매 세션 자동 로드되므로 **200줄 미만** 유지, 나머지는 Skills로 분리 | 세션당 고정비 절감 |
| 5 | **MCP 오버헤드 감소** | 미사용 서버 `/mcp` 비활성화, CLI(`gh`·`aws`)가 MCP보다 가벼움 | 도구 정의 토큰 절감 |
| 6 | **Extended Thinking 조정** | `/effort low` 또는 `MAX_THINKING_TOKENS=8000`으로 추론 예산 제한 | 요청당 수만 토큰 절감 |
| 7 | **Hooks 전처리** | PreToolUse 훅으로 `grep ERROR \| head -100` 등 선처리 → Claude가 보는 양 축소 | 수십만 → 수백 토큰 |
| 8 | **서브에이전트 위임** | 출력이 방대한 작업(테스트·로그·문서)을 위임, 메인엔 요약만 회수 | 메인 컨텍스트 보존 |
| 9 | **구체적 프롬프트** | "코드베이스 개선" 대신 "auth.ts의 login에 입력 검증 추가" → 탐색 생략 | 불필요 파일 탐색 제거 |

### 3.2 범용 기법

| 기법 | 원리 | 절감 수준 |
|------|------|----------|
| 프롬프트 캐싱 | 반복 콘텐츠 재처리 생략 | 50~90% (캐시 토큰 기준) |
| 시맨틱 캐싱(Redis) | 유사 쿼리 응답 재활용 | 최대 73% (고반복 워크로드, [Redis](https://redis.io/blog/llm-token-optimization-speed-up-apps)) |
| 모델 라우팅 | 작업 복잡도별 최적 모델 배정 | 중앙값 68% |
| 시스템 프롬프트 감사 | 중복 35~45% 제거 | 약 40% 축소 |
| 의미론적 프롬프트 | 범용 → 구조화 지시 | 최대 74% ([Sitepoint](https://www.sitepoint.com/claude-api-token-optimization)) |

핵심 통찰: **가장 효과 큰 레버는 입력·캐시 쪽**(캐싱·모델 라우팅·CLAUDE.md 슬림화)이다. 출력 압축은 효과 갈래에서 후순위다.

---

## 4. 세 도구 분석 — 목적·동작·이득·설치·사용

### 4.1 Caveman — "원시인 문법"으로 출력 토큰을 깎는 스킬

**목적과 동작.** Julius Brussee가 만든 Claude Code 스킬이다. 아이디어는 단순하다 — AI가 응답할 때 관사·정중어·배경 설명을 빼고 "원시인 문법"으로 답하게 강제해 **설명에 쓰이는 출력 토큰**을 줄인다. 코드 자체는 손대지 않고, 코드를 둘러싼 텍스트 래퍼만 압축한다.

> 일반: *"I've updated the authentication middleware to validate the JWT token before processing the request..."*
> Caveman: *"Fix auth. JWT validate before request. Works."*

**이득 — 광고와 실측의 격차(중요).** 여기서 자료 간 주장이 엇갈린다.
- **GitHub 공식 벤치마크**는 출력 토큰 평균 **65% 절감**, 일부 작업 87%를 주장한다.
- 반면 **[Hacker News 독립 벤치마크](https://news.ycombinator.com/item?id=47954745)**는 이를 반박한다: 실제 출력 절감은 **30~50%**에 가깝고, 출력 토큰이 전체 세션 비용의 약 25%뿐이므로 **전체 세션 절감 효과는 4~10%**에 그친다. 더 뼈아픈 지적은, 단순히 프롬프트에 `be brief` 한 줄 넣은 것이 caveman과 토큰 수(401~449 vs 419)·품질(0.970~0.976 vs 0.985)에서 거의 동등했다는 것이다.

추가 한계: thinking/reasoning 토큰은 영향받지 않고, 스킬 자체가 입력 토큰으로 로드되어 순수 절감을 깎는다. **결론적으로 "출력 설명이 유난히 긴 반복 작업"에 한해 보조적으로 쓸 도구이지, 비용을 반토막 내는 도구가 아니다.**

**Claude Code 설치/사용.** (Node.js ≥18 필요)
```bash
# macOS / Linux / WSL
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash
# Windows PowerShell
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex
```
Claude Code 내 활성화·명령:
```
/caveman            # 기본 압축(full)
/caveman lite       # 약한 압축
/caveman ultra      # 최대 압축
normal mode         # 원래 모드 복귀
/caveman-commit     # 커밋 메시지(50자 이내)
/caveman-review     # 한 줄 PR 코멘트
/caveman-stats      # 세션 토큰 절약액 조회
/caveman-compress <file>   # 메모리 파일 압축(평균 46% 축소)
```
현재 상태: v1.8.2(2026-05-12), MIT 라이선스. *(GitHub 자체 표기 기준 6만+ 스타로 보고되나, 이런 스타 수치·버전은 저장소 자체 표기이므로 설치 전 [원 저장소](https://github.com/JuliusBrussee/caveman)에서 직접 확인을 권한다.)*

---

### 4.2 Codesight — 프로젝트 "탐색 비용" 자체를 없애는 컨텍스트 도구

**목적과 동작.** Caveman과 정반대 갈래다. AI가 매 대화마다 프로젝트 구조를 파악하느라 수천~수만 입력 토큰을 쓰는 문제를 타격한다. 코드베이스를 **한 번 스캔해 구조화된 컨텍스트 맵**을 만들고, 세션 시작 시 즉시 주입한다. 15개 감지기(라우트·스키마·컴포넌트·미들웨어·GraphQL·OpenAPI·이벤트·의존성 등)와 11개 AST 추출기(TypeScript·Python·Go·Rust·PHP·C#·Swift·Kotlin 등)로 구성된다.

**이득.** GitHub 원문이 제시하는 실제 프로젝트 벤치마크:

| 프로젝트 | 수동 탐색 토큰 | Codesight 후 | 절감 배율 |
|---------|-------------|------------|---------|
| SaaS A | 46,020 | 3,936 | **83.7배** |
| SaaS B | 26,130 | 3,629 | **59.4배** |
| SaaS C | 47,450 | 4,162 | **131.8배** |

"수동 탐색"은 AI가 파일을 하나씩 읽어 구조를 파악하는 기존 방식이다. **처음 접하는 대형 코드베이스일수록 이득이 크고**, 이미 잘 아는 소규모 프로젝트에서는 차이가 줄어든다. 이 도구가 타격하는 건 비용의 75%를 차지하는 **입력 토큰** 쪽이라는 점이 caveman과의 결정적 차이다.

**Claude Code 설치/사용.**
```bash
npx codesight              # 설치 없이 컨텍스트 맵 생성
npm install -g codesight   # 글로벌 설치
npx codesight --init       # CLAUDE.md 등 AI 설정 파일 자동 생성
```
MCP 서버로 연동 — `settings.json`:
```json
{
  "mcpServers": {
    "codesight": { "command": "npx", "args": ["codesight", "--mcp"] }
  }
}
```
등록하면 `codesight_scan`, `codesight_get_routes`, `codesight_get_schema` 등 13개 도구를 Claude Code에서 직접 호출할 수 있다. 파일 변경 시 자동 재스캔은 `npx codesight --hook`. 현재 상태: v1.9.3, 의존성 없음, MIT 라이선스([저장소](https://github.com/Houseofmvps/codesight)).

---

### 4.3 Codeburn — 토큰이 "어디로 새는지" 보여주는 가시성 도구

**목적과 동작.** 절감 도구가 아니라 **측정 도구**다. 전제는 "어디에 쓰는지 모르면 무엇을 줄일지 알 수 없다"이다. Claude Code·Codex·Cursor·OpenCode 등의 세션 transcript를 **로컬에서 직접 읽어** 인터랙티브 TUI 대시보드로 시각화한다. 서버·프록시·API 키 없음. 13개 작업 유형(코딩·디버깅·기능개발·테스트 등)으로 분류하고 모델·도구·프로젝트·날짜별 비용을 추적한다. `codeburn optimize`는 11가지 낭비 패턴을 스캔해 수정 제안과 예상 절감액을 함께 제시한다.

**이득.** 직접적 토큰 절감은 **없다**. 대신 "어느 작업 유형에 비용이 집중되는지", "캐시 히트율은 얼마인지", "one-shot 성공률은 어떤지"를 데이터로 드러내 **최적화 의사결정의 출발점**을 제공한다. 즉, 위 9가지 레버 중 *무엇부터 손댈지*를 정해주는 도구다.

**Claude Code 설치/사용.**
```bash
npm install -g codeburn    # npm 글로벌
brew install codeburn      # Homebrew
npx codeburn               # 설치 없이 실행
```
사용:
```bash
codeburn            # 기본(지난 7일)
codeburn today      # 오늘
codeburn month      # 이번 달
codeburn optimize   # 낭비 패턴 스캔 + 수정 제안
```
TUI 단축키: 좌우 화살표(기간 전환), `c`(모델 비교), `o`(최적화 뷰), `q`(종료). 현재 상태: v0.9.11(2026-05-27), MIT 라이선스([저장소](https://github.com/getagentseal/codeburn)).

---

## 5. 원인·포지셔닝 분석 — 세 도구가 비용 구조의 어디를 타격하나

| | Caveman | Codesight | Codeburn |
|--|---------|-----------|---------|
| **타깃 토큰** | 출력 텍스트(전체의 ~25%) | 입력 탐색(전체의 다수) | 없음(분석) |
| **접근법** | 응답 스타일 압축 | 사전 컨텍스트 주입 | 가시성 확보 |
| **실제 절감** | 전체 세션 4~10% | 첫 탐색 83~131배 | 직접 없음(간접) |
| **적합 상황** | 설명 불필요한 반복 코딩 | 처음 접하는 대형 코드베이스 | 최적화 시작점 진단 |

세 도구는 경쟁 관계가 아니라 **서로 다른 층위를 메우는 보완재**다. 비용 구조상 가장 큰 덩어리(입력·캐시)를 타격하는 건 codesight, 어디를 칠지 알려주는 건 codeburn, 가장 작은 덩어리(출력)를 보조적으로 깎는 게 caveman이다.

---

## 6. 결론 및 시사점

**1) 큰 절감은 도구가 아니라 습관에서 나온다.** 프롬프트 캐싱(최대 90%)·모델 계층 분리(중앙값 68%)·CLAUDE.md 슬림화·`/clear` 같은 공식 레버가 효과의 본체다. 도구 도입 전에 이것부터 점검해야 한다.

**2) caveman은 기대치를 낮춰 접근하라.** GitHub 공식은 65% 절감을 주장하지만 독립 벤치마크는 전체 세션 4~10%에 불과하다고 본다. 더구나 프롬프트에 `be brief` 한 줄로 거의 동등한 효과가 나왔다는 실측이 있으므로, **설치 전에 한 줄 지시부터 시험**해보는 것이 합리적이다.

**3) 합리적 도입 순서:**
1. **codeburn**으로 현재 토큰 소비 패턴·낭비처를 먼저 진단한다.
2. 대형·생소한 코드베이스라면 **codesight**로 탐색(입력) 비용을 제거한다. ← 효과 가장 큰 갈래
3. 출력 설명이 과한 반복 작업에 한해 **caveman**을 선택적으로 얹는다.

**4) 검증이 필요한 영역(정직한 한계).** 본 보고서의 스타 수·버전·벤치마크 배율은 상당수가 각 GitHub 저장소의 **자체 표기**이거나 단일 출처 수치다. 특히 caveman의 절감률은 출처 간 명백히 충돌하며, codesight의 83~131배는 벤더 제공 벤치마크다. 도입 결정 전에는 자신의 실제 워크로드에서 codeburn으로 **before/after를 직접 측정**해 검증하기를 강력히 권한다.

요약하면, 토큰 비용 문제의 정답은 "마법 도구"가 아니라 **측정 → 가장 큰 갈래(입력·캐시)부터 최적화 → 작은 갈래는 보조 도구로** 라는 구조적 접근이다.
---

## References

- [Claude Code 공식 비용 관리 문서](https://code.claude.com/docs/en/costs)
- [caveman GitHub](https://github.com/JuliusBrussee/caveman)
- [codesight GitHub](https://github.com/Houseofmvps/codesight)
- [codeburn GitHub](https://github.com/getagentseal/codeburn)
- [Hacker News caveman 벤치마크 토론](https://news.ycombinator.com/item?id=47954745)
- [Redis LLM 토큰 최적화](https://redis.io/blog/llm-token-optimization-speed-up-apps)
- [Sitepoint Claude API 최적화](https://www.sitepoint.com/claude-api-token-optimization)

이 블로그 검색

Brave Ogu

구글 안티그래비티 완전 분석 — 모델·요금제·CLI 총정리