반응형
클로드 코드 토큰 경제학 시리즈 6편: 5k/20k/100k 입력 시나리오 - 현실적인 비용 예측하기
💡 시리즈 소개: 이 시리즈는 Claude Code 사용자를 위한 토큰 경제학 가이드입니다. 이번 편에서는 실제 입력 규모별 토큰 총량과 비용을 계산하는 방법을 제시합니다.
"Raw 입력"과 "실효 입력"의 차이
내가 가진 텍스트가 100K 토큰이라고 해서, 실제 컨텍스트가 100K인 것은 아닙니다.
실효 입력 = Raw 입력 + 오버헤드오버헤드의 구성요소
| 항목 | 설명 | 예시 값 |
|---|---|---|
| S (시스템 프롬프트) | Claude Code 세션 고정비 | ~3,900 tokens |
| M_file (파일 포맷팅) | 라인 번호 등 오버헤드 | ×1.7 배 |
| H_mcp (MCP 도구 스키마) | 도구 정의 고정비 | ~31,700 tokens |
현실적인 계산 전제
근거 있는 수치들
| 항목 | 값 | 출처 |
|---|---|---|
| 시스템 프롬프트 | 3,900 tokens | Claude Code 세션 관찰 |
| 파일 포맷팅 배수 | 1.7배 | GitHub Issue #20223 |
| MCP 스키마 오버헤드 | 31,700 tokens | MCP 오버헤드 관찰 사례 |
| 출력 비율 | 입력의 20% | 작업유형별 평균 |
| 토큰 환산 | 1 token ≈ 3.5 영어 문자 | Anthropic Glossary |
5k/20k/100k 입력 예산표
Case 별 정의
| Case | 설명 | 계산식 |
|---|---|---|
| Case A | 대화형 (시스템만) | input + S + output |
| Case B | 파일 중심 (×1.7) | (input × 1.7) + S + output |
| Case C | 파일×1.7 + MCP | (input × 1.7) + S + H_mcp + output |
토큰 총량 계산표
| 시나리오 | Raw 입력 | 출력 (20%) | Case A | Case B | Case C |
|---|---|---|---|---|---|
| 5K | 5,000 | 1,000 | 9,900 | 13,400 | 45,100 |
| 20K | 20,000 | 4,000 | 27,900 | 41,900 | 73,600 |
| 100K | 100,000 | 20,000 | 123,900 | 193,900 | 225,600 |
계산 상세 (100K 입력 예시)
Case A: 대화형 (시스템만)
입력: 100,000
시스템: 3,900
출력: 20,000
───────────────
총계: 123,900 tokens
✅ 200K 이하 → 기본 요율 적용Case B: 파일 중심 (×1.7)
입력: 100,000 × 1.7 = 170,000
시스템: 3,900
출력: 20,000
───────────────
총계: 193,900 tokens
⚠️ 200K에 근접 → 여유 없음Case C: 파일×1.7 + MCP
입력: 100,000 × 1.7 = 170,000
시스템: 3,900
MCP: 31,700
출력: 20,000
───────────────
총계: 225,600 tokens
❌ 200K 초과 → 프리미엄 요율!핵심 인사이트
"100K raw 입력은 안전하지 않다"
- 파일 워크플로에서는 170K급으로 부풀 수 있음
- MCP 오버헤드까지 붙으면 200K를 초과
- 프리미엄 요율 진입 → 비용 급등
모델별 비용 감각 (Case A 기준)
5K 입력 시나리오
| 모델 | 입력 비용 | 출력 비용 | 총 비용 |
|---|---|---|---|
| Haiku | $0.009 | $0.005 | ~$0.014 |
| Sonnet | $0.027 | $0.015 | ~$0.042 |
| Opus | $0.045 | $0.025 | ~$0.070 |
20K 입력 시나리오
| 모델 | 입력 비용 | 출력 비용 | 총 비용 |
|---|---|---|---|
| Haiku | $0.028 | $0.020 | ~$0.048 |
| Sonnet | $0.084 | $0.060 | ~$0.144 |
| Opus | $0.140 | $0.100 | ~$0.240 |
100K 입력 시나리오 (Case A)
| 모델 | 입력 비용 | 출력 비용 | 총 비용 |
|---|---|---|---|
| Haiku | $0.124 | $0.100 | ~$0.224 |
| Sonnet | $0.372 | $0.300 | ~$0.672 |
| Opus | $0.620 | $0.500 | ~$1.120 |
200K 경계 초과 시 비용 변화
Sonnet 모델 (100K 입력, Case C)
200K 이하였다면:
입력: 225,600 × $3/M = $0.677
출력: 20,000 × $15/M = $0.300
총: $0.977200K 초과로 프리미엄 적용 시:
입력: 225,600 × $6/M = $1.354
출력: 20,000 × $22.5/M = $0.450
총: $1.804
비용 증가: ~85%!
실제 운영을 위한 점검 체크리스트
사전 점검 (Token Count API 활용)
# 요청 전 토큰 수 확인
response = client.messages.count_tokens(
model="claude-sonnet-4-20250514",
system="...",
messages=[...],
tools=[...] # MCP 도구 포함
)
total = response.input_tokens
if total > 180000: # 200K의 90%
print("⚠️ 200K 경계 근접!")
사후 모니터링 (usage 합산)
# 기본 집계
total = usage.input_tokens + usage.output_tokens
# 확장 집계 (권장)
total = (
usage.input_tokens +
usage.output_tokens +
getattr(usage, 'cache_creation_input_tokens', 0) +
getattr(usage, 'cache_read_input_tokens', 0)
)
시나리오별 운영 전략
5K 입력 (안전 영역)
전략: 기본 워크플로 사용 가능
주의: 특별한 제약 없음
모델: Haiku로 시작, 필요시 업그레이드20K 입력 (주의 영역)
전략:
- 파일은 필요한 부분만 발췌
- 로그는 핵심만 포함
- MCP 도구 수 제한
모니터링: 반복 시 누적 토큰 확인
모델: Sonnet 권장100K 입력 (위험 영역)
전략:
- 파일 포맷팅 오버헤드 최소화
- MCP 도구는 지연 로딩 (Tool Search)
- diff/patch 중심 워크플로 필수
- Prompt caching 적극 활용
필수: count_tokens로 사전 검증
모니터링: 200K 경계 실시간 추적
모델: Opus (필요시), 비용 최적화 필수오버헤드를 줄이는 우선순위
| 순위 | 항목 | 절감 효과 |
|---|---|---|
| 1 | MCP 도구 최적화 (Tool Search) | 55K → 8.7K (85% 절감) |
| 2 | 파일 발췌 (전체 → 필요 부분) | 파일 크기 비례 |
| 3 | diff 사용 (전체 파일 → 변경분) | 10배+ 절감 |
| 4 | 로그 필터링 (전체 → 핵심만) | 로그 크기 비례 |
| 5 | Prompt caching | 반복 시 90% 절감 |
비용 관리의 핵심
┌────────────────────────────────────────────┐
│ 비용 관리 3대 원칙 │
├────────────────────────────────────────────┤
│ │
│ 1. 모델 단가 비교만으로는 부족 │
│ → 오버헤드가 실제 비용을 결정 │
│ │
│ 2. 200K 경계가 가장 큰 레버 │
│ → 경계 통제가 모델 선택보다 중요 │
│ │
│ 3. 추정이 아닌 실측이 필수 │
│ → count_tokens + usage 합산 │
│ │
└────────────────────────────────────────────┘핵심 정리
| 입력 | Case A | Case B (파일) | Case C (파일+MCP) |
|---|---|---|---|
| 5K | 9.9K | 13.4K | 45.1K |
| 20K | 27.9K | 41.9K | 73.6K |
| 100K | 123.9K | 193.9K | 225.6K (⚠️ 200K 초과) |
기억할 공식
실효 토큰 = (Raw 입력 × 1.7) + 시스템 3.9K + MCP 31.7K + 출력 20%다음 편 예고
7편: 토큰 최적화 실전 가이드 - Tool Search, 캐시, 컴팩션
토큰을 구조적으로 줄이는 핵심 기술들의 작동 원리와 활용법을 알아봅니다.
참고 자료
Anthropic 공식 문서
- Anthropic Glossary - 토큰 환산 (1 token ≈ 3.5 chars)
- Token Count API - 사전 토큰 계산
- Context Windows - 컨텍스트 윈도우 한도
- Anthropic Pricing - 200K 초과 프리미엄 요율
오버헤드 측정 사례
- Claude Code Hidden MCP Flag - 시스템 프롬프트 3.9K, MCP 31.7K 측정
- GitHub Issue #20223 - 파일 포맷팅 1.7배 오버헤드
📚 클로드 코드 토큰 경제학 시리즈 | 2026년 2월
반응형
'AI' 카테고리의 다른 글
| 클로드 코드 토큰 경제학 시리즈 8편: 운영과 모니터링 - usage 데이터 제대로 활용하기 (0) | 2026.02.12 |
|---|---|
| 클로드 코드 토큰 경제학 시리즈 7편: 토큰 최적화 실전 가이드 - Tool Search, 캐시, 컴팩션 (0) | 2026.02.12 |
| 클로드 코드 토큰 경제학 시리즈 5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀 (0) | 2026.02.12 |
| 클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석 (0) | 2026.02.12 |
| 클로드 코드 토큰 경제학 시리즈 3편: Claude Code의 토큰 비용 구조 - 숨겨진 비용의 정체 (0) | 2026.02.12 |
