클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석
💡 시리즈 소개: 이 시리즈는 Claude Code 사용자를 위한 토큰 경제학 가이드입니다. 이번 편에서는 텍스트 기반 작업(Q&A, 문서 요약)의 토큰 소모 패턴을 분석합니다.
같은 모델, 다른 비용
동일한 모델을 사용해도 작업 유형에 따라 토큰 소모 패턴이 완전히 달라집니다.
| 작업 유형 | 토큰 결정 요인 | 최적화 핵심 |
|---|---|---|
| 짧은 Q&A | 입력 크기에 선형 비례 | 입력 발췌 |
| 긴 문서 요약 | 중간 산출물로 비선형 증가 | 워크플로 설계 |
| 코드 작업 | 반복 루프로 기하급수적 | 다음 편에서 다룸 |
작업유형 ①: 짧은 Q&A/요약 (텍스트만)
토큰 사용량 결정 요인 (영향도 순)
1. 입력 길이 (최대 영향)
20,000 토큰 입력 → 그대로 20,000 토큰 과금입력을 "전부 제공" vs "중요 부분만 발췌"에 따라 토큰과 비용이 크게 달라집니다.
2. 출력 길이
- 짧은 Q&A 출력: 50~300 토큰
- 요약 출력: 100~800 토큰
같은 입력이라도 "더 자세히 쓰는 스타일"은 출력 토큰이 늘어납니다.
출력 단가가 더 비싸기 때문에 출력 제어가 중요합니다.
3. 대화 턴 수
여러 턴을 주고받으면 과거 메시지가 누적됩니다.
턴 1: 입력 5K + 출력 300
턴 2: 입력 5K + 이전 턴 5.3K + 출력 300
턴 3: 입력 5K + 이전 턴 10.6K + 출력 300"짧게/다시/더 자세히" 같은 반복 정제 루프가 많으면 비용이 급증합니다.
4. 시스템 프롬프트 길이
시스템 프롬프트는 매 호출마다 포함됩니다.
- 권장: 20~200 토큰 수준의 간단한 지침
오버헤드 근사치
| 항목 | 토큰 범위 |
|---|---|
| 시스템 프롬프트 | 20~300 |
| 메시지 경계 | 1~10/메시지 |
| 응답 시작/종료 | 1~5 |
짧은 Q&A 시나리오 계산
시나리오 정의
| 시나리오 | 출력 | 오버헤드 |
|---|---|---|
| A: Q&A 1턴 | 50~150 | 33~90 |
| B: 짧은 요약 | 150~400 | 53~160 |
| C: 2턴 정제 | 100~320 | 36~145 |
입력별 총 토큰 (입력 + 출력 + 오버헤드)
| 입력 토큰 | 시나리오 A | 시나리오 B | 시나리오 C |
|---|---|---|---|
| 5,000 | 5,083~5,240 | 5,203~5,560 | 5,136~5,465 |
| 20,000 | 20,083~20,240 | 20,203~20,560 | 20,136~20,465 |
| 100,000 | 100,083~100,240 | 100,203~100,560 | 100,136~100,465 |
핵심 인사이트
"짧은 Q&A/요약"은 대부분 입력이 총량의 절대다수입니다.
출력·오버헤드는 수백 토큰 수준으로 상대적으로 작습니다.
최적화 1순위: 모델 교체보다 불필요한 입력 제거(발췌)가 더 효과적입니다.
작업유형 ②: 긴 문서 요약/리서치
토큰이 "원문 이상"으로 늘어나는 4대 메커니즘
1. 원문 자체 증가 (선형)
입력이 5K → 20K → 100K로 커지면 입력 비용도 선형 증가합니다.
2. Map-Reduce로 인한 중간 산출물 (비선형!)
컨텍스트 한계 때문에 청크 요약 → 통합(map-reduce)을 사용하면:
┌────────────────────────────────────────────┐
│ Map-Reduce 토큰 흐름 │
├────────────────────────────────────────────┤
│ │
│ 원문 20K │
│ ↓ │
│ 청크 분할 (4K × 5개) │
│ ↓ │
│ 각 청크 요약 (입력 4K + 출력 500) × 5 │
│ ↓ │
│ 중간 요약들 (2,500 토큰) │
│ ↓ │
│ 최종 통합 (입력 2,500 + 출력 1,200) │
│ │
│ ─────────────────────────────────────── │
│ 총 토큰: 27,600 (원문 대비 1.38배) │
└────────────────────────────────────────────┘중간 요약 출력이 다시 입력으로 들어가 "재입력 과금"이 발생합니다.
3. 인용/근거 첨부 (입출력 동시 증폭)
| 인용 방식 | 토큰 영향 |
|---|---|
| 단순 식별자 [1] | 미미 |
| 원문 발췌 + URL | 상당 |
| 발췌 + 메타데이터 | 대폭 증가 |
RAG 파이프라인에서 검색 패시지를 많이 붙일수록:
- 출처 10개 × 패시지 500
800 토큰 = **5K8K 토큰 추가**
모델이 각 주장마다 근거 텍스트를 출력하면 출력 토큰도 폭증합니다.
4. 도구/에이전트 컨텍스트 복제
서브에이전트 사용 시 컨텍스트가 분리되어 곱셈적 증가 (~7배)
긴 문서 요약 시나리오별 계산
시나리오 A: 5,000 토큰 (작은 장문)
권장 전략: 단일 패스 요약
입력: 5,000 + 프롬프트 300 = 5,300
출력: 800
────────────────────────
총계: 6,100 tokens
비용 (Sonnet): ~$0.028
비용 (Opus): ~$0.047시나리오 B: 20,000 토큰 (중간 규모 문서)
권장 전략: Map-Reduce
원문: 20,000
청크 5개 × 4,000
맵 프롬프트 오버헤드: 200 × 5 = 1,000
청크 요약 출력: 500 × 5 = 2,500
리듀스 입력: 2,500 + 400 = 2,900
최종 출력: 1,200
────────────────────────────────────
입력 청구: ~23,900
출력: ~3,700
총계: ~27,600 tokens
비용 (Sonnet): ~$0.13
비용 (Opus): ~$0.21
💡 시사점: Map-reduce는 총 토큰이 원문 대비 1.3~1.6배 증가합니다.
시나리오 C: 100,000 토큰 (대규모 문서 집합)
권장 전략: 계층적 요약 (2단계)
1차: 10K 청크 × 10개 → 각 요약 1,000 → 1차 출력 10,000
2차: 1차 요약 3묶음 → 각 800 → 2차 출력 2,400
최종: 입력 3,000 + 출력 2,500
프롬프트 오버헤드: ~3,000
──────────────────────────────────────────────
입력성 토큰: ~106,000
출력: ~14,900
총계: ~120,900 tokens
비용 (Sonnet): ~$0.54
비용 (Opus): ~$0.90입출력 비중 가이드
| 작업 유형 | 출력/입력 비율 |
|---|---|
| 간단 Q&A | 0.1~0.3 |
| 문서 요약 (정밀) | 0.05~0.2 |
| 인용 포함 리서치 | 0.1~0.5 |
| Map-Reduce (중간 합산) | 총 토큰 ≈ 원문 × 1.2~1.6 |
긴 문서 처리의 핵심 전략
1. 단일 패스 vs Map-Reduce 선택 기준
| 문서 크기 | 권장 전략 |
|---|---|
| ≤20K | 단일 패스 시도 |
| 20K~100K | Map-Reduce 또는 계층 요약 |
| >100K | 계층 요약 필수 |
2. 인용 최적화
비효율적: 모든 주장에 전체 발췌 + URL + 메타데이터
효율적: 식별자만 본문에 + 필요시 별도 상세 조회3. PDF 문서의 토큰 직관
| 페이지 특성 | 토큰/페이지 |
|---|---|
| 텍스트 위주 | 1,500~2,000 |
| 이미지/차트 포함 | 2,500~3,000+ |
10페이지 PDF ≈ 15,000~30,000 토큰
모델 선택과 컨텍스트 제약
200K 경계의 현실적 영향
| 입력 크기 | 실제 컨텍스트 (중간요약/도구 포함) | 위험 |
|---|---|---|
| 20K | 낮음 | |
| 100K | 중간 | |
| 150K+ | 200K 초과 가능 | 높음 |
Opus 1M 베타의 함정
Opus 4.6은 1M 컨텍스트가 가능하지만:
- 200K 초과 시 프리미엄 요율 적용
- 입력 $10/M (2배), 출력 $37.5/M (1.5배)
"기술적으로 가능해도 비용 리스크"가 존재합니다.
핵심 정리
짧은 Q&A
- 토큰 = 거의 입력 크기
- 최적화 = 입력 발췌
긴 문서 요약
- 토큰 = 원문 × 1.2~1.6배 (map-reduce 시)
- 최적화 = 워크플로 설계 + 인용 절제
공통 원칙
- 출력 단가가 더 비싸므로 출력 길이 제어 중요
- 200K 경계 주의 (프리미엄 요율 진입)
다음 편 예고
5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀
코드 작성·리팩토링 작업에서 토큰이 폭발하는 메커니즘과 최적화 전략을 다룹니다.
참고 자료
Anthropic 공식 문서
- Token Count API - 토큰 수 계산 API
- Anthropic Pricing - 가격표 (200K 경계 프리미엄)
- Prompting Long Context - 장문 컨텍스트 프롬프팅 가이드
모델 정보
- Claude 3.5 Sonnet 발표 - Sonnet 가격 및 컨텍스트
- Claude Opus 4.6 발표 - Opus 1M 베타 및 프리미엄 요율
- PDF Support - PDF 문서 토큰 직관
장문 처리 패턴
- Google Cloud Long Document Summarization - Map-Reduce 요약 패턴
📚 클로드 코드 토큰 경제학 시리즈 | 2026년 2월
'AI' 카테고리의 다른 글
| 클로드 코드 토큰 경제학 시리즈 6편: 5k/20k/100k 입력 시나리오 - 현실적인 비용 예측하기 (0) | 2026.02.12 |
|---|---|
| 클로드 코드 토큰 경제학 시리즈 5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀 (0) | 2026.02.12 |
| 클로드 코드 토큰 경제학 시리즈 3편: Claude Code의 토큰 비용 구조 - 숨겨진 비용의 정체 (0) | 2026.02.12 |
| 클로드 코드 토큰 경제학 시리즈 2편: Claude 모델 라인업 - Haiku, Sonnet, Opus 완벽 비교 (0) | 2026.02.12 |
| 클로드 코드 토큰 경제학 시리즈 1편: 토큰이란? AI 비용의 기본 단위 이해하기 (0) | 2026.02.12 |
