클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석

💡 시리즈 소개: 이 시리즈는 Claude Code 사용자를 위한 토큰 경제학 가이드입니다. 이번 편에서는 텍스트 기반 작업(Q&A, 문서 요약)의 토큰 소모 패턴을 분석합니다.

같은 모델, 다른 비용

동일한 모델을 사용해도 작업 유형에 따라 토큰 소모 패턴이 완전히 달라집니다.

작업 유형	토큰 결정 요인	최적화 핵심
짧은 Q&A	입력 크기에 선형 비례	입력 발췌
긴 문서 요약	중간 산출물로 비선형 증가	워크플로 설계
코드 작업	반복 루프로 기하급수적	다음 편에서 다룸

작업유형 ①: 짧은 Q&A/요약 (텍스트만)

토큰 사용량 결정 요인 (영향도 순)

1. 입력 길이 (최대 영향)

20,000 토큰 입력 → 그대로 20,000 토큰 과금

입력을 "전부 제공" vs "중요 부분만 발췌"에 따라 토큰과 비용이 크게 달라집니다.

2. 출력 길이

짧은 Q&A 출력: 50~300 토큰
요약 출력: 100~800 토큰

같은 입력이라도 "더 자세히 쓰는 스타일"은 출력 토큰이 늘어납니다.
출력 단가가 더 비싸기 때문에 출력 제어가 중요합니다.

3. 대화 턴 수

여러 턴을 주고받으면 과거 메시지가 누적됩니다.

턴 1: 입력 5K + 출력 300
턴 2: 입력 5K + 이전 턴 5.3K + 출력 300
턴 3: 입력 5K + 이전 턴 10.6K + 출력 300

"짧게/다시/더 자세히" 같은 반복 정제 루프가 많으면 비용이 급증합니다.

4. 시스템 프롬프트 길이

시스템 프롬프트는 매 호출마다 포함됩니다.

권장: 20~200 토큰 수준의 간단한 지침

오버헤드 근사치

항목	토큰 범위
시스템 프롬프트	20~300
메시지 경계	1~10/메시지
응답 시작/종료	1~5

짧은 Q&A 시나리오 계산

시나리오 정의

시나리오	출력	오버헤드
A: Q&A 1턴	50~150	33~90
B: 짧은 요약	150~400	53~160
C: 2턴 정제	100~320	36~145

입력별 총 토큰 (입력 + 출력 + 오버헤드)

입력 토큰	시나리오 A	시나리오 B	시나리오 C
5,000	5,083~5,240	5,203~5,560	5,136~5,465
20,000	20,083~20,240	20,203~20,560	20,136~20,465
100,000	100,083~100,240	100,203~100,560	100,136~100,465

핵심 인사이트

"짧은 Q&A/요약"은 대부분 입력이 총량의 절대다수입니다.
출력·오버헤드는 수백 토큰 수준으로 상대적으로 작습니다.

최적화 1순위: 모델 교체보다 불필요한 입력 제거(발췌)가 더 효과적입니다.

작업유형 ②: 긴 문서 요약/리서치

토큰이 "원문 이상"으로 늘어나는 4대 메커니즘

1. 원문 자체 증가 (선형)

입력이 5K → 20K → 100K로 커지면 입력 비용도 선형 증가합니다.

2. Map-Reduce로 인한 중간 산출물 (비선형!)

컨텍스트 한계 때문에 청크 요약 → 통합(map-reduce)을 사용하면:

┌────────────────────────────────────────────┐
│           Map-Reduce 토큰 흐름              │
├────────────────────────────────────────────┤
│                                            │
│  원문 20K                                   │
│    ↓                                       │
│  청크 분할 (4K × 5개)                       │
│    ↓                                       │
│  각 청크 요약 (입력 4K + 출력 500) × 5      │
│    ↓                                       │
│  중간 요약들 (2,500 토큰)                   │
│    ↓                                       │
│  최종 통합 (입력 2,500 + 출력 1,200)        │
│                                            │
│  ───────────────────────────────────────   │
│  총 토큰: 27,600 (원문 대비 1.38배)         │
└────────────────────────────────────────────┘

중간 요약 출력이 다시 입력으로 들어가 "재입력 과금"이 발생합니다.

3. 인용/근거 첨부 (입출력 동시 증폭)

인용 방식	토큰 영향
단순 식별자 [1]	미미
원문 발췌 + URL	상당
발췌 + 메타데이터	대폭 증가

RAG 파이프라인에서 검색 패시지를 많이 붙일수록:

출처 10개 × 패시지 500~~800 토큰 = **5K~~8K 토큰 추가**

모델이 각 주장마다 근거 텍스트를 출력하면 출력 토큰도 폭증합니다.

4. 도구/에이전트 컨텍스트 복제

서브에이전트 사용 시 컨텍스트가 분리되어 곱셈적 증가 (~7배)

긴 문서 요약 시나리오별 계산

시나리오 A: 5,000 토큰 (작은 장문)

권장 전략: 단일 패스 요약

입력: 5,000 + 프롬프트 300 = 5,300
출력: 800
────────────────────────
총계: 6,100 tokens

비용 (Sonnet): ~$0.028
비용 (Opus): ~$0.047

시나리오 B: 20,000 토큰 (중간 규모 문서)

권장 전략: Map-Reduce

원문: 20,000
청크 5개 × 4,000
맵 프롬프트 오버헤드: 200 × 5 = 1,000
청크 요약 출력: 500 × 5 = 2,500
리듀스 입력: 2,500 + 400 = 2,900
최종 출력: 1,200
────────────────────────────────────
입력 청구: ~23,900
출력: ~3,700
총계: ~27,600 tokens

비용 (Sonnet): ~$0.13
비용 (Opus): ~$0.21

💡 시사점: Map-reduce는 총 토큰이 원문 대비 1.3~1.6배 증가합니다.

시나리오 C: 100,000 토큰 (대규모 문서 집합)

권장 전략: 계층적 요약 (2단계)

1차: 10K 청크 × 10개 → 각 요약 1,000 → 1차 출력 10,000
2차: 1차 요약 3묶음 → 각 800 → 2차 출력 2,400
최종: 입력 3,000 + 출력 2,500
프롬프트 오버헤드: ~3,000
──────────────────────────────────────────────
입력성 토큰: ~106,000
출력: ~14,900
총계: ~120,900 tokens

비용 (Sonnet): ~$0.54
비용 (Opus): ~$0.90

입출력 비중 가이드

작업 유형	출력/입력 비율
간단 Q&A	0.1~0.3
문서 요약 (정밀)	0.05~0.2
인용 포함 리서치	0.1~0.5
Map-Reduce (중간 합산)	총 토큰 ≈ 원문 × 1.2~1.6

긴 문서 처리의 핵심 전략

1. 단일 패스 vs Map-Reduce 선택 기준

문서 크기	권장 전략
≤20K	단일 패스 시도
20K~100K	Map-Reduce 또는 계층 요약
>100K	계층 요약 필수

2. 인용 최적화

비효율적: 모든 주장에 전체 발췌 + URL + 메타데이터
효율적: 식별자만 본문에 + 필요시 별도 상세 조회

3. PDF 문서의 토큰 직관

페이지 특성	토큰/페이지
텍스트 위주	1,500~2,000
이미지/차트 포함	2,500~3,000+

10페이지 PDF ≈ 15,000~30,000 토큰

모델 선택과 컨텍스트 제약

200K 경계의 현실적 영향

입력 크기	실제 컨텍스트 (중간요약/도구 포함)	위험
20K	~~30K~~40K	낮음
100K	~~120K~~150K	중간
150K+	200K 초과 가능	높음

Opus 1M 베타의 함정

Opus 4.6은 1M 컨텍스트가 가능하지만:

200K 초과 시 프리미엄 요율 적용
입력 $10/M (2배), 출력 $37.5/M (1.5배)

"기술적으로 가능해도 비용 리스크"가 존재합니다.

핵심 정리

짧은 Q&A

토큰 = 거의 입력 크기
최적화 = 입력 발췌

긴 문서 요약

토큰 = 원문 × 1.2~1.6배 (map-reduce 시)
최적화 = 워크플로 설계 + 인용 절제

공통 원칙

출력 단가가 더 비싸므로 출력 길이 제어 중요
200K 경계 주의 (프리미엄 요율 진입)

다음 편 예고

5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀

코드 작성·리팩토링 작업에서 토큰이 폭발하는 메커니즘과 최적화 전략을 다룹니다.

참고 자료

Anthropic 공식 문서

Token Count API - 토큰 수 계산 API
Anthropic Pricing - 가격표 (200K 경계 프리미엄)
Prompting Long Context - 장문 컨텍스트 프롬프팅 가이드

모델 정보

Claude 3.5 Sonnet 발표 - Sonnet 가격 및 컨텍스트
Claude Opus 4.6 발표 - Opus 1M 베타 및 프리미엄 요율
PDF Support - PDF 문서 토큰 직관

장문 처리 패턴

Google Cloud Long Document Summarization - Map-Reduce 요약 패턴

📚 클로드 코드 토큰 경제학 시리즈 | 2026년 2월

'AI' 카테고리의 다른 글

클로드 코드 토큰 경제학 시리즈 6편: 5k/20k/100k 입력 시나리오 - 현실적인 비용 예측하기 (0)	2026.02.12
클로드 코드 토큰 경제학 시리즈 5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀 (0)	2026.02.12
클로드 코드 토큰 경제학 시리즈 3편: Claude Code의 토큰 비용 구조 - 숨겨진 비용의 정체 (0)	2026.02.12
클로드 코드 토큰 경제학 시리즈 2편: Claude 모델 라인업 - Haiku, Sonnet, Opus 완벽 비교 (0)	2026.02.12
클로드 코드 토큰 경제학 시리즈 1편: 토큰이란? AI 비용의 기본 단위 이해하기 (0)	2026.02.12

클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석

같은 모델, 다른 비용

작업유형 ①: 짧은 Q&A/요약 (텍스트만)

토큰 사용량 결정 요인 (영향도 순)

1. 입력 길이 (최대 영향)

2. 출력 길이

3. 대화 턴 수

4. 시스템 프롬프트 길이

오버헤드 근사치

짧은 Q&A 시나리오 계산

핵심 인사이트

작업유형 ②: 긴 문서 요약/리서치

토큰이 "원문 이상"으로 늘어나는 4대 메커니즘

1. 원문 자체 증가 (선형)

2. Map-Reduce로 인한 중간 산출물 (비선형!)

3. 인용/근거 첨부 (입출력 동시 증폭)

4. 도구/에이전트 컨텍스트 복제

긴 문서 요약 시나리오별 계산

시나리오 A: 5,000 토큰 (작은 장문)

시나리오 B: 20,000 토큰 (중간 규모 문서)

시나리오 C: 100,000 토큰 (대규모 문서 집합)

입출력 비중 가이드

긴 문서 처리의 핵심 전략

1. 단일 패스 vs Map-Reduce 선택 기준

2. 인용 최적화

3. PDF 문서의 토큰 직관

모델 선택과 컨텍스트 제약

200K 경계의 현실적 영향

Opus 1M 베타의 함정

핵심 정리

짧은 Q&A

긴 문서 요약

공통 원칙

다음 편 예고

참고 자료

Anthropic 공식 문서

모델 정보

장문 처리 패턴

'AI' 카테고리의 다른 글

티스토리툴바