클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석

2026. 2. 12. 17:58·AI
반응형

클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석

💡 시리즈 소개: 이 시리즈는 Claude Code 사용자를 위한 토큰 경제학 가이드입니다. 이번 편에서는 텍스트 기반 작업(Q&A, 문서 요약)의 토큰 소모 패턴을 분석합니다.


같은 모델, 다른 비용

동일한 모델을 사용해도 작업 유형에 따라 토큰 소모 패턴이 완전히 달라집니다.

작업 유형 토큰 결정 요인 최적화 핵심
짧은 Q&A 입력 크기에 선형 비례 입력 발췌
긴 문서 요약 중간 산출물로 비선형 증가 워크플로 설계
코드 작업 반복 루프로 기하급수적 다음 편에서 다룸

작업유형 ①: 짧은 Q&A/요약 (텍스트만)

토큰 사용량 결정 요인 (영향도 순)

1. 입력 길이 (최대 영향)

20,000 토큰 입력 → 그대로 20,000 토큰 과금

입력을 "전부 제공" vs "중요 부분만 발췌"에 따라 토큰과 비용이 크게 달라집니다.

2. 출력 길이

  • 짧은 Q&A 출력: 50~300 토큰
  • 요약 출력: 100~800 토큰

같은 입력이라도 "더 자세히 쓰는 스타일"은 출력 토큰이 늘어납니다.
출력 단가가 더 비싸기 때문에 출력 제어가 중요합니다.

3. 대화 턴 수

여러 턴을 주고받으면 과거 메시지가 누적됩니다.

턴 1: 입력 5K + 출력 300
턴 2: 입력 5K + 이전 턴 5.3K + 출력 300
턴 3: 입력 5K + 이전 턴 10.6K + 출력 300

"짧게/다시/더 자세히" 같은 반복 정제 루프가 많으면 비용이 급증합니다.

4. 시스템 프롬프트 길이

시스템 프롬프트는 매 호출마다 포함됩니다.

  • 권장: 20~200 토큰 수준의 간단한 지침

오버헤드 근사치

항목 토큰 범위
시스템 프롬프트 20~300
메시지 경계 1~10/메시지
응답 시작/종료 1~5

짧은 Q&A 시나리오 계산

시나리오 정의

시나리오 출력 오버헤드
A: Q&A 1턴 50~150 33~90
B: 짧은 요약 150~400 53~160
C: 2턴 정제 100~320 36~145

입력별 총 토큰 (입력 + 출력 + 오버헤드)

입력 토큰 시나리오 A 시나리오 B 시나리오 C
5,000 5,083~5,240 5,203~5,560 5,136~5,465
20,000 20,083~20,240 20,203~20,560 20,136~20,465
100,000 100,083~100,240 100,203~100,560 100,136~100,465

핵심 인사이트

"짧은 Q&A/요약"은 대부분 입력이 총량의 절대다수입니다.
출력·오버헤드는 수백 토큰 수준으로 상대적으로 작습니다.

최적화 1순위: 모델 교체보다 불필요한 입력 제거(발췌)가 더 효과적입니다.


작업유형 ②: 긴 문서 요약/리서치

토큰이 "원문 이상"으로 늘어나는 4대 메커니즘

1. 원문 자체 증가 (선형)

입력이 5K → 20K → 100K로 커지면 입력 비용도 선형 증가합니다.

2. Map-Reduce로 인한 중간 산출물 (비선형!)

컨텍스트 한계 때문에 청크 요약 → 통합(map-reduce)을 사용하면:

┌────────────────────────────────────────────┐
│           Map-Reduce 토큰 흐름              │
├────────────────────────────────────────────┤
│                                            │
│  원문 20K                                   │
│    ↓                                       │
│  청크 분할 (4K × 5개)                       │
│    ↓                                       │
│  각 청크 요약 (입력 4K + 출력 500) × 5      │
│    ↓                                       │
│  중간 요약들 (2,500 토큰)                   │
│    ↓                                       │
│  최종 통합 (입력 2,500 + 출력 1,200)        │
│                                            │
│  ───────────────────────────────────────   │
│  총 토큰: 27,600 (원문 대비 1.38배)         │
└────────────────────────────────────────────┘

중간 요약 출력이 다시 입력으로 들어가 "재입력 과금"이 발생합니다.

3. 인용/근거 첨부 (입출력 동시 증폭)

인용 방식 토큰 영향
단순 식별자 [1] 미미
원문 발췌 + URL 상당
발췌 + 메타데이터 대폭 증가

RAG 파이프라인에서 검색 패시지를 많이 붙일수록:

  • 출처 10개 × 패시지 500800 토큰 = **5K8K 토큰 추가**

모델이 각 주장마다 근거 텍스트를 출력하면 출력 토큰도 폭증합니다.

4. 도구/에이전트 컨텍스트 복제

서브에이전트 사용 시 컨텍스트가 분리되어 곱셈적 증가 (~7배)


긴 문서 요약 시나리오별 계산

시나리오 A: 5,000 토큰 (작은 장문)

권장 전략: 단일 패스 요약

입력: 5,000 + 프롬프트 300 = 5,300
출력: 800
────────────────────────
총계: 6,100 tokens

비용 (Sonnet): ~$0.028
비용 (Opus): ~$0.047

시나리오 B: 20,000 토큰 (중간 규모 문서)

권장 전략: Map-Reduce

원문: 20,000
청크 5개 × 4,000
맵 프롬프트 오버헤드: 200 × 5 = 1,000
청크 요약 출력: 500 × 5 = 2,500
리듀스 입력: 2,500 + 400 = 2,900
최종 출력: 1,200
────────────────────────────────────
입력 청구: ~23,900
출력: ~3,700
총계: ~27,600 tokens

비용 (Sonnet): ~$0.13
비용 (Opus): ~$0.21

💡 시사점: Map-reduce는 총 토큰이 원문 대비 1.3~1.6배 증가합니다.

시나리오 C: 100,000 토큰 (대규모 문서 집합)

권장 전략: 계층적 요약 (2단계)

1차: 10K 청크 × 10개 → 각 요약 1,000 → 1차 출력 10,000
2차: 1차 요약 3묶음 → 각 800 → 2차 출력 2,400
최종: 입력 3,000 + 출력 2,500
프롬프트 오버헤드: ~3,000
──────────────────────────────────────────────
입력성 토큰: ~106,000
출력: ~14,900
총계: ~120,900 tokens

비용 (Sonnet): ~$0.54
비용 (Opus): ~$0.90

입출력 비중 가이드

작업 유형 출력/입력 비율
간단 Q&A 0.1~0.3
문서 요약 (정밀) 0.05~0.2
인용 포함 리서치 0.1~0.5
Map-Reduce (중간 합산) 총 토큰 ≈ 원문 × 1.2~1.6

긴 문서 처리의 핵심 전략

1. 단일 패스 vs Map-Reduce 선택 기준

문서 크기 권장 전략
≤20K 단일 패스 시도
20K~100K Map-Reduce 또는 계층 요약
>100K 계층 요약 필수

2. 인용 최적화

비효율적: 모든 주장에 전체 발췌 + URL + 메타데이터
효율적: 식별자만 본문에 + 필요시 별도 상세 조회

3. PDF 문서의 토큰 직관

페이지 특성 토큰/페이지
텍스트 위주 1,500~2,000
이미지/차트 포함 2,500~3,000+

10페이지 PDF ≈ 15,000~30,000 토큰


모델 선택과 컨텍스트 제약

200K 경계의 현실적 영향

입력 크기 실제 컨텍스트 (중간요약/도구 포함) 위험
20K 30K40K 낮음
100K 120K150K 중간
150K+ 200K 초과 가능 높음

Opus 1M 베타의 함정

Opus 4.6은 1M 컨텍스트가 가능하지만:

  • 200K 초과 시 프리미엄 요율 적용
  • 입력 $10/M (2배), 출력 $37.5/M (1.5배)

"기술적으로 가능해도 비용 리스크"가 존재합니다.


핵심 정리

짧은 Q&A

  • 토큰 = 거의 입력 크기
  • 최적화 = 입력 발췌

긴 문서 요약

  • 토큰 = 원문 × 1.2~1.6배 (map-reduce 시)
  • 최적화 = 워크플로 설계 + 인용 절제

공통 원칙

  • 출력 단가가 더 비싸므로 출력 길이 제어 중요
  • 200K 경계 주의 (프리미엄 요율 진입)

다음 편 예고

5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀

코드 작성·리팩토링 작업에서 토큰이 폭발하는 메커니즘과 최적화 전략을 다룹니다.



참고 자료

Anthropic 공식 문서

  • Token Count API - 토큰 수 계산 API
  • Anthropic Pricing - 가격표 (200K 경계 프리미엄)
  • Prompting Long Context - 장문 컨텍스트 프롬프팅 가이드

모델 정보

  • Claude 3.5 Sonnet 발표 - Sonnet 가격 및 컨텍스트
  • Claude Opus 4.6 발표 - Opus 1M 베타 및 프리미엄 요율
  • PDF Support - PDF 문서 토큰 직관

장문 처리 패턴

  • Google Cloud Long Document Summarization - Map-Reduce 요약 패턴

📚 클로드 코드 토큰 경제학 시리즈 | 2026년 2월

반응형

'AI' 카테고리의 다른 글

클로드 코드 토큰 경제학 시리즈 6편: 5k/20k/100k 입력 시나리오 - 현실적인 비용 예측하기  (0) 2026.02.12
클로드 코드 토큰 경제학 시리즈 5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀  (0) 2026.02.12
클로드 코드 토큰 경제학 시리즈 3편: Claude Code의 토큰 비용 구조 - 숨겨진 비용의 정체  (0) 2026.02.12
클로드 코드 토큰 경제학 시리즈 2편: Claude 모델 라인업 - Haiku, Sonnet, Opus 완벽 비교  (0) 2026.02.12
클로드 코드 토큰 경제학 시리즈 1편: 토큰이란? AI 비용의 기본 단위 이해하기  (0) 2026.02.12
'AI' 카테고리의 다른 글
  • 클로드 코드 토큰 경제학 시리즈 6편: 5k/20k/100k 입력 시나리오 - 현실적인 비용 예측하기
  • 클로드 코드 토큰 경제학 시리즈 5편: 코드 작업의 토큰 경제학 - 파일, diff, 로그의 비밀
  • 클로드 코드 토큰 경제학 시리즈 3편: Claude Code의 토큰 비용 구조 - 숨겨진 비용의 정체
  • 클로드 코드 토큰 경제학 시리즈 2편: Claude 모델 라인업 - Haiku, Sonnet, Opus 완벽 비교
트렌드픽(Trend-Pick)
트렌드픽(Trend-Pick)
지금 뜨는 상품, 급상승 키워드 기반 트렌드 정보를 빠르게 정리합니다.
  • 트렌드픽(Trend-Pick)
    트렌드픽(Trend-Pick)
    트렌드픽(Trend-Pick)
  • 전체
    오늘
    어제
    • 트렌드픽 (536) N
      • AI (142) N
      • Tech (167)
      • Economy (70)
      • Global (72)
      • Culture (85)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

    • 블로그 면책조항 안내입니다
    • 블로그 개인정보처리방침 안내입니다
    • 블로그 소개합니다
  • 인기 글

  • 태그

    API
    조직
    Claude
    chatGPT
    AI 인프라
    sec
    AI 기술
    가차
    랜덤박스
    기업분석
    비트코인
    BTS
    BTS 광화문
    Anthropic
    클라우드 인프라
    글로벌 트렌드
    기술
    제품
    아르테미스2
    우주 데이터센터
  • 최근 댓글

  • 최근 글

  • 반응형
  • hELLO· Designed By정상우.v4.10.6
트렌드픽(Trend-Pick)
클로드 코드 토큰 경제학 시리즈 4편: 짧은 Q&A vs 긴 문서 요약 - 작업유형별 토큰 소모 분석
상단으로

티스토리툴바