시리즈: GPT-5.4 특징 및 성능 비교 완전 가이드 (총 7편) | 5회
GPT-5.4의 1.05M 컨텍스트와 멀티모달 — 스펙 경쟁을 넘어 실효를 따지다
1.05M 토큰 컨텍스트에 MMMU-Pro 81.2% 시각 추론, OmniDocBench 오차 22% 개선까지. 숫자는 화려한데 256K 넘으면 정확도가 21.4%까지 떨어지는 열화 구간과 272K 가중 과금이라는 현실이 있어. 장문·멀티모달 실전 주의점을 정리했어.
Summary
- 1.05M 컨텍스트를 지원하지만, Graphwalks 256K-1M 구간 정확도가 21.4%까지 떨어지는 열화 구간이 있어
- 272K 토큰 초과 시 가중 과금(입력 2배·출력 1.5배) — 장문은 “재무 설계”의 문제야
- MMMU-Pro 81.2%, OmniDocBench 오차 0.109로 문서 파싱 실력이 확실히 올라왔어
이 글의 대상
- GPT-5.4의 장문 컨텍스트가 실제로 어디까지 쓸 만한지 궁금한 사람
- RAG 파이프라인이나 문서 처리 시스템을 설계하는 개발자
- 멀티모달(이미지·문서) 성능이 실무에서 어떤 의미인지 알고 싶은 사람
목차
- 1.05M 토큰 컨텍스트: 얼마나 긴 거야?
- 열화 구간의 현실: Graphwalks 256K-1M 정확도 21.4%
- 272K 초과 가중 과금: 장문은 재무 설계의 문제
- 장문을 똑똑하게 쓰는 3가지 전략
- 멀티모달: MMMU-Pro 81.2%와 OmniDocBench 오차 0.109
- original 디테일 입력: 10.24M 픽셀의 의미
- RAG 병목: 모델보다 OCR·전처리가 먼저
- 경쟁사 비교: Gemini의 비전·OCR은 어떨까
1. 1.05M 토큰 컨텍스트: 얼마나 긴 거야?
GPT-5.4의 컨텍스트 윈도우는 최대 1,050,000 토큰이야. 입력 약 922K + 출력 128K 구성이지.
이걸 실감나게 바꿔보면:
- 일반 텍스트 기준 약 750페이지 분량의 문서를 한 세션에 넣을 수 있어
- 장문 계약서, 정책 문서, 코드베이스, 대규모 로그를 한 번에 묶어서 처리할 수 있다는 뜻이지
경쟁 모델들도 비슷한 스펙을 내세우고 있어:
| 모델 | 최대 컨텍스트 |
|---|---|
| GPT-5.4 | 1,050,000 토큰 |
| Gemini 3.1 Pro | 1M 토큰 |
| Claude Opus 4.6 | 1M 토큰 (베타) |
숫자만 보면 비슷한데, 진짜 승부는 “긴 입력을 넣었을 때 얼마나 정확하게 처리하느냐”에서 갈려.
2. 열화 구간의 현실: Graphwalks 256K-1M 정확도 21.4%
여기가 핵심이야. “1M을 넣으면 해결”이 아니거든.
OpenAI는 장문에서 성능이 선형으로 유지되지 않는다는 걸 숨기지 않았어. Graphwalks BFS 벤치마크에서 256K-1M 구간 정확도가 21.4%까지 떨어지는 열화를 수치로 함께 공개했거든.
이게 뭘 뜻하냐면:
- 짧은 컨텍스트(수만 토큰)에서는 정확하게 추적하던 정보가
- 256K를 넘어가면서 점점 놓치기 시작하고
- 1M 가까이 가면 정확도가 크게 떨어진다는 거야
그러니까 “1.05M 컨텍스트”는 가능의 영역이지, “항상 잘 됨”의 영역이 아니야. 중요한 정보를 장문 속에 묻어두면 모델이 놓칠 가능성이 커진다는 걸 알고 설계해야 해.
3. 272K 초과 가중 과금: 장문은 재무 설계의 문제
기술적 열화보다 어쩌면 더 현실적인 벽이 비용이야.
GPT-5.4의 가격 구조를 보면:
| 항목 | 기본 가격 | 272K 초과 시 |
|---|---|---|
| 입력 | $2.50/1M 토큰 | $5.00/1M (2배) |
| 캐시 입력 | $0.25/1M 토큰 | - |
| 출력 | $15.00/1M 토큰 | $22.50/1M (1.5배) |
272K 입력 토큰을 넘으면 세션 전체에 가중 과금이 붙어. 입력 2배, 출력 1.5배야. 이 규칙은 사실상 “1M 컨텍스트를 무식하게 채우지 말고, 설계해서 써라”는 OpenAI의 신호인 거지.
예를 들어 500K 토큰을 매번 넣는 워크로드가 있다면, 272K 이하로 줄이는 것만으로 비용이 거의 반으로 줄어. 장문은 “기술 문제”가 아니라 “재무 설계”의 문제야.
4. 장문을 똑똑하게 쓰는 3가지 전략
그러면 장문이 필요한 작업은 어떻게 해야 할까? 세 가지 전략이 있어.
계층형 요약
원문 전체를 넣는 대신, 원문 → 섹션 요약 → 결정 요약으로 단계를 나눠서 처리하는 거야. 최종 의사결정에 필요한 정보만 모델에게 전달하면 토큰도 줄고 정확도도 올라가.
검색 기반 RAG
전체 문서를 통째로 넣지 말고, 필요한 부분만 Top-k로 검색해서 주입하는 방식이야. 272K 아래로 유지하면서도 필요한 정보는 다 가져올 수 있지. 대부분의 실무 환경에서 이게 가장 현실적인 접근법이야.
컴팩션 전략
오래된 대화 문맥을 요약으로 교체하는 방식이야. Claude가 “context compaction”이라는 이름으로 비슷한 기능을 강조하고 있기도 하고, 장기 에이전트 워크플로에서 특히 효과적이지.
핵심은 이거야 — “1M을 채울 수 있다”와 “1M을 채우는 게 합리적이다”는 완전히 다른 문제야.
5. 멀티모달: MMMU-Pro 81.2%와 OmniDocBench 오차 0.109
이제 멀티모달 이야기를 해보자. GPT-5.4의 멀티모달은 “이미지 설명”이 아니라 “문서 처리 인프라”를 겨냥하고 있어.
| 벤치마크 | GPT-5.4 | GPT-5.2 | 개선 |
|---|---|---|---|
| MMMU-Pro (도구 없이) | 81.2% | 79.5% | +1.7%p |
| OmniDocBench 평균 오차 | 0.109 | 0.140 | 22% 개선 |
MMMU-Pro 81.2%는 텍스트+시각 구조+추론이 섞인 고난도 시각-언어 추론 지표야. 문서 화면, UI, 도표 같은 복합적인 입력을 처리하는 능력을 보여주지.
더 주목할 건 OmniDocBench 오차 0.109야. 이건 문서 OCR/파싱에서 추출한 텍스트가 원문과 얼마나 다른지를 측정하는 정규화 편집거리(NED) 지표인데, 전작 0.140에서 0.109로 22% 개선됐어.
이 개선이 실무에서 뭘 의미하냐면:
- RAG 인덱싱 품질이 올라가 — OCR 오류가 줄어들면 검색 결과가 더 정확해져
- 문서 검수 비용이 내려가 — 사람이 일일이 OCR 결과를 확인하는 부담이 줄어들지
- 스캔 PDF, 표 포함 문서 처리에서 체감 차이가 크게 날 수 있어
6. original 디테일 입력: 10.24M 픽셀의 의미
GPT-5.4는 이미지 입력에 original 디테일 옵션을 새로 도입했어. 기존 high 모드와 비교하면:
| 모드 | 최대 해상도 | 최대 치수 |
|---|---|---|
| original | 10.24M 픽셀 | 6000px |
| high | 2.56M 픽셀 | 2048px |
4배 더 큰 이미지를 받을 수 있다는 건, UI 스크린샷에서 작은 텍스트, 좌표, 버튼 라벨까지 더 정밀하게 인식할 수 있다는 뜻이야. 이게 4편에서 다룬 computer-use(OSWorld 75.0%)와 직접 연결되는 지점이기도 하고.
특히 설계도, 도면, 지도, 세밀한 표 같은 고정밀 시각 자료를 다룰 때 original 모드가 진가를 발휘해. 다만 토큰 소비가 커지니까 모든 이미지에 쓸 건 아니고, 정밀도가 중요한 경우에만 선택적으로 사용하는 게 좋아.
7. RAG 병목: 모델보다 OCR·전처리가 먼저
여기서 많은 사람이 놓치는 포인트가 있어. RAG 품질을 결정하는 건 모델이 아니라 전처리야.
OmniBench-RAG 연구가 멀티도메인 RAG 평가에서 밝힌 핵심은 이거야:
- OCR 및 전처리 품질이 Top-5 리콜(회수율)을 크게 좌우한다
- 즉, 모델이 아무리 좋아도 문서 표현(document representation)이 부실하면 긴 컨텍스트는 “긴 잡음”이 될 수 있다는 거지
장문 요약이나 문서 합성(A+B → 요약)에서도 압축 과정 때문에 날짜, 수치, 인과관계의 누락이나 발명이 발생하기 쉬워. GPT-5.4가 환각을 33% 줄였다고 하지만, RAG 환경에서는 스팬 수준의 환각이 구조적으로 남는다는 연구 결과가 계속 나오고 있거든.
결론: 모델을 업그레이드하기 전에 OCR·전처리 파이프라인부터 점검하는 게 순서야.
8. 경쟁사 비교: Gemini의 비전·OCR은 어떨까
멀티모달, 특히 비전·OCR 분야에서는 Gemini를 반드시 비교 대상에 넣어야 해.
Google은 Gemini 3.x Pro 계열에서 비전·문서·OCR·비디오 이해를 매우 강하게 강조하고 있어. 커뮤니티 리뷰에서도 “복잡 레이아웃·차트 해석에 강하다”는 평가가 반복되고 있고.
| 비교 축 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|
| 문서 파싱 | OmniDocBench 오차 0.109 | 비전·OCR 강점 강조 |
| 컨텍스트 | 1.05M 토큰 | 1M 토큰 + 64K 출력 |
| 고해상도 | original 10.24M 픽셀 | 멀티모달(이미지/비디오/오디오) |
다만 주의할 게 있어. Gemini가 공개하는 수치(SWE-Bench Verified 80.6%, BrowseComp 85.9% 등)는 Thinking(High)이나 Deep Think 같은 특정 세팅이 전제야. GPT-5.4 수치와 “이름이 비슷한 벤치”라도 하네스나 채점 기준이 다르면 직접 비교가 위험하거든.
실무적 결론: “비전·OCR 정밀도”가 사업의 핵심 KPI라면, GPT-5.4 단독 평가보다 동일 데이터·동일 전처리 조건에서 Gemini와 PoC 비교를 하는 게 가장 현실적이야.
핵심 정리
1. 1.05M 컨텍스트는 강력하지만, 256K-1M 구간에서 정확도 열화(21.4%)가 있어
2. 272K 초과 가중 과금(입력 2배·출력 1.5배) → 장문은 재무 설계의 문제
3. 계층형 요약, 검색 기반 RAG, 컴팩션 전략으로 토큰을 관리해야 해
4. OmniDocBench 오차 0.109(전작 0.140) → 문서 파싱·OCR 품질이 확실히 올랐어
5. RAG 병목은 모델이 아니라 OCR·전처리 → 모델 업그레이드 전에 파이프라인부터 점검
FAQ
Q: 1.05M 토큰이면 실제로 어느 정도 분량이야?
A. 일반 텍스트 기준 약 750페이지 분량이야. 긴 계약서나 정책 문서를 통째로 넣을 수 있는 수준이지. 다만 이미지가 포함되면 토큰 소비가 훨씬 커지니까 실제 분량은 줄어들어.
Q: Graphwalks 정확도 21.4%면 256K 이상은 못 쓰는 건가?
A. “못 쓴다”보다는 “설계가 필요하다”가 맞아. Graphwalks는 그래프 탐색이라는 특정 과제의 수치고, 모든 작업에서 동일하게 떨어지는 건 아니야. 다만 중요한 정보를 장문 속에 묻어두면 놓칠 수 있으니까, 핵심 정보는 앞쪽에 배치하거나 요약으로 강조하는 게 좋아.
Q: 272K 초과 가중 과금은 캐시 입력에도 적용돼?
A. 캐시 입력($0.25/1M)은 반복 입력 비용을 낮추는 별도 할인 구조야. 다만 272K 초과 세션에서의 가중 과금은 세션 전체에 적용되니까, 캐시를 활용하더라도 전체 입력 토큰 수를 272K 이하로 관리하는 게 비용 최적화의 핵심이야.
Q: 계층형 요약과 RAG 중 뭐가 더 좋아?
A. 작업 특성에 따라 달라. 전체 흐름 파악이 중요한 작업(예: 계약서 전체 리뷰)에는 계층형 요약이 적합하고, 특정 정보 검색이 핵심인 작업(예: 규정에서 특정 조항 찾기)에는 RAG가 효과적이야. 둘을 조합하는 것도 좋은 방법이지.
Q: MMMU-Pro 81.2%와 OmniDocBench 0.109는 어떤 차이가 있어?
A. MMMU-Pro는 “텍스트+시각 구조+추론”이 섞인 고난도 종합 시각 추론 지표야. OmniDocBench는 좀 더 구체적으로 “문서 OCR/파싱에서 추출한 텍스트가 원문과 얼마나 일치하는지”를 측정해. 실무 RAG 파이프라인에서는 OmniDocBench가 더 직접적으로 와닿는 수치야.
Q: original 디테일 모드는 항상 쓰는 게 좋아?
A. 아니야. original 모드(10.24M 픽셀)는 토큰 소비가 크거든. 일반적인 이미지 설명이나 분류에는 high 모드(2.56M 픽셀)면 충분하고, 설계도, 세밀한 표, UI 스크린샷 같은 고정밀 작업에만 선택적으로 쓰는 게 효율적이야.
Q: RAG에서 OCR 품질이 그렇게 중요해?
A. 엄청 중요해. OmniBench-RAG 연구가 밝힌 게 정확히 이거야 — OCR·전처리 품질이 Top-5 리콜(회수율)을 좌우한다는 거지. 아무리 좋은 모델이라도 인덱싱된 문서 자체가 틀리면, 검색 결과도 틀리고, 최종 답변도 틀려.
Q: Gemini가 비전·OCR에서 GPT-5.4보다 나은 건가?
A. 단정할 수는 없어. Google이 비전·문서·OCR을 강하게 강조하고 커뮤니티 평가도 긍정적이지만, 동일 데이터·동일 조건에서의 비교 없이는 정확한 판단이 어려워. “비전·OCR이 KPI”라면 반드시 PoC에서 동등 조건 비교를 해봐야 해.
Q: Claude는 장문/멀티모달에서 어떤 위치야?
A. Claude Opus 4.6은 1M 토큰(베타)을 지원하고, context compaction(오래된 문맥 요약 교체)이라는 독자적 접근을 내세우고 있어. 멀티모달 자체 성능보다는 에이전트 안정성과 행동 감사에 강점을 두는 포지션이야. 금융/법률 같은 “틀리면 비용이 큰” 환경에서 매력적이지.
참고 자료 (References)
데이터 출처
| 출처 | 설명 | 링크 |
|---|---|---|
| OpenAI 공식 발표 | GPT-5.4 소개 및 성능 벤치마크 | OpenAI |
| OpenAI API 문서 | 모델 스펙·가격·컨텍스트 제한 | API Docs |
| OmniBench-RAG | 멀티도메인 RAG 평가 연구 | arXiv |
| RAGTruth | RAG 환각 유형화 연구 (ACL 2024) | ACL Anthology |
핵심 인용
“For models with a 1.05M context window (GPT-5.4 and GPT-5.4 pro), prompts with >272K input tokens are priced at 2x input and 1.5x output for the full session.”
— OpenAI API 문서“GPT-5.4 brings together the best of our recent advances in reasoning, coding, and agentic workflows into a single frontier model.”
— OpenAI
다음 편 예고
[6편] GPT-5.4 vs Claude vs Gemini — 2026년 프런티어 AI 경쟁 지도
- 추론·코딩·에이전트·장문·멀티모달 축별 포지션 비교
- 벤치마크 수치를 “그대로 순위화하면 위험한” 이유
- 작업 유형별 모델 선택 가이드
