시리즈: GPT-5.4 특징 및 성능 비교 완전 가이드 (총 7편) | 3회
GPT-5.4 추론·코딩 성능 — ‘재작업 비용’과 ‘개발 완주율’이 핵심이다
GPT-5.4의 GDPval이 70.9%에서 83.0%로 뛰고 false claim은 33% 줄었다는데 이게 뭘 뜻하는 걸까? 진짜 변화는 점수 상승이 아니라 틀려서 다시 하는 재작업 비용이 줄었다는 거야. 추론과 코딩에서 뭐가 달라졌는지 파헤쳐 볼게.
Summary
- GPT-5.4의 GDPval 83.0%(전작 70.9%)는 “전문가 수준 업무에서 재작업이 줄었다”는 신호
- false claim 33% 감소, 오류 포함 응답 18% 감소로 검토·수정 부담이 줄어들어
- SWE-Bench Pro 57.7%는 숫자보다 Codex 통합 + computer-use 결합이 핵심
- 경쟁 모델(Gemini SWE-Bench Verified 80.6%)과의 비교는 트랙·하네스 차이를 꼭 확인해야 해
이 글의 대상
- AI 모델의 추론·코딩 성능을 업무에 활용하려는 개발자
- “GPT-5.4 코딩이 좋아졌다는데, 실제로 얼마나?”를 알고 싶은 기획자·PM
- 경쟁 모델과의 비교에서 정확한 판단 기준이 필요한 의사결정자
목차
- 추론 성능: “정확도”보다 “재작업 비용”으로 읽어야 해
- 환각 감소: false claim 33% 줄었다는 게 무슨 뜻이야
- 코딩 성능: 점수가 아니라 “개발 워크플로 완주율”
- OSWorld-Verified 75.0%: 코딩 + 에이전트 결합의 의미
- 경쟁 모델과의 비교: 숫자만 보면 빠지는 함정
- computer-use와 코딩 워크플로 결합의 의미
1. 추론 성능: “정확도”보다 “재작업 비용”으로 읽어야 해
GPT-5.4의 추론 성능을 대표하는 수치가 GDPval이야. 산업 전문가 대비 wins or ties(이기거나 비긴 비율)를 측정하는 건데, GPT-5.4는 83.0%를 기록했어. 전작 GPT-5.2의 70.9%에서 12.1%p 뛴 거지.
이 수치를 “정확도가 83%”로 읽으면 핵심을 놓쳐. 실무에서 이게 뜻하는 건 이거야:
전문가 수준의 업무(재무 분석, 법률 검토, 기술 보고서 등)에서 모델이 내놓는 결과를 사람이 고치거나 다시 시킬 필요가 줄었다는 것.
GDPval이 70.9%에서 83.0%로 올랐다는 건, 10번 중 약 7번 OK였던 게 약 8번 OK로 바뀐 셈이야. “1번 더 맞추는 거 아냐?”라고 할 수 있지만, 실무에서 그 1번의 재작업 비용은 의외로 커 — 검토 시간, 수정 지시, 재생성, 다시 검토. 이 루프가 한 번 줄어드는 게 전체 업무 시간을 꽤 아껴줘.
2. 환각 감소: false claim 33% 줄었다는 게 무슨 뜻이야
OpenAI는 GPT-5.4가 GPT-5.2 대비 두 가지 환각 지표가 개선됐다고 발표했어:
| 지표 | 개선 폭 | 측정 기준 |
|---|---|---|
| 개별 주장 단위 false claim | 33% 감소 | 사용자 플래그 기반 샘플 |
| 오류 포함 응답 비율 | 18% 감소 | 사용자 플래그 기반 샘플 |
이건 “환각이 사라졌다”가 아니야. “틀리는 빈도가 줄었다”는 뜻이지.
실무에서 이게 왜 중요할까
AI를 업무에 쓸 때 가장 큰 비용 중 하나가 “맞는지 확인하는 시간”이야. 모델이 자신 있게 내놓은 답이 틀려 있으면, 그걸 발견하고 수정하는 데 원래 직접 작업하는 것보다 더 많은 시간이 들 때도 있거든.
false claim이 33% 줄었다는 건, 확인·수정 루프를 도는 횟수가 줄어든다는 뜻이야. 특히 보고서 작성, 리서치 요약, 팩트체크가 중요한 업무에서 체감이 클 수 있어.
한계: RAG에서는 별개 문제
다만 한 가지 조심할 점이 있어. RAG(검색 증강 생성) 환경에서는 “출처를 붙였는데도 틀리는” 문제가 구조적으로 남아 있어. RAGTruth(ACL 2024) 연구에 따르면, 근거 문장과 답변의 스팬 정합이 깨지는 환각이 여전히 발생해. 모델 자체의 환각이 줄어도, RAG 파이프라인에서 검색기·인덱싱·전처리 품질이 떨어지면 효과가 반감되지.
3. 코딩 성능: 점수가 아니라 “개발 워크플로 완주율”
GPT-5.4의 코딩 벤치마크를 보자.
| 모델 | SWE-Bench Pro |
|---|---|
| GPT-5.4 | 57.7% |
| GPT-5.3-Codex | 56.8% |
| GPT-5.2 | 55.6% |
솔직히, 숫자만 보면 “겨우 1~2%p 올랐잖아”라고 생각할 수 있어. 맞아, 점수로만 보면 혁명은 아니야.
그런데 GPT-5.4의 코딩에서 진짜 변화는 점수가 아니라 접근 방식이야:
- Codex 통합: GPT-5.3-Codex의 코딩 역량을 GPT-5.4가 흡수했어. 별도 모델이 아니라 하나의 모델 안에서 추론·코딩·에이전트가 다 돌아가는 거지.
- computer-use 결합: 코드만 생성하는 게 아니라, 실행하고, 테스트하고, UI로 결과를 확인하고, 디버깅까지 이어지는 워크플로가 가능해졌어.
- Codex /fast 모드: 에이전트형 반복 실행에서 최대 1.5배 토큰 속도 향상을 제공해, 코딩 작업의 속도·비용 부담을 줄여줘.
2026년 코딩의 핵심 KPI는 “코드 한 줄을 얼마나 잘 생성하느냐”가 아니야. “작성→실행→테스트→디버깅→리그레션”까지 끝내는가가 진짜 기준이야.
4. OSWorld-Verified 75.0%: 코딩 + 에이전트 결합의 의미
코딩 성능을 얘기할 때 OSWorld-Verified를 빼놓을 수 없어. 이건 “코딩 벤치”가 아니라 “컴퓨터 사용 벤치”인데, 코딩과 깊이 연결돼 있거든.
| 모델 | OSWorld-Verified |
|---|---|
| GPT-5.4 | 75.0% |
| GPT-5.2 | 47.3% |
| 인간 평균 | 72.4% |
OSWorld는 화면을 해석하고, 조작해서, 목표를 달성하는 성공률을 측정해. 개발 업무로 치면, IDE를 열고 코드를 작성하고, 터미널에서 실행하고, 에러 메시지를 읽고, 다시 수정하는 전체 흐름의 성공률인 거야.
전작(47.3%)에서 75.0%로 뛴 건 거의 28%p야. OpenAI는 이 수치가 인간 평균(72.4%)을 상회한다고도 주장해.
이게 코딩에서 중요한 이유는, 현실의 개발 업무가 “코드 생성”으로 끝나지 않기 때문이야. 파일 시스템 탐색, 브라우저에서 문서 확인, 터미널 명령 실행, UI 테스트 — 이 모든 단계를 모델이 직접 해낼 수 있다는 건 개발 업무 자동화의 질이 달라졌다는 뜻이지.
WebArena-Verified에서도 67.3%를 기록해, 웹 기반 상호작용 성공률도 함께 올랐어.
5. 경쟁 모델과의 비교: 숫자만 보면 빠지는 함정
여기서 2편의 교훈을 실전에 적용해 보자.
Gemini 3.1 Pro: SWE-Bench Verified 80.6%
DeepMind가 발표한 Gemini 3.1 Pro의 SWE-Bench Verified 80.6%는 확실히 눈에 띄는 수치야. 그런데 2편에서 다뤘듯이, GPT-5.4의 SWE-Bench Pro 57.7%와는 다른 트랙이야.
| 비교 항목 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|
| 트랙 | SWE-Bench Pro | SWE-Bench Verified |
| Thinking 설정 | 공개된 조건 확인 필요 | Thinking High / Deep Think |
| 도구 구성 | computer-use + 도구 결합 | 검색 + Python + Browse |
“Gemini가 코딩에서 압도적”이라고 결론 내기 전에, 같은 트랙에서 같은 조건으로 측정했는지를 반드시 확인해야 해. 두 회사가 동일 하네스를 사용했다는 보장이 없거든.
Claude Opus 4.6: 장기 에이전트 포지션
Anthropic의 Claude Opus 4.6은 코딩에서 다른 접근을 취해. “한 번에 코드를 잘 짜는 것”보다 장기 태스크 분해, effort 제어, 에이전트 팀을 전면에 내세워.
코딩을 “단발성 코드 생성”으로 보면 SWE-Bench 점수가 중요하지만, “수일에 걸친 복잡한 프로젝트 수행”으로 보면 장기 에이전트 안정성이 더 중요해질 수 있어. 어떤 모델이 좋은지는 코딩을 어떤 규모·기간으로 하느냐에 따라 달라지지.
6. computer-use와 코딩 워크플로 결합의 의미
GPT-5.4가 코딩에서 가지는 진짜 차별점은 computer-use와 코딩의 결합이야. 이전 모델들은 “코드를 생성”하는 게 끝이었어. 실행은 사람이 해야 했지.
GPT-5.4는 이런 흐름이 가능해:
코드 작성 → 터미널에서 실행 → 에러 확인 → 수정 → 재실행 → UI에서 결과 확인
이 전체 루프를 모델이 직접 돌릴 수 있어. 여기에 Tool Search까지 결합하면, 필요한 API 도구를 그때그때 찾아서 호출하면서 개발 워크플로를 진행하는 거지.
이게 왜 중요하냐면, 현실의 개발 업무에서 코드 작성 자체는 전체 시간의 일부에 불과하기 때문이야. 환경 설정, 디버깅, 테스트, 문서 확인이 오히려 더 많은 시간을 잡아먹지. GPT-5.4가 이 영역까지 커버한다면, SWE-Bench 점수 1~2%p 차이보다 실무 생산성 차이가 훨씬 클 수 있어.
물론 아직 완벽하지는 않아. OpenAI도 “Terminal-Bench 2.0 등 일부 터미널 작업에서는 GPT-5.3-Codex가 더 높은 항목도 있다”고 밝혔거든. 모든 코딩 작업에서 단조롭게 우위인 건 아니야.
핵심 정리
1. GDPval 83.0%(전작 70.9%)는 "전문 업무 재작업 비용 감소"로 읽어야 해
2. false claim 33% 감소, 오류 응답 18% 감소 — 확인·수정 루프가 줄어든다는 뜻
3. SWE-Bench Pro 57.7%는 점수보다 Codex 통합 + computer-use 워크플로가 핵심
4. OSWorld-Verified 75.0%(전작 47.3%)는 "코드 생성"이 아닌 "개발 완주율"의 도약
5. 경쟁 모델과의 비교는 트랙·하네스·도구 조건을 반드시 확인한 뒤에 해야 해
FAQ
Q: GDPval 83.0%라는 건 83%의 질문에 정답을 맞춘다는 뜻이야?
A. 아니, 좀 달라. GDPval은 산업 전문가와 비교해서 “이기거나 비긴 비율”이야. 즉 전문가가 내놓은 답과 비교했을 때 동등하거나 더 나은 품질의 답변을 83%의 경우에 제공했다는 뜻이지. 정답률이 아니라 “업무 품질 대비 경쟁력”에 가까운 지표야.
Q: false claim이 33% 줄었다는데, 그래도 환각이 완전히 사라진 건 아니지?
A. 맞아, 완전히 사라진 건 절대 아니야. 33% “감소”지 33%가 “남았다”는 뜻도 아니고. 여전히 AI가 자신 있게 틀린 말을 할 수 있어. 특히 RAG 환경에서는 출처를 붙여도 스팬 정합이 깨지는 환각이 구조적으로 남아 있어. 중요한 업무에서는 반드시 사람의 검증이 필요해.
Q: SWE-Bench Pro 57.7%면 10번 중 약 6번밖에 못 푼다는 건데, 충분한 거야?
A. 숫자만 보면 아쉬울 수 있어. 하지만 SWE-Bench Pro는 실제 오픈소스 프로젝트의 복잡한 이슈를 풀어내는 과제라 난이도가 상당히 높아. 그리고 GPT-5.4의 코딩 가치는 이 점수보다 computer-use와 결합한 전체 워크플로 완주율에서 나와. 코드 생성만이 아니라 실행·디버깅까지 함께 봐야 해.
Q: Gemini 3.1 Pro의 SWE-Bench Verified 80.6%가 더 높은데, Gemini가 코딩에서 더 나은 거 아냐?
A. 그렇게 단정하면 안 돼. SWE-Bench “Verified”와 “Pro”는 다른 트랙이야. 검증 방식, 채점 기준, 시도 횟수가 달라. 게다가 Gemini의 수치는 Thinking High나 Deep Think 같은 높은 설정에서 나왔을 가능성이 있어. 진짜 비교하려면 동일 트랙, 동일 하네스, 동일 도구 조건에서 측정해야 하는데 그런 비교는 아직 공개되지 않았어.
Q: Claude Opus 4.6은 코딩에서 어떤 포지션이야?
A. Claude Opus 4.6은 “단발성 코드 생성”보다 장기 태스크 분해, effort 제어, 에이전트 팀 운영에 강점을 두고 있어. 며칠에 걸친 복잡한 프로젝트나 금융·법률 같은 “틀리면 비용이 큰” 코딩 작업에서 행동 안정성을 중시하는 포지션이지. 코딩을 “장기 과제 수행”으로 보는 조직에 매력적인 선택이야.
Q: computer-use와 코딩의 결합이 실무에서 바로 쓸 만한 수준이야?
A. 점점 쓸 만해지고 있지만, 모든 시나리오에서 완벽하진 않아. OSWorld-Verified 75.0%는 인간 평균(72.4%)을 상회한다고 하지만, 25%는 여전히 실패한다는 뜻이기도 하지. 특히 동적 UI, 복잡한 인증 플로, 타이밍이 중요한 상호작용에서는 아직 불안정할 수 있어. 파괴적 액션(삭제·결제)에 대한 확인 정책을 반드시 설계해야 해.
Q: OpenAI가 GPT-5.3-Codex보다 일부 항목에서 낮다고 했는데, 그게 뭐야?
A. OpenAI가 밝힌 건, Terminal-Bench 2.0 같은 일부 터미널 특화 작업에서는 GPT-5.3-Codex가 더 높은 점수를 보인다는 거야. GPT-5.4는 “모든 코딩 과제에서 무조건 1등”이 아니라 “추론·코딩·에이전트를 하나로 통합”한 모델이거든. 특정 코딩 세부 영역에서는 전문화된 이전 모델이 더 나을 수 있어.
참고 자료 (References)
데이터 출처
| 출처 | 설명 | 링크 |
|---|---|---|
| OpenAI 발표 | GDPval, SWE-Bench Pro, OSWorld, 환각 감소 수치 | Introducing GPT-5.4 |
| DeepMind 모델 카드 | Gemini 3.1 Pro SWE-Bench Verified 수치 | Gemini 3.1 Pro 모델 카드 |
| Anthropic 발표 | Claude Opus 4.6 장기 에이전트·코딩 포지셔닝 | Claude Opus 4.6 발표 |
| RAGTruth | RAG 환각 유형화 연구 (ACL 2024) | ACL Anthology |
핵심 인용
“GPT-5.4 is the best model we’ve ever tried… It excels at creating long-horizon deliverables such as slide decks, financial models, and legal analysis.”
— Brendan Foody, Mercor“GPT-5.4 brings together the best of our recent advances in reasoning, coding, and agentic workflows into a single frontier model.”
— OpenAI
다음 편 예고
[4편] GPT-5.4 에이전트·툴·컴퓨터 사용 — 이 모델의 진짜 승부처
- Tool Search가 기업 환경에서 만드는 실질적 비용 절감
- OSWorld 75.0%가 의미하는 “에이전트 실행 모델”로의 전환
- 에이전트 실패의 8가지 유형과 운영 설계 포인트
'AI' 카테고리의 다른 글
| GPT-5.4의 1.05M 컨텍스트와 멀티모달 — 스펙 경쟁을 넘어 실효를 따지다 — GPT5.4 업무성과 경쟁모델 벤치마크 5/7 (0) | 2026.03.09 |
|---|---|
| GPT-5.4 에이전트·툴·컴퓨터 사용 — 이 모델의 진짜 승부처 — GPT5.4 업무성과 경쟁모델 벤치마크 4/7 (0) | 2026.03.09 |
| AI 모델 벤치마크 비교의 7가지 함정 — 성능 비교를 올바르게 읽는 법 — GPT5.4 업무성과 경쟁모델 벤치마크 2/7 (0) | 2026.03.09 |
| GPT-5.4 한눈에 보기 — 무엇이 바뀌었나 — GPT5.4 업무성과 경쟁모델 벤치마크 1/7 (0) | 2026.03.09 |
| GPT-5.4 특징 및 성능 비교 완전 가이드 — 시리즈 목차 (0) | 2026.03.09 |
