시리즈: GPT-5.4 특징 및 성능 비교 완전 가이드 (총 7편) | 2회
AI 모델 벤치마크 비교의 7가지 함정 — 성능 비교를 올바르게 읽는 법
“GPT-5.4가 82.7%인데 Gemini는 85.9%?” 숫자만 보면 답이 나온 것 같지만, 툴 사용 유무·Thinking 설정·하네스·블록리스트까지 비교 조건이 전혀 달랐을 수 있어. 벤치마크 점수를 곧이곧대로 믿기 전에 꼭 알아야 할 7가지 함정을 정리했어.
Summary
- 2026년 AI 벤치마크는 “점수”가 아니라 “어떤 조건에서 측정했는지”를 비교해야 해
- 같은 이름의 벤치(SWE-Bench)도 Verified/Pro 트랙에 따라 난이도·채점이 완전히 달라
- 툴 사용 유무, Thinking 설정, 하네스, 블록리스트, 측정 날짜, 토크나이저, 안전 정책까지 7가지 함정이 있어
이 글의 대상
- AI 모델 성능 비교 글을 읽을 때 “어떤 수치를 믿어야 하나” 고민하는 사람
- GPT-5.4 vs Gemini vs Claude 비교에서 올바른 판단 기준이 필요한 개발자·기획자
- 벤치마크 리더보드를 업무 의사결정에 활용하려는 팀 리더
목차
- 왜 벤치마크 비교가 이렇게 어려워졌을까
- 함정 1: 툴 사용 유무
- 함정 2: Thinking/Reasoning effort 설정
- 함정 3: 하네스(harness) 차이
- 함정 4: 블록리스트와 데이터 오염
- 함정 5: 측정 날짜와 웹 상태
- 함정 6: 토크나이저 차이
- 함정 7: 안전 정책과 거부율
- 실전 사례: SWE-Bench의 함정
- 벤치마크 해석 체크리스트
1. 왜 벤치마크 비교가 이렇게 어려워졌을까
2024년까지만 해도 “MMLU 몇 점, HumanEval 몇 점” 비교가 어느 정도 통했어. 모델이 텍스트를 읽고 답을 쓰는 게 전부였으니까. 그런데 2026년에는 상황이 완전히 달라졌어.
지금 프런티어 모델들은 웹을 검색하고, 코드를 실행하고, 화면을 클릭하고, 도구를 호출해. 모델이 “얼마나 아는가”가 아니라 “무엇을 해내는가”를 측정하는 벤치가 대세가 된 거야. 문제는, 이런 에이전트형 벤치에서는 모델 바깥의 조건(도구 구성, 실행 환경, 채점 방식)이 점수를 크게 흔든다는 거지.
OpenAI, Anthropic, DeepMind 모두 자사 벤치마크 결과를 내놓지만, 각 회사가 공개한 수치는 서로 다른 전제 위에 서 있어. 이걸 모르고 숫자만 비교하면 잘못된 결론에 도달하게 돼.
2. 함정 1: 툴 사용 유무
가장 크고 가장 자주 빠지는 함정이야.
웹 탐색, 코드 실행, 파일 접근이 허용된 상태에서 측정한 점수와 순수 모델만으로 측정한 점수는 완전히 다른 시험이야. GPT-5.4의 BrowseComp 82.7%는 웹 검색 도구를 쓸 수 있는 환경에서 나온 수치야. Toolathlon도 마찬가지로 도구 사용이 전제돼 있지.
체크 포인트: 벤치마크 수치를 볼 때 “이 점수가 tool-assisted인지, tool-free인지”를 반드시 확인해야 해. 특히 BrowseComp, OSWorld, WebArena 같은 에이전트형 벤치는 도구 없이는 아예 측정이 안 되는 구조야.
3. 함정 2: Thinking/Reasoning effort 설정
요즘 프런티어 모델은 대부분 “생각하는 시간”을 조절할 수 있어. 문제는 회사마다 이름도 다르고 수준도 다르다는 거지.
| 회사 | 설정 이름 | 단계 |
|---|---|---|
| OpenAI | Reasoning effort | none / low / medium / high / xhigh |
| Anthropic | Thinking effort | low / medium / high / max |
| DeepMind | Thinking mode | Thinking High / Deep Think |
OpenAI의 “high”와 DeepMind의 “Thinking High”가 같은 수준일까? 전혀 보장이 없어. Thinking을 최대로 올리면 점수가 크게 뛰는 벤치가 많은데, 어떤 수준에서 측정했는지 안 밝히면 비교 자체가 무의미해져.
4. 함정 3: 하네스(harness) 차이
하네스는 “벤치마크를 실행하는 환경과 채점 방식”을 뜻해. 같은 문제 세트를 쓰더라도, 하네스가 다르면 점수가 달라져.
예를 들어 Terminal-Bench라는 벤치가 있어. Anthropic은 시스템 카드에서 “하네스가 바뀌면 점수도 바뀐다”고 직접 명시했어. 실제로 Gemini 3.1 Pro의 Terminal-Bench 68.5%와 GPT-5.4의 Terminal-Bench 2.0 75.1%는 버전 자체가 다른 벤치야.
체크 포인트: 벤치마크 이름 뒤에 “2.0”, “Verified”, “Pro” 같은 수식어가 붙어 있는지 꼭 확인해. 그게 없으면 하네스 버전을 직접 물어봐야 해.
5. 함정 4: 블록리스트와 데이터 오염
웹 기반 벤치마크(BrowseComp 등)에서는 어떤 웹사이트에 접근할 수 있는지가 결과를 좌우해. 벤치마크 정답이 특정 사이트에 있는데, 그 사이트가 블록리스트에 올라가 있으면? 모델이 아무리 똑똑해도 답을 못 찾지.
데이터 오염(contamination)도 마찬가지야. 벤치마크 문제가 학습 데이터에 포함돼 있으면 실제 추론 능력이 아니라 “외운 답”을 맞추는 거잖아. OpenAI와 DeepMind 모두 이 문제를 인지하고 있고, 관련 정보를 문서에 기재하고 있어.
6. 함정 5: 측정 날짜와 웹 상태
BrowseComp처럼 실시간 웹을 탐색하는 벤치는 측정 날짜에 따라 점수가 달라져. 웹페이지가 업데이트되거나, 서버가 다운되거나, 구조가 바뀌면 같은 문제도 다른 결과가 나올 수 있어.
3월에 측정한 82.7%와 1월에 측정한 82.7%가 같은 의미가 아닐 수 있다는 거야. 동일 문제의 재현 자체가 어려운 벤치가 점점 늘고 있어서, 시점 정보 없는 수치는 참고용으로만 봐야 해.
7. 함정 6: 토크나이저 차이
“1M 토큰 컨텍스트”라고 해도, 모델마다 토크나이저가 달라서 같은 문서를 넣었을 때 실제 토큰 수가 다를 수 있어. Meta가 Llama 3에서 128K 어휘 토크나이저 개선을 강조한 것도 이 맥락이야.
영어 기준으로는 차이가 작을 수 있지만, 한국어나 다국어 환경에서는 토크나이저 효율이 크게 갈려. 같은 “1M 토큰”이라도 실제 담을 수 있는 정보량이 모델마다 다르다는 점을 기억해야 해.
8. 함정 7: 안전 정책과 거부율
모델의 안전 필터가 강하면 특정 질문에 대해 답변을 거부하는 비율이 올라가. 벤치마크에서 “정답을 몰라서” 틀린 건지, “안전 정책 때문에 답변을 거부해서” 틀린 건지는 전혀 다른 문제야.
GPT-5.4는 “High cyber capability”로 분류돼서 사이버 관련 보호가 강화됐어. Anthropic도 시스템 카드에서 안전/거부 정책을 상세히 다루고 있고. 안전 필터의 강도에 따라 특정 벤치의 완주율(답변 시도율)이 달라질 수 있으니, “안전 정책이 점수에 미치는 영향”도 체크 대상이야.
9. 실전 사례: SWE-Bench의 함정
가장 흔하게 오해되는 사례를 하나 짚어볼게.
| 모델 | 벤치마크 | 점수 |
|---|---|---|
| GPT-5.4 | SWE-Bench Pro | 57.7% |
| Gemini 3.1 Pro | SWE-Bench Verified | 80.6% |
이 표만 보면 “Gemini가 코딩에서 압도적이네”라고 결론내리기 쉬워. 그런데 잠깐:
- SWE-Bench Pro와 SWE-Bench Verified는 다른 트랙이야
- 검증 방식, 시도 횟수(single attempt vs multiple), 채점 기준이 달라
- 사용된 하네스와 도구 구성도 다를 수 있어
이름에 “SWE-Bench”가 들어간다고 같은 시험이 아닌 거야. 마치 “수능 수학”과 “수능 모의고사 수학”의 점수를 직접 비교하는 것과 비슷하지.
BrowseComp도 마찬가지야:
- GPT-5.4: 82.7% (Pro 모드에서는 89.3%)
- Gemini 3.1 Pro: 85.9%
수치는 가깝지만, 도구 구성·검색 인프라·블록리스트가 다르기 때문에 “Gemini가 3.2%p 더 높다”로 순위를 매기면 위험해.
10. 벤치마크 해석 체크리스트
벤치마크 수치를 볼 때마다 이 7가지를 체크해보자.
| # | 체크 항목 | 확인할 것 |
|---|---|---|
| 1 | 툴 사용 | tool-assisted인가, tool-free인가? |
| 2 | Thinking 설정 | 어떤 수준(low/high/max)에서 측정했나? |
| 3 | 하네스 | 벤치 버전과 실행 환경이 동일한가? |
| 4 | 블록리스트 | 웹 접근 제한이 결과에 영향 줬나? |
| 5 | 측정 날짜 | 언제 측정했고, 웹 상태가 달라졌을 수 있나? |
| 6 | 토크나이저 | “같은 토큰 수”가 같은 정보량인가? |
| 7 | 안전 정책 | 거부율이 점수에 영향을 줬나? |
이 체크리스트를 통과한 뒤에야 “A 모델이 B 모델보다 이 축에서 강하다”고 말할 수 있어. 숫자가 아니라 조건을 비교하는 게 2026년 벤치마크 읽기의 핵심이야.
핵심 정리
1. 2026년 벤치마크는 "점수 비교"가 아니라 "조건 비교"가 핵심
2. 7가지 함정: 툴, Thinking, 하네스, 블록리스트, 날짜, 토크나이저, 안전 정책
3. 같은 이름(SWE-Bench)이라도 Verified/Pro는 완전히 다른 시험
4. 에이전트형 벤치일수록 모델 바깥 조건이 점수를 좌우해
5. 체크리스트를 통과한 뒤에야 모델 간 비교에 의미가 생겨
FAQ
Q: 그러면 벤치마크 수치는 아예 무시해야 하는 거야?
A. 무시하라는 게 아니야. 다만 조건을 확인한 뒤에 참고하라는 거지. “GPT-5.4가 OSWorld-Verified 75.0%”라는 건, “computer-use 환경에서 화면 조작 성공률이 이 정도”라는 유의미한 정보야. 문제는 다른 모델의 다른 벤치 수치랑 무조건적으로 줄 세우는 것이 위험하다는 거야.
Q: SWE-Bench Verified와 SWE-Bench Pro의 차이가 정확히 뭐야?
A. SWE-Bench는 실제 오픈소스 프로젝트의 이슈를 풀어내는 벤치인데, “Verified”와 “Pro”는 검증 방식·난이도·채점 조건이 달라. 동일한 모델이라도 트랙에 따라 점수가 크게 차이 나. 때문에 Gemini의 Verified 80.6%와 GPT-5.4의 Pro 57.7%를 직접 비교하면 안 돼 — 서로 다른 시험의 점수니까.
Q: 회사들이 왜 벤치마크 조건을 통일하지 않아?
A. 각 회사가 자기 모델의 강점이 가장 잘 드러나는 조건에서 측정하고 싶어하기 때문이야. 나쁜 의도라기보다는, 에이전트형 벤치가 워낙 새롭고 표준이 없는 상태라 통일 자체가 어렵기도 해. 앞으로 독립 기관이 동일 조건 비교를 더 많이 제공하겠지만, 지금은 우리가 직접 조건을 체크하는 수밖에 없어.
Q: Thinking/Reasoning effort를 높이면 항상 점수가 올라가?
A. 대체로 그래, 하지만 항상은 아니야. Thinking을 높이면 더 깊이 추론하지만 지연(latency)이 늘어나고 비용도 올라가. 일부 간단한 과제에서는 높은 Thinking이 오히려 과도한 추론으로 이상한 답을 내기도 해. 벤치마크에서 중요한 건, 어떤 수준에서 측정했는지를 밝히지 않으면 재현도 비교도 안 된다는 점이야.
Q: 한국어 벤치마크는 어떤 상황이야?
A. 공식 벤치마크 대부분이 영어 중심이라, 한국어 성능은 직접 평가 없이는 결론을 내리기 어려운 상태야. 토크나이저 효율도 한국어에서는 모델 간 차이가 커서, 같은 “1M 토큰”이라도 담을 수 있는 한국어 텍스트 양이 다를 수 있어. 한국어 업무에 쓸 거라면 반드시 자체 PoC가 필요해.
Q: 블록리스트가 벤치마크에 미치는 영향이 정말 그렇게 커?
A. BrowseComp 같은 웹 기반 벤치에서는 결정적이야. 정답 정보가 있는 사이트에 접근이 막히면 모델이 아무리 뛰어나도 답을 찾을 수 없거든. 실제로 OpenAI와 DeepMind 모두 블록리스트 관련 정보를 문서에 기재하고 있어 — 이 변수가 무시할 수 없을 만큼 크다는 걸 양쪽 다 인정하는 셈이지.
Q: 벤치마크 대신 뭘 기준으로 모델을 선택해야 해?
A. 우리 팀이 실제로 할 업무를 기준으로 동일 조건 PoC(Proof of Concept)를 돌려보는 게 가장 정확해. 같은 데이터, 같은 도구, 같은 프롬프트로 비교해야 의미 있는 결과가 나와. 벤치마크는 “방향성”을 잡는 데 쓰고, 최종 결정은 자체 평가로 하는 게 맞아.
Q: 하네스(harness)가 정확히 뭔지 좀 더 쉽게 설명해줘.
A. “시험 환경”이라고 생각하면 돼. 같은 문제지를 써도, 시험 시간이 다르거나 오픈북인지 아닌지에 따라 점수가 달라지잖아. 하네스가 바로 그런 거야 — 벤치마크 문제를 어떤 환경에서 실행하고 어떻게 채점하는지를 정하는 틀이지. 하네스가 다르면 사실상 다른 시험이야.
참고 자료 (References)
데이터 출처
| 출처 | 설명 | 링크 |
|---|---|---|
| OpenAI 발표 | GPT-5.4 벤치마크 수치 및 비교 조건 | Introducing GPT-5.4 |
| DeepMind 모델 카드 | Gemini 3.1 Pro 벤치마크 수치 및 조건 | Gemini 3.1 Pro 모델 카드 |
| Anthropic 시스템 카드 | Claude Opus 4.6 하네스 차이 언급 | Claude Opus 4.6 시스템 카드 |
| Meta | Llama 3 오픈소스 모델 및 토크나이저 개선 | Meta Llama 3 |
핵심 인용
“GPT-5.4 brings together the best of our recent advances in reasoning, coding, and agentic workflows into a single frontier model.”
— OpenAI“Gemini 3.1 Pro is Google’s most advanced model for complex tasks… comprehend vast datasets…”
— DeepMind
다음 편 예고
[3편] GPT-5.4 추론·코딩 성능 — ‘재작업 비용’과 ‘개발 완주율’이 핵심이다
- GDPval 83.0%가 실무에서 뜻하는 것: false claim 33% 감소의 의미
- SWE-Bench Pro 57.7%와 Codex 통합의 맥락
- 경쟁 모델과의 비교 함정을 실전에 적용하는 법
'AI' 카테고리의 다른 글
| GPT-5.4 에이전트·툴·컴퓨터 사용 — 이 모델의 진짜 승부처 — GPT5.4 업무성과 경쟁모델 벤치마크 4/7 (0) | 2026.03.09 |
|---|---|
| GPT-5.4 추론·코딩 성능 — '재작업 비용'과 '개발 완주율'이 핵심이다 — GPT5.4 업무성과 경쟁모델 벤치마크 3/7 (0) | 2026.03.09 |
| GPT-5.4 한눈에 보기 — 무엇이 바뀌었나 — GPT5.4 업무성과 경쟁모델 벤치마크 1/7 (0) | 2026.03.09 |
| GPT-5.4 특징 및 성능 비교 완전 가이드 — 시리즈 목차 (0) | 2026.03.09 |
| OpenClaw AI 에이전트 완전 가이드 (총 9편) | 9편 OpenClaw 도입 전 체크리스트와 미래 관전 포인트 — 시리즈를 마무리하며 (0) | 2026.02.17 |
