시리즈: GPT-5.4 특징 및 성능 비교 완전 가이드 (총 7편) | 4회
GPT-5.4 에이전트·툴·컴퓨터 사용 — 이 모델의 진짜 승부처
GPT-5.4가 답변만 잘하는 모델이 아니라 일을 끝내는 모델로 불리는 이유가 뭘까? OSWorld-Verified 75.0%, Tool Search 토큰 47% 절감 같은 수치를 뜯어보고, 에이전트·툴·컴퓨터 사용의 실전 성능과 주의점까지 정리했어.
Summary
- OSWorld-Verified 75.0%(전작 47.3%)로 “화면 보고 클릭까지 해내는” 성공률이 크게 뛰었어
- Tool Search로 MCP-Atlas에서 토큰 47% 절감, 정확도는 그대로 유지돼
- 에이전트 실패의 핵심은 모델 능력이 아니라 상태·확인·동기화 같은 운영 설계 쪽이야
이 글의 대상
- GPT-5.4의 에이전트 기능이 실제로 얼마나 쓸만한지 궁금한 사람
- 사내 업무 자동화나 RPA를 AI 모델로 대체하려는 개발자·기획자
- Tool Search, computer-use 같은 키워드를 처음 접한 사람
목차
- OSWorld-Verified 75.0% — “일을 끝낸다”는 게 뭔 뜻이야?
- Tool Search: 토큰 47% 절감의 비밀
- 네이티브 computer-use: 화면 읽고 클릭·입력·확인까지
- WebArena-Verified 67.3% — 웹 자동화도 된다
- 에이전트 실패의 본질: 모델이 아니라 운영 설계 문제
- 파괴적 액션과 확인 정책 — 꼭 막아야 할 것들
1. OSWorld-Verified 75.0% — “일을 끝낸다”는 게 뭔 뜻이야?
GPT-5.4 에이전트 성능을 이야기할 때 가장 먼저 나오는 숫자가 OSWorld-Verified 75.0%야. 전작 GPT-5.2의 47.3%에서 엄청난 점프를 했거든.
OSWorld는 단순히 “질문에 답하는” 벤치마크가 아니야. 화면을 해석하고, 마우스로 클릭하고, 키보드로 입력하고, 결과를 확인하는 — 그러니까 우리가 컴퓨터 앞에서 실제로 하는 작업을 모델이 얼마나 해내느냐를 측정하는 거지. OpenAI는 이 수치가 인간 평균(72.4%)을 넘었다고도 주장했어.
| 모델 | OSWorld-Verified |
|---|---|
| GPT-5.4 | 75.0% |
| GPT-5.2 | 47.3% |
| 인간 평균 | 72.4% |
이 수치가 사실이라면, GPT-5.4의 가치는 “답변을 잘한다”가 아니라 “일을 끝낸다”에 있는 거야. 보고서 작성, 데이터 입력, 사내 시스템 조작 같은 반복 업무를 실제로 완주할 수 있다는 의미거든.
2. Tool Search: 토큰 47% 절감의 비밀
기업 환경에서 AI를 쓰다 보면 도구(API, 커넥터, MCP 서버)가 점점 늘어나잖아. 문제는 이 도구들의 정의(스키마, 설명)를 매번 프롬프트에 통째로 넣어야 했다는 거야. 도구가 30개, 50개, 100개가 되면? 토큰이 폭발하고, 응답도 느려지고, 비용도 치솟지.
GPT-5.4의 Tool Search는 이 문제를 “필요할 때만 검색해서 주입하는 방식”으로 바꿔놨어. 도구 정의를 프롬프트에 상시 포함하는 대신, 모델이 필요하다고 판단하면 그때 조회해서 대화에 추가하는 거지.
OpenAI가 MCP-Atlas(250개 태스크, 36개 MCP 서버)에서 테스트한 결과는 이래:
| 항목 | Tool Search 미적용 | Tool Search 적용 |
|---|---|---|
| 토큰 사용량 | 100% (기준) | 53% (47% 절감) |
| 정확도 | 기준 | 동일 유지 |
토큰 47%를 줄이면서 정확도는 그대로라는 건, 단순한 비용 절약이 아니야. (1) 더 낮은 비용, (2) 더 빠른 응답, (3) 컨텍스트 혼잡 감소로 인한 더 높은 완주율까지 연결될 수 있거든. 도구 생태계가 크고 복잡한 조직일수록 이 효과는 더 커져.
3. 네이티브 computer-use: 화면 읽고 클릭·입력·확인까지
GPT-5.4는 네이티브 computer-use(‘computer’ tool)를 공식 지원해. 이게 뭐냐면, 모델이 스크린샷을 보고 화면 요소를 인식한 다음, 마우스 클릭이나 키보드 입력 같은 액션을 직접 수행하는 거야.
여기서 중요한 건 original 디테일 입력이야. 최대 10.24M 픽셀(또는 6000px 치수)까지 이미지를 받을 수 있어서, UI 스크린샷에서 좌표·텍스트·레이아웃을 훨씬 정밀하게 읽어. 이게 OSWorld 75.0%라는 수치의 배경이기도 하지.
실무에서 이게 의미하는 건 꽤 크거든:
- 사내 ERP/CRM 화면에서 데이터 입력·조회 자동화
- 웹 기반 업무 시스템의 반복 작업 처리
- 레거시 시스템(API 없는 환경)에서도 UI로 작업 수행
다만 동적 UI(로딩 애니메이션, 팝업)에서는 클릭 좌표가 틀리거나 타이밍을 놓치는 경우가 있어. 완벽한 해결은 아직 아니라는 점은 알아둬야 해.
4. WebArena-Verified 67.3% — 웹 자동화도 된다
computer-use가 데스크톱 작업이라면, WebArena는 웹 브라우저 환경에서의 자동화 능력을 측정하는 벤치마크야. GPT-5.4는 여기서 67.3%를 기록했어.
웹 탐색·검색·정보 수집 같은 작업을 모델이 직접 브라우저로 수행하는 건데, BrowseComp에서도 82.7%를 달성했거든. 웹에서 정보를 찾고, 비교하고, 종합하는 능력이 상당히 올라왔다는 뜻이야.
| 벤치마크 | GPT-5.4 |
|---|---|
| WebArena-Verified | 67.3% |
| BrowseComp | 82.7% |
다만 웹 기반 벤치마크는 블록리스트 업데이트, 검색 인프라 품질, 측정 시점의 웹 상태에 따라 결과가 흔들릴 수 있어. “숫자 그대로 믿기”보다는 방향성으로 읽는 게 맞아.
5. 에이전트 실패의 본질: 모델이 아니라 운영 설계 문제
여기서 냉정해질 필요가 있어. “GPT-5.4 쓰면 자동화 다 되겠지?”라고 생각하면 큰코다치거든.
현업에서 에이전트가 터지는 이유는 “모델이 멍청해서”보다 운영 설계 결함 때문인 경우가 훨씬 많아. Toolathlon 같은 연구에서 정리한 실패 유형을 보면:
| 실패 유형 | 설명 |
|---|---|
| 툴 선택 오류 | 비슷한 도구 설명을 오독해서 엉뚱한 도구 호출 |
| 권한·상태 오판 | 로그인/인증 상태 확인 없이 실행해서 API 오류 발생 |
| 계획 집착 | 초기 계획을 고수하다 외부 상태 변화(권한 만료, UI 변경)를 놓침 |
| 확인 단계 누락 | 삭제·결제 같은 위험 액션에서 사용자 확인을 건너뜀 |
| 상태 동기화 실패 | 병렬 툴 호출 후 상태 갱신이 안 맞아 후속 단계 꼬임 |
| 재시도 부재 | 네트워크/툴 오류에 대한 재시도 설계가 없어 불필요한 실패 누적 |
핵심은 이거야 — 모델 성능을 올리는 것만으로는 부족하고, “상태 관리·확인 정책·동기화·재시도” 같은 시스템 설계가 같이 따라가야 해.
6. 파괴적 액션과 확인 정책 — 꼭 막아야 할 것들
에이전트가 강력해질수록 위험도 커져. 특히 파괴적 액션 — 데이터 삭제, 결제 실행, 승인 처리 같은 되돌리기 어려운 작업 — 에서는 반드시 확인 정책을 시스템 레벨에서 강제해야 해.
OpenAI도 이 점을 명확히 권고하고 있어. “custom confirmation policies”를 설정해서, 위험한 액션은 사용자 승인 없이 실행되지 않도록 해야 한다는 거지.
실무에서 최소한 갖춰야 할 것들을 정리하면:
- 최소 권한(Least privilege): 툴/API 권한을 단계별로 쪼개고, 기본은 읽기 전용
- 확인 정책: 결제·삭제·외부 송신 같은 액션은 사용자 승인 필수
- 런타임 모니터링: 프롬프트 인젝션·권한 상승 시도를 실시간 탐지
- 감사 로그: 어떤 입력→어떤 툴 호출→어떤 결과가 나왔는지 재현 가능하게 기록
GPT-5.4는 시스템 카드에서 High cyber capability로 분류돼 있어. 이건 “위험하다”는 뜻이라기보다, 실행 능력이 커진 만큼 운영 통제를 더 강하게 설계해야 한다는 신호로 읽는 게 맞아.
핵심 정리
1. OSWorld-Verified 75.0%(전작 47.3%) — "일을 끝내는" 에이전트 성공률 대폭 상승
2. Tool Search로 MCP-Atlas 토큰 47% 절감 + 정확도 유지 → 비용·속도·완주율 동시 개선
3. 네이티브 computer-use: 화면 읽고 클릭·입력·확인까지 수행, original 디테일(10.24M 픽셀) 지원
4. 에이전트 실패의 핵심은 모델이 아니라 상태·확인·동기화 같은 운영 설계 결함
5. 파괴적 액션(삭제·결제·승인)은 반드시 확인 정책을 시스템 레벨에서 강제해야 해
FAQ
Q: OSWorld-Verified가 정확히 뭘 측정하는 건가?
A. 단순 Q&A가 아니라 “화면을 해석하고 클릭·입력·확인까지 수행해서 목표를 달성하는” 과제의 성공률이야. 우리가 컴퓨터 앞에서 실제로 하는 반복 업무를 모델이 대신 해낼 수 있는지를 보는 거지.
Q: Tool Search는 어떤 환경에서 효과가 가장 크지?
A. 도구(API, MCP 서버, 커넥터)가 많은 기업 환경일수록 효과가 커. 도구가 5개일 때보다 50개, 100개일 때 프롬프트에 상시 포함하는 비용이 훨씬 크거든. MCP-Atlas 테스트에서는 36개 MCP 서버, 250개 태스크 기준으로 토큰 47%를 줄였어.
Q: computer-use로 아무 프로그램이나 다 조작할 수 있어?
A. 원리적으로는 화면에 보이는 건 다 인식할 수 있지만, 동적 UI(로딩 애니메이션, 팝업, 드래그앤드롭)에서는 타이밍이나 좌표가 틀릴 수 있어. 아직 100% 완벽하진 않고, 정적인 폼 입력이나 클릭 위주의 작업에서 가장 안정적이야.
Q: WebArena-Verified 67.3%면 실무에서 쓸 만한 수준인가?
A. 웹 자동화의 시작점으로는 의미 있는 수치야. 다만 웹 환경은 변동이 심해서(사이트 업데이트, 레이아웃 변경) 벤치 수치 그대로 현업에 적용되진 않아. PoC로 실제 워크플로에서 테스트해보는 게 필수야.
Q: 에이전트가 실수로 중요한 데이터를 삭제하면 어떡해?
A. 그래서 확인 정책이 필수인 거야. 삭제·결제·승인 같은 파괴적 액션은 반드시 사용자 승인을 거치도록 설계해야 하고, 기본 권한은 “읽기 전용”으로 시작하는 게 안전해. 감사 로그도 필수고.
Q: GPT-5.4의 에이전트 성능이 경쟁 모델보다 확실히 좋은 건가?
A. OSWorld 수치는 인상적이지만, 경쟁 모델(Claude Opus 4.6, Gemini 3.1 Pro)도 에이전트 영역에서 강하게 치고 올라오고 있어. 벤치마크마다 툴 구성, effort 설정, 하네스가 달라서 “이게 최고다”라고 단정하긴 어려워. 실제 업무 환경에서 비교해보는 게 정확해.
Q: Toolathlon 수치도 있다던데?
A. OpenAI는 Toolathlon에서 54.6%를 보고했어. 이건 멀티스텝 도구 사용의 정확도를 측정하는 벤치마크인데, 내부 수치와 공개 벤치 재현 결과가 다를 수 있으니 참고 수준으로 보는 게 좋아.
Q: Tool Search를 안 쓰면 GPT-5.4 에이전트 비용이 많이 나오나?
A. 도구가 많은 환경에서 Tool Search 없이 정의를 다 넣으면 토큰 사용량이 거의 2배가 되는 셈이야. 거기에 272K 토큰을 넘기면 가중 과금(입력 2배, 출력 1.5배)까지 붙으니까, 비용 설계 없이 쓰면 꽤 아프지.
참고 자료 (References)
데이터 출처
| 출처 | 설명 | 링크 |
|---|---|---|
| OpenAI 공식 발표 | GPT-5.4 소개 및 성능 벤치마크 | OpenAI |
| OpenAI API 문서 | 모델 스펙·가격·컨텍스트 제한 | API Docs |
| OpenAI System Card | GPT-5.4 안전성·사이버 분류 | System Card |
| Toolathlon | 멀티스텝 에이전트 실패 유형 분류 | Toolathlon |
핵심 인용
“GPT-5.4 brings together the best of our recent advances in reasoning, coding, and agentic workflows into a single frontier model.”
— OpenAI“GPT-5.4 is the best model we’ve ever tried… It excels at creating long-horizon deliverables such as slide decks, financial models, and legal analysis.”
— Brendan Foody, Mercor
다음 편 예고
[5편] GPT-5.4의 1.05M 컨텍스트와 멀티모달 — 스펙 경쟁을 넘어 실효를 따지다
- 1.05M 토큰 컨텍스트의 실제 성능과 열화 구간
- 272K 초과 가중 과금이 만드는 “재무 설계” 문제
- MMMU-Pro 81.2%, OmniDocBench 오차 0.109의 실무적 의미
- 경쟁사(Gemini) 비전·OCR 비교
