시리즈: 클로드 코드 서브에이전트 완전정복 (총 9편) | 7편

서브에이전트 운영의 7가지 실패 모드와 예방법

서브에이전트를 도입했는데 환각이 터지고, 비용이 폭증하고, 보안 사고까지 났다면 운영 설계가 빠진 거예요. 이 글에서는 실전에서 반복되는 7가지 실패 모드를 시그널 감지법과 통제 수단까지 짚어 드리고, 사전에 예방하는 6가지 운영 원칙도 정리해 드려요.

Summary

서브에이전트 운영에서 반복적으로 나타나는 실패 모드는 크게 7가지로 분류할 수 있어요
환각과 출처 누락이 가장 흔하고, 비용 폭증과 보안 침범이 가장 치명적이에요
각 실패 모드마다 시그널(징후)과 통제 수단이 명확히 존재해요
예방 원칙 6가지를 조합하면 대부분의 실패를 사전에 차단할 수 있어요

이 글의 대상

서브에이전트를 도입했거나 도입을 준비 중인 개발자
에이전트 운영 중 예상치 못한 문제를 겪고 있는 실무자
팀에 서브에이전트를 안전하게 적용하기 위한 가이드라인이 필요한 리더

왜 실패 모드를 먼저 알아야 하는지
7가지 실패 모드 총정리 표
실패 모드 1 — 환각(Hallucination)
실패 모드 2 — 출처 누락/고스트 레퍼런스
실패 모드 3 — 중복/경합
실패 모드 4 — 컨텍스트 오염
실패 모드 5 — 비용 폭증
실패 모드 6 — 보안 경계 침범
실패 모드 7 — 검증/감사 불능
예방 운영 원칙 6가지
핵심 정리
FAQ
참고 자료 (References)
다음 편 예고

왜 실패 모드를 먼저 알아야 하는지

한 줄 요약: 서브에이전트는 자율성이 높은 만큼, 실패했을 때 파급 범위도 넓어요.

서브에이전트를 처음 쓰면 "와, 이게 알아서 다 해주네!" 하고 감탄하게 돼요. 그런데 며칠 지나면 이상한 출처가 섞여 있거나, 같은 조사를 두 에이전트가 중복으로 하거나, 토큰 비용이 급등하는 상황을 만나게 되죠.

문제는 이런 실패가 조용히 쌓인다는 거예요. 사람이 직접 작업하면 실수를 바로 알아채는데, 에이전트는 자신감 넘치는 어조로 틀린 결과를 내놓거든요. 그래서 실패 모드를 미리 알고, 시그널을 감지하는 체계를 갖추는 게 중요해요.

7가지 실패 모드 총정리 표

한 줄 요약: 발생 빈도와 치명도를 기준으로 7가지를 한눈에 비교할 수 있어요.

#	실패 모드	빈도	치명도	핵심 시그널
1	환각	높음	중간	출처 없는 주장, 재생성 시 답변 변동
2	출처 누락/고스트 레퍼런스	높음	높음	URL은 있지만 원문에 해당 내용 없음
3	중복/경합	중간	낮음	동일 쿼리 반복, 결과 충돌
4	컨텍스트 오염	중간	중간	시간 경과에 따라 결과 변동
5	비용 폭증	중간	높음	토큰 소비 급등, 예산 초과
6	보안 경계 침범	낮음	매우 높음	권한 외 도구 호출, 민감 데이터 접근
7	검증/감사 불능	높음	중간	포스트모템 불가, 재현 불가

실패 모드 1 — 환각(Hallucination)

한 줄 요약: LLM의 확률적 생성 특성과 불충분한 컨텍스트가 결합되면 "그럴듯하지만 틀린" 결과가 나와요.

환각은 에이전트가 존재하지 않는 사실을 마치 실제인 것처럼 생성하는 거예요. 서브에이전트 환경에서는 각 에이전트가 제한된 컨텍스트로 일하기 때문에 더 자주 발생해요.

시그널 감지법:

주장에 출처가 붙어 있지 않거나 모순되는 내용이 포함됨
같은 질문으로 재생성했을 때 답변이 크게 달라짐
구체적인 수치나 날짜가 포함됐지만 검증이 안 됨

통제 수단:

Writer 역할에게 "출처 없는 문장 금지" 규칙을 명시해요
Verifier 에이전트가 각 주장을 교차 검증하게 해요
출력 포맷에 claim → evidence[] 구조를 강제해요

실패 모드 2 — 출처 누락/고스트 레퍼런스

한 줄 요약: 가장 치명적인 실패예요. URL은 달려 있는데 실제 원문에는 해당 내용이 없는 "출처가 있는 척하는 문장"이거든요.

환각보다 위험한 이유가 있어요. 환각은 출처가 아예 없으니 의심이라도 하는데, 고스트 레퍼런스는 URL이 붙어 있으니까 검증을 건너뛰게 만들거든요.

시그널 감지법:

URL을 클릭해보면 404거나 전혀 다른 내용
인용 문구가 원문에 존재하지 않음
도메인은 실제 존재하지만 해당 페이지 경로가 없음

통제 수단:

Writer에게 URL과 함께 반드시 인용 스니펫(원문 발췌)을 같이 적도록 강제해요
Verifier가 URL에 실제 접속해서 원문 내용을 확인해요
자동 검사로 링크 응답코드(200인지), 도메인 허용목록(allowlist) 매칭을 돌려요

실패 모드 3 — 중복/경합

한 줄 요약: 역할 분담이 불명확하면 서로 다른 에이전트가 같은 일을 반복하거나 충돌하는 결과를 내놓아요.

예를 들어 Researcher A와 Researcher B 모두 "React vs Vue 성능 비교"를 검색하는데, 결과가 서로 다르면 Writer는 뭘 믿어야 할지 모르게 되죠.

시그널 감지법:

동일한 검색 쿼리가 로그에 여러 번 등장
서로 다른 에이전트의 결과물에 모순되는 데이터가 있음

통제 수단:

역할 정의 파일에서 조사 범위를 명확히 나눠요 (예: A는 성능, B는 생태계)
공유 결과 저장소를 두어 이미 조사된 항목은 중복 실행하지 않도록 해요
메인 에이전트가 작업 배분 시 범위를 구체적으로 지시해요

실패 모드 4 — 컨텍스트 오염

한 줄 요약: 공유 메모리나 컨텍스트 관리가 실패하면, 이전 작업의 잔여 정보가 새 작업에 영향을 줘요.

서브에이전트는 독립 컨텍스트에서 일해야 하는데, 설계를 잘못하면 이전 작업의 찌꺼기가 남아서 결과가 오염돼요. 시간이 지날수록 점점 이상해지는 게 특징이에요.

시그널 감지법:

같은 입력인데 실행 시점에 따라 결과가 달라짐
관련 없는 주제의 내용이 결과에 섞여 나옴

통제 수단:

서브에이전트는 반드시 독립 컨텍스트에서 실행해요 (Claude Code의 기본 설계이기도 해요)
공유 메모리 사용 시 read-only와 write 영역을 명확히 분리해요
장시간 운영 시 주기적으로 컨텍스트를 초기화해요

실패 모드 5 — 비용 폭증

한 줄 요약: 병렬 서브에이전트, 재시도 루프, 긴 thinking이 합쳐지면 토큰 비용이 기대치의 수~십수 배로 뛸 수 있어요.

Anthropic도 공식적으로 언급한 부분이에요. 멀티에이전트 구성은 단일 채팅 대비 토큰 소비가 크게 증가해요. 특히 "결과가 마음에 안 들면 재시도"하는 루프가 걸리면 비용이 급격히 올라가죠.

시그널 감지법:

일일/주간 토큰 사용량이 갑자기 급등
특정 역할의 에이전트가 비정상적으로 많은 턴을 소비

통제 수단:

역할별 모델 라우팅을 적용해요: 탐색 작업은 Haiku(저비용), 합성/판단은 Sonnet이나 Opus
maxTurns를 설정해서 무한 루프를 방지해요
중복 조사를 제거하고, 비용 대시보드로 실시간 모니터링해요
역할별 토큰 예산(쿼터)을 사전에 설정해요

실패 모드 6 — 보안 경계 침범

한 줄 요약: 빈도는 가장 낮지만 치명도가 가장 높아요. 권한 오용, 데이터 유출, 프롬프트 인젝션이 여기에 해당해요.

서브에이전트에게 너무 넓은 권한을 주면, 의도치 않게 민감한 파일을 읽거나 외부로 데이터를 보내는 일이 생길 수 있어요. 특히 외부 입력(사용자 데이터, 웹 콘텐츠)을 처리하는 에이전트는 프롬프트 인젝션 위험도 있죠.

시그널 감지법:

권한 외 도구 호출 시도가 로그에 기록됨
민감 경로(.env, credentials 등)에 대한 접근 요청

통제 수단:

도구 허용목록(allowlist)을 역할별로 설정해요
permissionMode를 최소 권한으로 유지해요
PreToolUse 훅으로 고위험 도구 호출 시 사람의 승인을 요구해요
민감 데이터 패턴 탐지를 자동화해요 (예: API 키 형식, 개인정보 패턴)

실패 모드 7 — 검증/감사 불능

한 줄 요약: 도구 호출과 입출력 기록이 남아 있지 않으면, 문제가 터져도 원인을 찾을 수 없어요.

운영 중 "왜 이런 결과가 나왔지?"라고 물었을 때 답할 수 없다면, 개선도 불가능하고 같은 실수가 반복돼요.

시그널 감지법:

문제 발생 후 원인 추적(포스트모템)이 불가능
동일한 입력으로 재실행해도 과정을 재현할 수 없음

통제 수단:

구조화된 로그를 남겨요: trace_id, agent_id, tool_calls, tokens
모든 서브에이전트의 입력과 출력을 기록해요
주기적으로 로그를 리뷰하는 프로세스를 만들어요

예방 운영 원칙 6가지

한 줄 요약: 개별 실패 모드에 대응하는 것보다, 6가지 운영 원칙을 체계로 갖추는 게 더 효과적이에요.

#	원칙	대응하는 실패 모드
1	출처 규율 — 모든 주장에 URL + 인용문 필수	환각, 출처 누락
2	인용 포맷 표준화 — claim → evidence[] 구조 강제	환각, 출처 누락, 검증 불능
3	리뷰 게이트 — generator → critic → revise → HITL(사람 검토)	환각, 출처 누락, 중복
4	토큰 예산/모델 라우팅 — 역할별 모델과 턴 제한	비용 폭증
5	권한 최소화 + JIT 접근 — 필요한 순간에만 필요한 권한	보안 침범
6	구조화 로그 — trace_id, agent_id, tool_calls, tokens 기록	검증/감사 불능

이 6가지를 한꺼번에 도입할 필요는 없어요. 파일럿 단계에서는 출처 규율과 리뷰 게이트부터 시작하고, 점차 나머지를 추가하면 돼요. 구체적인 도입 순서는 9편에서 다룰 거예요.

핵심 정리

1. 서브에이전트의 7가지 실패 모드: 환각, 출처 누락, 중복/경합, 컨텍스트 오염, 비용 폭증, 보안 침범, 검증 불능
2. 가장 흔한 건 환각과 출처 누락, 가장 치명적인 건 보안 침범
3. 각 실패 모드에는 감지 가능한 시그널이 있어 — 로그와 자동 검사로 잡을 수 있음
4. 예방 운영 원칙 6가지: 출처 규율, 인용 표준화, 리뷰 게이트, 토큰 예산, 권한 최소화, 구조화 로그
5. 개별 대응보다 원칙을 체계로 갖추는 게 핵심 — 파일럿에서 점진적으로 도입

FAQ

Q. 환각을 100% 막을 수 있는 방법이 있어요?

A. 솔직히 100%는 불가능해요. LLM의 본질적인 한계이기 때문이에요. 하지만 Verifier 에이전트를 두고, 출처 강제 규칙을 적용하고, 사람이 최종 검토하는 다층 방어를 하면 실무에서 문제되는 수준까지는 줄일 수 있어요.

Q. 고스트 레퍼런스는 얼마나 자주 나와요?

A. 출처 규율 없이 운영하면 생각보다 자주 나와요. URL 형식은 맞지만 실제 페이지가 없거나, 페이지는 있는데 인용한 내용이 없는 경우가 흔하죠. MIT의 ContextCite 같은 연구에서도 이 문제를 중점적으로 다루고 있어요.

Q. 비용 폭증은 어느 정도 수준이에요?

A. Anthropic의 공식 언급에 따르면 멀티에이전트 구성은 단일 채팅 대비 수~십수 배의 토큰을 소비할 수 있어요. 특히 재시도 루프가 걸리거나 병렬 에이전트가 중복 조사를 하면 비용이 급격히 올라가요. maxTurns 설정과 모델 라우팅이 필수예요.

Q. 모델 라우팅이 뭔가요?

A. 역할별로 다른 모델을 배정하는 거예요. 예를 들어 단순 탐색이나 데이터 수집은 Haiku(빠르고 저렴한 모델)로, 종합 판단이나 글쓰기는 Sonnet이나 Opus로 처리하는 거죠. 이렇게 하면 품질을 유지하면서 비용을 크게 줄일 수 있어요.

Q. 보안 침범은 실제로 발생하는 일인가요?

A. 빈도는 낮지만 실제로 발생할 수 있어요. IBM의 에이전틱 AI 보안 연구에서도 권한 오용, 데이터 유출, 프롬프트 인젝션을 주요 위험으로 꼽고 있어요. 특히 외부 입력을 처리하는 에이전트는 각별히 주의해야 해요.

Q. PreToolUse 훅은 어떻게 동작해요?

A. 에이전트가 도구를 호출하기 직전에 실행되는 스크립트예요. 예를 들어 파일 삭제 도구를 호출하려고 하면 훅이 먼저 동작해서 "이 작업을 승인하시겠습니까?"라고 사람에게 물어볼 수 있어요. 자세한 설정 방법은 8편에서 다뤄요.

Q. 구조화 로그에 꼭 들어가야 하는 필드가 있어요?

A. 최소한 trace_id(실행 추적용), agent_id(어떤 에이전트인지), tool_calls(어떤 도구를 썼는지), tokens(토큰 소비량)는 남겨야 해요. 이 네 가지만 있으면 대부분의 포스트모템이 가능해요.

Q. 7가지를 한꺼번에 다 대비해야 하나요?

A. 아니에요. 우선순위를 정해서 단계적으로 도입하는 게 현실적이에요. 파일럿 단계에서는 출처 규율과 리뷰 게이트, 그다음에 비용 관리와 로깅, 마지막으로 보안 체계를 잡는 순서를 추천해요. 자세한 로드맵은 9편에서 다뤄요.

참고 자료 (References)

데이터 출처

출처	설명	링크
Anthropic 멀티에이전트 연구 시스템	멀티에이전트 아키텍처 설계와 비용 시사점	anthropic.com
CloudZero FinOps for Claude	Claude 기반 에이전트의 비용 최적화 전략	cloudzero.com
IBM Agentic AI Security	에이전틱 AI의 보안 위험과 대응 프레임워크	ibm.com
MIT ContextCite	AI 생성 콘텐츠의 출처 신뢰성 검증 도구	news.mit.edu
Claude Code 서브에이전트 문서	서브에이전트 정의와 운영 공식 가이드	code.claude.com
Claude Code Hooks	훅 설정과 활용 공식 가이드	code.claude.com

핵심 인용

"Multi-agent systems can consume several to dozens of times the tokens compared to single-turn chat interactions."
— Anthropic 멀티에이전트 연구 핵심 시사점 요약

다음 편 예고

[8편] 구현 가이드 — 서브에이전트 정의 파일, 훅, 체크포인트 실전 설정

서브에이전트 정의 파일의 표준 구조와 frontmatter 작성법
훅의 3대 활용법: 로깅, 차단, 승인 연동
체크포인트로 안전하게 복원하는 방법과 운영 팁

'AI' 카테고리의 다른 글

클로드 코드 서브에이전트 완전정복 (총 9편) \| 9편 조직에 서브에이전트 도입하기 — 파일럿에서 거버넌스까지 로드맵 (0)	2026.02.14
클로드 코드 서브에이전트 완전정복 (총 9편) \| 8편 구현 가이드 — 서브에이전트 정의 파일, 훅, 체크포인트 실전 설정 (0)	2026.02.14
클로드 코드 서브에이전트 완전정복 (총 9편) \| 6편 ADR/RFC/설계서 작성 자동화 — 역할별 운영 템플릿과 실전 가이드 (1)	2026.02.13
클로드 코드 서브에이전트 완전정복 (총 9편) \| 5편 리서치·문서화에 서브에이전트 활용하기 — Research→Write→Verify→Approve 패턴 (0)	2026.02.13
클로드 코드 서브에이전트 완전정복 (총 9편) \| 4편 서브에이전트 설계 원리 — 좋은 프롬프트보다 좋은 경계가 중요한 이유 (0)	2026.02.13

클로드 코드 서브에이전트 완전정복 (총 9편) | 7편 서브에이전트 운영의 7가지 실패 모드와 예방법

서브에이전트 운영의 7가지 실패 모드와 예방법

Summary

이 글의 대상

목차

왜 실패 모드를 먼저 알아야 하는지

7가지 실패 모드 총정리 표

실패 모드 1 — 환각(Hallucination)

실패 모드 2 — 출처 누락/고스트 레퍼런스

실패 모드 3 — 중복/경합

실패 모드 4 — 컨텍스트 오염

실패 모드 5 — 비용 폭증

실패 모드 6 — 보안 경계 침범

실패 모드 7 — 검증/감사 불능

예방 운영 원칙 6가지

핵심 정리

FAQ

Q. 환각을 100% 막을 수 있는 방법이 있어요?

Q. 고스트 레퍼런스는 얼마나 자주 나와요?

Q. 비용 폭증은 어느 정도 수준이에요?

Q. 모델 라우팅이 뭔가요?

Q. 보안 침범은 실제로 발생하는 일인가요?

Q. PreToolUse 훅은 어떻게 동작해요?

Q. 구조화 로그에 꼭 들어가야 하는 필드가 있어요?

Q. 7가지를 한꺼번에 다 대비해야 하나요?

참고 자료 (References)

데이터 출처

핵심 인용

다음 편 예고

'AI' 카테고리의 다른 글

티스토리툴바