시리즈: 피지컬 AI 연구개발 완전 가이드 (총 9편) | 4편

정책 학습: 시뮬레이션에서 현실 세계로

로봇이 "기술"을 배우는 과정을 정책 학습이라고 해요. 시뮬레이션에서 연습하고 현실에서 적용하는 sim-to-real 파이프라인이 어디까지 왔는지, 그리고 아직 어떤 벽이 남았는지 솔직하게 정리해 봤어요.

Summary

휴머노이드가 넘어졌다 일어나는 법을 학습 정책으로 실제 수행하는 데 성공했어 (HumanUP, 6초)
실세계 온라인 학습의 핵심은 알고리즘이 아니라 리셋·안전·교정 시스템이야
"교사 로봇이 학생 로봇을 훈련시키는" RTR이 실환경 학습의 새 패러다임을 열었어
장기 작업에서의 누적 오차와 실패 복구가 다음 핵심 과제야

이 글의 대상

로봇이 어떻게 "학습"하는지 기본부터 알고 싶은 분
sim-to-real이 실제로 얼마나 되는지 궁금한 분
모방학습, 강화학습의 차이를 쉽게 이해하고 싶은 분

1. 정책 학습이란? 로봇의 "기술 습득" 방법

로봇에게 "어떤 상황에서 어떻게 행동하라"는 규칙을 정책(policy)이라고 불러. 정책 학습은 이 규칙을 데이터에서 배워나가는 과정이야.

크게 두 가지 방식이 있어:

방식	핵심 아이디어	비유
모방학습 (IL)	사람의 시범을 보고 따라 하기	요리 유튜브 보고 따라 만들기
강화학습 (RL)	시행착오를 통해 스스로 발견	게임 반복 플레이로 고수 되기

그리고 이 둘을 연결하는 중요한 파이프라인이 sim-to-real이야. 시뮬레이션(가상 세계)에서 수만 번 연습한 다음, 현실 로봇에 옮겨서 실행하는 거지. 가상에서는 넘어져도 부서지지 않으니까 마음껏 시도할 수 있거든.

2. HumanUP: 넘어졌다 일어나는 법을 배운 로봇

HumanUP은 Unitree G1 휴머노이드에서 "넘어졌다 일어나기(getting-up)"를 학습 정책으로 실제 수행한 연구야. "이게 왜 대단해?"라고 물을 수 있는데, 생각해 봐:

사람 키의 휴머노이드가 넘어지면 수십 kg의 무게가 바닥에 충돌해
일어나는 과정에서 모든 관절이 바닥과 접촉하면서 힘을 주고받아
작은 오차 하나가 관절 파손이나 다시 넘어짐으로 이어질 수 있어

성과

방식	일어나기까지 걸리는 시간
핸드크래프트(사람이 짠 모션)	약 11초
학습 정책 (HumanUP)	약 6초

시뮬레이션에서 2단계 RL 파이프라인(동작 발견 → 추적/배포)으로 학습한 뒤 실물에 옮긴 건데, 6초면 거의 두 배 빠른 거야. 이건 "학습 기반 제어가 실용 경계선에 들어왔다"는 신호로 해석돼.

다만 솔직히 한계도 있어. 반복 실험의 성공률 분포나 장기 내구성 데이터가 충분히 공개되지는 않았거든. 데모 수준에서의 성과와 수천 시간 운영 수준의 신뢰성은 아직 다른 이야기야.

3. RTR: 교사 로봇이 학생 로봇을 가르치다

실세계에서 RL을 돌리면 뭐가 문제일까? 로봇이 부서질 수 있다는 거야. 넘어지고, 충돌하고, 고장 나면 학습은 커녕 수리비만 나가잖아.

RTR(Robot-Trains-Robot)은 이 문제를 기막히게 풀었어. 교사 로봇(로봇 팔)이 학생 로봇(휴머노이드)을 물리적으로 잡아주면서 안전하게 탐색하고 배우게 하는 거야.

RTR의 구조

교사 로봇(팔) → 학생 로봇(휴머노이드)을 물리적 지지
  ├── 자동 리셋: 넘어지면 교사가 다시 세워줌
  ├── 안전 중재: 위험한 동작이면 교사가 잡아줌
  └── 목표: 최소 인간 개입으로 장기 학습 가능

이건 알고리즘의 혁신이라기보다 시스템 설계의 혁신이야. "실물 온라인 RL은 위험하다"는 오래된 문제를, 하드웨어 수준에서 안전장치를 넣어 해결한 거거든.

4. 조작 일반화: 사람이 도와주며 함께 배우기

물건을 잡고, 옮기고, 놓는 조작(manipulation) 분야에서도 재미있는 진전이 있어.

RGMP: 구조적 힌트 주기

RGMP는 기하학적 사전지식(geometric prior)을 모델에 넣어서 일반화를 높이는 접근이야. 실험에서 87% 태스크 성공률과 기존 대비 5배 데이터 효율을 보고했어. 다만 이 수치는 논문 실험 설계에 의존하고, 광범위한 독립 재현이 축적되지는 않았어. "유망하지만 검증 단계"로 보는 게 보수적이야.

RoboCopilot: 사람이 중간에 개입하며 학습

RoboCopilot은 로봇이 작업하다가 막히면 사람이 제어를 넘겨받아 교정하고, 그 교정 데이터를 학습에 반영하는 구조야. 모방학습이 "오프라인 데모 보고 배우기"를 넘어서, 실행 중 사람의 개입을 받아 점진적으로 개선하는 워크플로우로 확장된 거지.

이건 현장에서 꽤 현실적인 접근이야. 완벽한 자율보다 "사람과 함께 일하면서 점점 나아지는" 로봇이 먼저 쓸모 있을 테니까.

5. 장기 작업의 벽: 실패하고 다시 시도하기

짧은 작업(물건 집기)은 이제 꽤 잘해. 문제는 여러 단계가 이어지는 장기 작업이야. 예를 들어 "설거지를 하라"고 하면:

싱크대로 이동 → 2. 접시 집기 → 3. 세제 묻히기 → 4. 닦기 → 5. 헹구기 → 6. 건조대에 놓기

각 단계에서 작은 오차가 생기면 누적되면서 전체가 망가져. 5번째 단계쯤 가면 처음의 작은 실수가 큰 실패로 이어지는 거야.

BEHAVIOR Challenge

이 문제를 겨냥해서 BEHAVIOR Challenge가 10,000개 텔레오퍼레이션 경로, 총 약 1,200시간의 장기 가정 작업 데이터를 공개했어. 연구자들이 공통 데이터로 경쟁하면서 해결책을 찾으라는 취지지.

남은 핵심 과제

데이터가 커졌다고 자동으로 해결되는 건 아니야. 장기 작업에서 풀어야 할 핵심 세 가지:

실패 감지: "지금 잘못되고 있다"는 걸 알아채는 것
재시도 전략: 실패했을 때 어떻게 복구할지
안전하게 멈추기: 복구 불가능하면 피해 없이 정지하는 것

이 지점이 바로 다음 편에서 다룰 하드웨어/제어, 그리고 7편에서 다룰 안전 가드레일과 직접 연결돼.

핵심 정리

1. 정책 학습 = 모방학습(시범 따라하기) + 강화학습(시행착오)
2. HumanUP: 넘어지고 일어나기를 6초에 성공 (핸드크래프트 11초)
3. RTR: 교사 로봇이 학생 로봇을 물리적으로 보호하며 안전한 학습
4. 조작 일반화: 기하학적 힌트(RGMP)와 사람 개입 학습(RoboCopilot)
5. 장기 작업의 핵심 벽 = 실패 감지 + 재시도 + 안전 정지

FAQ

Q: sim-to-real 전이가 실제로 잘 돼?

A. HumanUP처럼 성공 사례가 나오고 있지만, 전이 품질은 시뮬레이션의 물리 정확도에 크게 좌우돼. 마찰, 충돌, 센서 노이즈를 시뮬레이션에서 얼마나 정확히 모사하느냐가 관건이야. 완벽하지는 않지만 점점 나아지고 있어.

Q: 모방학습과 강화학습 중 어떤 게 더 좋아?

A. 상황에 따라 달라. 모방학습은 데이터가 풍부할 때 안정적인 초기 성능을 줘. 강화학습은 탐색을 통해 더 나은 방법을 찾을 수 있지만, 시행착오 과정에서 로봇이 위험해질 수 있어. 요즘은 둘을 결합하는 게 대세야.

Q: RTR에서 교사 로봇은 뭘 하는 거야?

A. 물리적으로 휴머노이드를 잡아주는 역할이야. 넘어질 것 같으면 붙잡고, 넘어지면 다시 세워주고, 위험한 동작을 제한해. 사람이 아기 걸음마를 도와주는 것과 비슷한데, 로봇이 24시간 지치지 않고 해주는 거지.

Q: RGMP의 87% 성공률은 신뢰할 수 있어?

A. 논문 실험 조건에서의 결과라서 아직 주의가 필요해. 독립적인 다른 연구팀이 다양한 환경에서 재현한 데이터가 충분히 쌓이지 않았거든. "유망한 결과"이지만 "검증 완료"라고 하기엔 이른 단계야.

Q: 장기 작업의 누적 오차 문제는 해결 가능해?

A. 완전 해결은 아직 멀지만, 접근 방향은 세 가지야. 첫째, 계층적 계획(고수준 목표 + 저수준 행동 분리). 둘째, 실패 감지 후 자동 재시도. 셋째, 안전하게 멈추는 가드레일. 이 세 가지를 시스템적으로 조합하는 게 현재 연구의 핵심이야.

Q: 실세계 온라인 RL은 이제 실용적이야?

A. RTR 같은 시스템 보강이 전제되면 가능성이 열렸어. 하지만 산업 현장에서 대규모로 쓰려면 장비 마모, 에너지 비용, 안전 사고 리스크 같은 운영비 문제가 남아 있어. 연구 수준에서는 진전이 뚜렷하지만, 산업 배치까지는 아직 갭이 있어.

참고 자료 (References)

데이터 출처

출처	설명	링크
HumanUP	학습 기반 넘어짐 복구, 실세계 6초	arXiv
RTR	교사 로봇-학생 로봇 실세계 학습	arXiv
RGMP	기하학적 prior 기반 조작 일반화	arXiv
RoboCopilot	인간-루프 상호작용적 모방학습	arXiv

핵심 인용

"This is one of the first successful demonstrations of learned getting-up policies for human-sized humanoid robots in the real world." — HumanUP 논문

다음 편 예고

[5편] 하드웨어와 제어: 계층적 아키텍처의 시대

Figure의 S0/S1/S2 계층 제어가 뭔지
촉각 센서와 팜 카메라가 왜 핵심인지
NVIDIA Jetson Thor와 엣지 컴퓨팅의 역할

'Tech' 카테고리의 다른 글

피지컬 AI 연구개발 완전 가이드 (총 9편) \| 6편 글로벌 플레이어 지도: 미국·중국·유럽·일본·한국 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 5편 하드웨어와 제어: 계층적 아키텍처의 시대 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 3편 데이터 인프라: 로봇 학습의 연료를 어떻게 모을까 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 2편 VLA 파운데이션 모델: 로봇의 두뇌가 진화하고 있다 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 1편 피지컬 AI란 무엇인가 — 로봇이 세상을 이해하는 방법 (0)	2026.02.20

피지컬 AI 연구개발 완전 가이드 (총 9편) | 4편 정책 학습: 시뮬레이션에서 현실 세계로

정책 학습: 시뮬레이션에서 현실 세계로

Summary

이 글의 대상

목차

1. 정책 학습이란? 로봇의 "기술 습득" 방법

2. HumanUP: 넘어졌다 일어나는 법을 배운 로봇

성과

3. RTR: 교사 로봇이 학생 로봇을 가르치다

RTR의 구조

4. 조작 일반화: 사람이 도와주며 함께 배우기

RGMP: 구조적 힌트 주기

RoboCopilot: 사람이 중간에 개입하며 학습

5. 장기 작업의 벽: 실패하고 다시 시도하기

BEHAVIOR Challenge

남은 핵심 과제

핵심 정리

FAQ

Q: sim-to-real 전이가 실제로 잘 돼?

Q: 모방학습과 강화학습 중 어떤 게 더 좋아?

Q: RTR에서 교사 로봇은 뭘 하는 거야?

Q: RGMP의 87% 성공률은 신뢰할 수 있어?

Q: 장기 작업의 누적 오차 문제는 해결 가능해?

Q: 실세계 온라인 RL은 이제 실용적이야?

참고 자료 (References)

데이터 출처

핵심 인용

다음 편 예고

'Tech' 카테고리의 다른 글

티스토리툴바