시리즈: 피지컬 AI 연구개발 완전 가이드 (총 9편) | 3편

데이터 인프라: 로봇 학습의 연료를 어떻게 모을까

로봇이 똑똑해지려면 경험이 필요해요. 근데 로봇 데이터는 모으기가 정말 비싸고 어렵거든요. 이 글에서는 데이터 병목을 돌파하는 3가지 축과 "대규모 사전학습 + 소량 현장 적응"이라는 새 워크플로우를 정리해 봤어요.

Summary

로봇 데이터 병목은 3축으로 빠르게 풀리고 있어: 다임베디드 통합, 분산 실세계 수집, 합성 데이터
Open X-Embodiment는 22개 로봇의 데이터를 통합해 전이 학습의 공용 언어가 됐어
DROID는 564개 실제 장면에서 데이터를 모아 "실험실 밖" 견고성을 입증했어
"대규모 사전학습 → 소량 현장 미세조정"이 사실상 표준 워크플로우로 굳어졌어

이 글의 대상

로봇 학습에 데이터가 왜 중요한지 궁금한 분
Open X-Embodiment, DROID, RoboTwin 같은 이름을 처음 듣는 분
합성 데이터가 정말 쓸모 있는지 알고 싶은 분

1. 로봇 데이터가 왜 이렇게 비쌀까

ChatGPT는 인터넷의 수십억 문서로 학습하잖아. 텍스트 데이터는 이미 넘쳐나니까. 그런데 로봇 데이터는 사정이 완전히 달라:

하드웨어가 필요해: 로봇이 직접 움직여야 데이터가 생기니까, 로봇을 사야 하고 유지해야 해
사람 손이 많이 가: 텔레오퍼레이션(원격 조종)으로 시범을 보여줘야 하는 경우가 많아
환경 편향이 커: 한 실험실에서 모은 데이터는 그 실험실의 조명, 테이블, 물체에만 최적화돼
재현이 어려워: 같은 작업이라도 환경이 바뀌면 데이터 특성이 완전히 달라져

결국 로봇 데이터는 비싸고, 편향되고, 부족한 삼중고에 시달려왔어. 그런데 최근 1년 사이에 이 병목이 눈에 띄게 풀리고 있어.

2. 데이터 병목을 뚫는 3가지 축

데이터 문제를 해결하는 접근은 크게 세 갈래야:

축	핵심 아이디어	대표 사례
다임베디드 통합	여러 로봇의 데이터를 표준 포맷으로 합침	Open X-Embodiment
분산 실세계 수집	여러 장소/사람이 현실에서 수집	DROID
합성 데이터	디지털 트윈/시뮬레이션으로 대량 생산	RoboTwin

이 세 축은 서로 대체재가 아니라 보완재야. 합성 데이터로 대규모 사전학습을 하고, 실세계 데이터로 현장에 맞게 미세조정하는 게 가장 효과적이거든.

3. Open X-Embodiment: 22개 로봇을 하나로

Open X-Embodiment는 Google DeepMind가 주도한 프로젝트로, 22개 서로 다른 로봇에서 모은 데이터를 하나의 표준 리포지토리로 통합한 거야.

규모와 구성

22개 로봇 플랫폼
527개 기술(skills)
약 16만 개 태스크
라이선스: 코드는 Apache 2.0, 데이터는 CC-BY 4.0

왜 중요할까?

단순히 크다는 게 아니야. 핵심은 cross-embodiment 전이 성능을 비교 가능하게 만들었다는 점이야. "이 로봇에서 학습한 걸 저 로봇에서도 쓸 수 있을까?"를 실험할 수 있는 공용 기준이 생긴 거지.

실제로 적은 데이터(small-data regime)에서 평균 약 50% 성능 향상을 보고했어. "데이터의 다양성이 일반화를 만든다"는 걸 숫자로 보여준 셈이야.

4. DROID: 실험실 밖으로 나간 데이터

대부분의 로봇 데이터는 실험실에서 모여. 깨끗한 테이블, 일정한 조명, 정해진 물체... 근데 실제로 로봇이 일할 현장은 그렇지 않잖아? DROID는 이 문제를 정면으로 겨냥했어.

DROID의 특징

50명의 수집자가 참여
564개 서로 다른 장면
76,000개 경로(trajectory), 총 350시간 분량
86개 태스크

진짜 가치

배경, 조명, 물체 배치가 전부 제각각인 "현실의 지저분함"을 데이터로 흡수했다는 거야. 이 덕분에 학습된 정책은 환경 변화에 훨씬 견고해져. 조명이 바뀌어도, 테이블이 달라져도, 물체 위치가 조금 달라져도 버틸 수 있게 되는 거지.

이건 곧 산업 배치에서의 실패율을 직접 줄이는 효과로 이어져.

5. RoboTwin: 가상 세계에서 데이터 대량생산

"실세계 데이터가 비싸면, 가상 세계에서 만들면 되잖아?" — 이 아이디어는 예전부터 있었지만, RoboTwin은 이걸 숫자로 입증했어.

RoboTwin의 접근

3D 생성 모델과 LLM을 결합해서 디지털 트윈 환경을 만들고, 거기서 전문가 수준의 시뮬레이션 경로를 자동 생성하는 프레임워크야. 10만 개 이상의 사전 수집 경로를 보유하고 있어.

성과 (합성 사전학습 + 소량 실데이터 미세조정)

비교	실데이터만	합성 pretrain + 실데이터 finetune
단일 팔 성공률	기준선	+70% 향상
양팔 성공률	기준선	+40% 향상

합성 데이터가 단순 보조재가 아니라 즉각적인 성능 레버리지가 될 수 있음을 보여준 거야.

단, 주의할 점

합성 데이터가 늘수록 항상 성능이 오르는 건 아니야. 디지털 트윈의 물리 정확도, 실제 센서 노이즈 반영 수준, 3D 자산의 라이선스 문제 같은 조건이 성패를 가르거든.

6. 새 표준 워크플로우: pretrain → finetune

이 3축이 결합되면서 업계에 사실상의 표준 워크플로우가 생겼어:

1단계: 대규모 사전학습 (pretrain)
  - 합성 데이터 + 다임베디드 통합 데이터로 범용 능력 확보
  - Open X-Embodiment, RoboTwin 등 활용

2단계: 소량 현장 미세조정 (finetune)
  - 실제 배치할 환경의 데이터를 소량 수집
  - LoRA 등 경량 튜닝으로 현장 적응
  - DROID 스타일의 분산 수집이 여기에 해당

이 워크플로우의 핵심 메시지는 "데이터는 더 이상 한 조직의 독점 자산이 아니라, 전이 가능한 포맷과 운영 체계가 경쟁력"이라는 거야. 데이터를 많이 가진 것보다, 데이터를 잘 합치고 빠르게 적응시키는 능력이 더 중요해진 셈이지.

핵심 정리

1. 로봇 데이터는 비싸고 편향되기 쉬워 — 가장 큰 병목이었어
2. 3축으로 병목이 풀리는 중: 다임베디드 통합 + 분산 실세계 + 합성 데이터
3. Open X-Embodiment: 22개 로봇 통합, 전이 학습의 공용 언어
4. DROID: 564개 현실 장면으로 환경 변화에 대한 견고성 확보
5. RoboTwin: 합성 pretrain으로 성공률 40~70% 향상 입증
6. "대규모 pretrain → 소량 finetune"이 새 표준 워크플로우

FAQ

Q: 로봇 데이터는 왜 텍스트/이미지 데이터처럼 인터넷에서 못 모아?

A. 텍스트는 이미 웹에 수십억 개가 있지만, 로봇 데이터는 로봇이 직접 움직여야 생겨. 하드웨어 비용, 인력, 환경 셋업이 전부 필요하거든. 그래서 합성 데이터나 분산 수집 같은 우회로가 중요해진 거야.

Q: Open X-Embodiment를 누구나 쓸 수 있어?

A. 응! 코드는 Apache 2.0, 데이터는 CC-BY 4.0 라이선스로 공개되어 있어. GitHub에서 바로 접근 가능하고, 연구나 상업 프로젝트에 재사용할 수 있어.

Q: 분산 수집이라면, 데이터 품질은 어떻게 관리해?

A. DROID의 경우 50명의 수집자가 참여했는데, 수집 가이드와 표준 캘리브레이션 절차를 제공했어. 다만 물리 하드웨어의 차이(센서 특성, 마운트 위치 등)가 완전히 제거되지는 않아서, 이건 여전히 연구 과제야.

Q: 합성 데이터와 실제 데이터의 차이(sim-to-real gap)는 어떻게 극복해?

A. RoboTwin은 합성 데이터만으로 끝내지 않고, 소량의 실데이터로 미세조정하는 2단계 전략을 써. 이렇게 하면 시뮬레이션의 물리적 오차를 현실 데이터가 보정해 줘. 그래도 디지털 트윈의 물리 정확도가 높을수록 결과가 좋아지는 건 당연하지.

Q: 앞으로 로봇 데이터 수집은 어떻게 바뀔까?

A. 세 가지 방향이야. 첫째, 전신 텔레오퍼레이션(VR 헤드셋 등으로 전신 동작 수집). CLONE 같은 프로젝트가 대표적이야. 둘째, 로봇이 현장에서 자동으로 데이터를 수집하는 "플릿 학습". Figure 03의 10Gbps mmWave 오프로드가 이 방향이야. 셋째, NVIDIA 같은 플랫폼 기업이 합성 데이터 파이프라인을 제품화해서 제공하는 흐름.

Q: 데이터를 많이 모으면 로봇이 무조건 잘하게 돼?

A. "조건부로 그렇다"에 가까워. 양만 늘리면 안 되고, 다양성이 핵심이야. 한 실험실에서 백만 개를 모으는 것보다, 564개 서로 다른 장면에서 7만 6천 개를 모으는 게 일반화에 더 도움이 돼. DROID가 정확히 이걸 보여줬지.

참고 자료 (References)

데이터 출처

출처	설명	링크
Open X-Embodiment	22개 로봇, 527 skills, ~160k tasks	arXiv
DROID	76k 경로, 564 장면, 분산 수집	arXiv
RoboTwin	합성 데이터 기반 성능 향상	arXiv
BEHAVIOR Challenge	10,000 teleop 경로, ~1,200h	공식 사이트

핵심 인용

"We study how vision-language models trained on Internet-scale data can be incorporated directly into end-to-end robotic control to boost generalization and enable emergent semantic reasoning." — RT-2 논문

다음 편 예고

[4편] 정책 학습: 시뮬레이션에서 현실 세계로

휴머노이드가 넘어졌다 일어나는 법을 배운 HumanUP
교사 로봇이 학생 로봇을 훈련시키는 RTR
장기 작업에서 실패하고 다시 시도하는 법

'Tech' 카테고리의 다른 글

피지컬 AI 연구개발 완전 가이드 (총 9편) \| 5편 하드웨어와 제어: 계층적 아키텍처의 시대 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 4편 정책 학습: 시뮬레이션에서 현실 세계로 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 2편 VLA 파운데이션 모델: 로봇의 두뇌가 진화하고 있다 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 1편 피지컬 AI란 무엇인가 — 로봇이 세상을 이해하는 방법 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 소개 (0)	2026.02.20

피지컬 AI 연구개발 완전 가이드 (총 9편) | 3편 데이터 인프라: 로봇 학습의 연료를 어떻게 모을까

데이터 인프라: 로봇 학습의 연료를 어떻게 모을까

Summary

이 글의 대상

목차

1. 로봇 데이터가 왜 이렇게 비쌀까

2. 데이터 병목을 뚫는 3가지 축

3. Open X-Embodiment: 22개 로봇을 하나로

규모와 구성

왜 중요할까?

4. DROID: 실험실 밖으로 나간 데이터

DROID의 특징

진짜 가치

5. RoboTwin: 가상 세계에서 데이터 대량생산

RoboTwin의 접근

성과 (합성 사전학습 + 소량 실데이터 미세조정)

단, 주의할 점

6. 새 표준 워크플로우: pretrain → finetune

핵심 정리

FAQ

Q: 로봇 데이터는 왜 텍스트/이미지 데이터처럼 인터넷에서 못 모아?

Q: Open X-Embodiment를 누구나 쓸 수 있어?

Q: 분산 수집이라면, 데이터 품질은 어떻게 관리해?

Q: 합성 데이터와 실제 데이터의 차이(sim-to-real gap)는 어떻게 극복해?

Q: 앞으로 로봇 데이터 수집은 어떻게 바뀔까?

Q: 데이터를 많이 모으면 로봇이 무조건 잘하게 돼?

참고 자료 (References)

데이터 출처

핵심 인용

다음 편 예고

'Tech' 카테고리의 다른 글

티스토리툴바