시리즈: 피지컬 AI 연구개발 완전 가이드 (총 9편) | 2편

VLA 파운데이션 모델: 로봇의 두뇌가 진화하고 있다

로봇이 "언어를 알아듣고 행동으로 옮기는" 시대가 열렸어요. VLA 모델이 어떻게 작동하고, RT-2에서 OpenVLA까지 어떤 흐름으로 진화했는지, 그리고 다음 경쟁이 어디서 벌어지는지를 정리해 봤어요.

Summary

VLA(Vision-Language-Action)가 로봇 지능의 기본 인터페이스로 자리 잡았어
RT-2는 "인터넷 지식을 로봇 행동으로" 전이하는 표준 레시피를 만들었어
OpenVLA(7B)는 폐쇄형 대형 모델(55B)을 이기며 "열린 생태계"의 힘을 증명했어
다음 경쟁은 모델 크기가 아니라 행동 생성 방식·실시간성·개방성에서 벌어져

이 글의 대상

VLA 모델이 뭔지 궁금한 분
AI 모델이 로봇을 어떻게 제어하는지 알고 싶은 분
RT-2, OpenVLA 같은 이름은 들어봤는데 차이를 모르겠는 분

1. VLA, 로봇 두뇌의 새 표준

VLA는 Vision(시각) + Language(언어) + Action(행동)을 하나로 합친 모델이야. 카메라로 본 이미지, 사람이 내린 언어 지시를 받아서 로봇이 실제로 수행할 행동을 출력하는 구조지.

예전에는 "물체 인식 모듈 → 경로 계획 모듈 → 제어 모듈"처럼 단계를 나눠서 만들었거든. VLA는 이걸 하나의 모델로 통합해서, "빨간 컵을 오른쪽 선반에 올려줘"라는 말을 듣고 바로 관절 명령을 생성하는 엔드투엔드(end-to-end) 방식이야.

최근 6~12개월 사이에 VLA가 "표준 레시피"로 굳어진 건 사실이야. 하지만 VLA = 범용 로봇은 아니야. VLA가 강한 건 개념 이해(처음 보는 물체도 알아보는 것)이고, 약한 건 고주파 접촉 제어(정밀하게 힘을 조절하는 것)와 장기 작업 계획(실패했을 때 다시 시도하는 것)이거든.

2. RT-2가 세운 기준: 웹 지식을 로봇에게

Google DeepMind의 RT-2는 VLA 시대를 연 대표 모델이야. 핵심 아이디어는 "인터넷에서 배운 시각·언어 지식을 로봇 행동에 그대로 연결하자"는 거야.

RT-2의 작동 방식

인터넷의 수십억 개 이미지-텍스트 데이터로 사전학습한 거대 모델(VLM)을 가져와
여기에 실제 로봇 데모 데이터를 섞어서 미세조정해
그러면 모델이 "행동 토큰"을 출력하고, 이걸 로봇 관절 명령으로 바꿔

이 접근의 파급력은 두 가지야:

로봇 제어가 언어 모델의 "한 모달리티"가 됐어. 텍스트, 이미지, 비디오 다음으로 "행동"이 추가된 거지.
연구의 승부처가 바뀌었어. 예전에는 "어떤 네트워크 구조를 쓸까"가 핵심이었다면, 이제는 "어떤 데이터를 어떻게 섞을까"가 더 중요해졌어.

3. OpenVLA의 반전: 작은 모델이 큰 모델을 이긴 비결

RT-2가 방향을 세웠다면, OpenVLA는 그 방향을 누구나 쓸 수 있게 만들었어.

비교 항목	RT-2-X	OpenVLA
모델 크기	55B (비공개)	7B (오픈소스)
학습 데이터	비공개	약 970k 에피소드 (공개)
29개 태스크 성공률	기준선	+16.5%p 더 높다고 보고
튜닝 가능성	제한적	소비자급 GPU에서 LoRA 튜닝 가능

7B짜리가 55B를 이겼다니 놀랍지? 비결은 모델 크기가 아니라 데이터 다양성과 열린 워크플로우에 있었어. OpenVLA는 Open X-Embodiment(22개 로봇의 통합 데이터)를 활용해서 약 97만 개의 실제 로봇 에피소드로 학습했고, 누구나 자기 환경에 맞게 미세조정할 수 있도록 코드와 모델을 전부 공개했거든.

이게 산업에 던지는 메시지는 명확해:

"최신 초거대 모델을 사오는" 것보다 자기 환경 데이터로 빠르게 튜닝하는 체계가 더 중요해
네트워크 효과는 "독점 모델"이 아니라 "데이터·튜닝 커뮤니티"에서 만들어질 수 있어

4. Diffusion Policy와 pi0: 행동을 "그리는" 방식

VLA의 기본 방식은 행동을 토큰(숫자 조각)으로 찍어내는 거야. 그런데 이 방식은 정밀한 접촉 작업에서 한계가 있어. 컵을 살살 잡거나, 천을 접거나 하는 작업처럼 가능한 행동이 여러 개인 상황에서는 표현력이 부족한 거지.

Diffusion Policy

이미지를 생성하는 Diffusion 모델을 기억해? 노이즈에서 점점 깨끗한 이미지를 만들어가는 방식. Diffusion Policy는 이걸 행동 생성에 적용한 거야. 노이즈에서 출발해서 점점 정교한 로봇 행동 경로를 만들어내지.

장점은 복잡하고 다양한 행동을 풍부하게 표현할 수 있다는 거고, 단점은 계산량이 커서 50Hz 이상 실시간 제어에 바로 쓰기 어렵다는 거야.

pi0 (Physical Intelligence)

Physical Intelligence의 pi0는 이 문제를 정면으로 공략했어. Flow matching 기반 연속 행동 생성과 FAST 토크나이저를 조합해서, 실시간성과 정밀도를 동시에 겨냥했지. openpi라는 이름으로 오픈소스 배포까지 했고, ALOHA나 DROID 같은 실제 로봇 데이터로 미세조정하는 예제도 제공했어.

5. 다음 경쟁은 어디에서?

VLA가 "기본값"이 된 지금, 다음 경쟁은 모델 크기 싸움이 아니야. 세 가지 전선에서 벌어지고 있어:

1) 행동 생성 방식: 토큰 vs 연속 생성(Flow/Diffusion). 정밀 접촉 작업이 늘어날수록 연속 생성 방식이 유리해질 수 있어.

2) 실시간 추론: 모델이 아무리 좋아도 느리면 쓸 수 없어. 로봇은 밀리초 단위로 반응해야 하거든. 그래서 엣지 컴퓨팅, 모델 경량화, 계층적 제어 분할이 핵심이야.

3) 개방형 생태계: OpenVLA가 보여줬듯이, 개방형 워크플로우는 커뮤니티의 개선 속도를 엄청나게 높여. 폐쇄형 대형 모델의 우위를 잠식할 수 있는 구조지.

핵심 정리

1. VLA = Vision + Language + Action, 로봇 지능의 새 표준 인터페이스
2. RT-2가 "웹 지식 → 로봇 행동" 전이 레시피를 만들었어
3. OpenVLA(7B)는 열린 생태계의 힘으로 폐쇄형 55B를 넘어섰어
4. Diffusion Policy/pi0는 정밀 접촉을 위한 연속 행동 생성을 겨냥해
5. 다음 경쟁 = 행동 생성 방식 + 실시간성 + 개방형 생태계

FAQ

Q: VLA 모델은 기존 로봇 프로그래밍과 뭐가 달라?

A. 기존에는 "이 위치에서 이 각도로 집어"라고 일일이 코드로 짰어. VLA는 자연어로 "빨간 컵 옮겨줘"라고 말하면 스스로 행동을 결정해. 새로운 상황에도 적응할 수 있는 게 가장 큰 차이야.

Q: RT-2는 지금도 쓰이고 있어?

A. RT-2 자체보다는 RT-2가 만든 "웹 사전학습 + 로봇 데모 혼합"이라는 레시피가 업계 표준으로 자리 잡았어. 후속 모델들은 이 레시피를 기본으로 깔고 각자의 개선을 더하고 있지.

Q: 왜 모델 크기가 작은 OpenVLA가 더 잘해?

A. 핵심은 학습 데이터의 다양성과 접근성이야. 22개 서로 다른 로봇에서 모은 97만 개 에피소드로 학습했고, 오픈소스라서 수많은 연구자가 개선에 참여할 수 있었거든. 모델 크기보다 데이터와 커뮤니티의 힘이 더 컸던 거야.

Q: Diffusion Policy가 이미지 생성 AI랑 비슷하다고?

A. 맞아. 이미지 생성에서 "노이즈 → 깨끗한 이미지"를 만드는 것처럼, Diffusion Policy는 "노이즈 → 정교한 행동 경로"를 만들어. 덕분에 복잡한 조작(천 접기, 정밀 조립 등)에서 다양한 행동 가능성을 잘 표현할 수 있어.

Q: pi0의 openpi를 누구나 쓸 수 있어?

A. 응, GitHub에 공개되어 있어. ALOHA, DROID 같은 로봇 플랫폼용 미세조정 예제도 포함되어 있어서, 연구/실험 목적으로 쓰기 좋아. 다만 상용 안전 검증은 별도로 필요해.

Q: 앞으로 VLA 모델은 어떻게 발전할까?

A. 세 방향이야. 첫째, 정밀 접촉을 위한 연속 행동 생성. 둘째, 실시간 추론을 위한 경량화와 엣지 최적화. 셋째, 촉각·힘 같은 새로운 입력 모달리티 통합. 결국 "눈으로 보고 말 알아듣는" 수준에서 "손으로 느끼며 섬세하게 다루는" 수준으로 가는 거야.

참고 자료 (References)

데이터 출처

출처	설명	링크
RT-2	VLA 패러다임의 대표 논문	arXiv
OpenVLA	오픈소스 VLA 7B 모델	arXiv
Diffusion Policy	조건부 디노이징 기반 행동 생성	arXiv
pi0 / openpi	Flow matching 기반 연속 행동 생성	블로그

핵심 인용

"Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills." — OpenVLA 논문

다음 편 예고

[3편] 데이터 인프라: 로봇 학습의 연료를 어떻게 모을까

22개 로봇 데이터를 하나로 합친 Open X-Embodiment
실험실 밖에서 564개 장면을 모은 DROID
합성 데이터로 성공률을 70% 올린 RoboTwin

'Tech' 카테고리의 다른 글

피지컬 AI 연구개발 완전 가이드 (총 9편) \| 4편 정책 학습: 시뮬레이션에서 현실 세계로 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 3편 데이터 인프라: 로봇 학습의 연료를 어떻게 모을까 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 (총 9편) \| 1편 피지컬 AI란 무엇인가 — 로봇이 세상을 이해하는 방법 (0)	2026.02.20
피지컬 AI 연구개발 완전 가이드 소개 (0)	2026.02.20
보스턴다이내믹스 기업분석 완전 가이드 (총 9편) \| 9편 2026-2028 전망: BD의 확실한 축과 옵션 가치 (0)	2026.02.20

피지컬 AI 연구개발 완전 가이드 (총 9편) | 2편 VLA 파운데이션 모델: 로봇의 두뇌가 진화하고 있다

VLA 파운데이션 모델: 로봇의 두뇌가 진화하고 있다

Summary

이 글의 대상

목차

1. VLA, 로봇 두뇌의 새 표준

2. RT-2가 세운 기준: 웹 지식을 로봇에게

RT-2의 작동 방식

3. OpenVLA의 반전: 작은 모델이 큰 모델을 이긴 비결

4. Diffusion Policy와 pi0: 행동을 "그리는" 방식

Diffusion Policy

pi0 (Physical Intelligence)

5. 다음 경쟁은 어디에서?

핵심 정리

FAQ

Q: VLA 모델은 기존 로봇 프로그래밍과 뭐가 달라?

Q: RT-2는 지금도 쓰이고 있어?

Q: 왜 모델 크기가 작은 OpenVLA가 더 잘해?

Q: Diffusion Policy가 이미지 생성 AI랑 비슷하다고?

Q: pi0의 openpi를 누구나 쓸 수 있어?

Q: 앞으로 VLA 모델은 어떻게 발전할까?

참고 자료 (References)

데이터 출처

핵심 인용

다음 편 예고

'Tech' 카테고리의 다른 글

티스토리툴바