이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → Foundation Models & VLA
Learn VLA architecture, RT-2, OpenVLA, π₀, action tokenization, language grounding, spatial reasoning, and the future of robot agents.
2023년, 구글 딥마인드가 공개한 영상 하나가 로봇 에이아이의 역사를 바꿉니다.
로봇에게 "서랍에서 음료수를 꺼내 코카콜라인지 확인해"라고 말하자, 로봇이 실제로 서랍을 열고 캔을 집어 라벨을 읽었습니다.
이 로봇의 핵심이 바로 브이엘에이, 비전-랭귀지-액션 모델입니다.
대규모 언어모델의 추론 능력을 시각과 행동에 연결한 통합 모델이에요.
화면 왼쪽을 보세요. 기존 접근은 인식, 계획, 제어를 별도 모듈로 설계했습니다.
물체 인식 모델, 경로 계획 알고리즘, 피아이디 제어기를 따로 만들고 이어붙이는 방식이었죠.
이 방식의 문제는 모듈 간 정보 손실이에요. 인식에서 작은 오류가 발생하면 계획 전체가 틀어집니다.
화면 오른쪽의 브이엘에이 구조를 보세요. 카메라 이미지, 언어 명령, 관절 상태가 모두 하나의 신경망으로 들어갑니다.
비전 인코더와 엘엘엠, 액션 헤드가 하나의 포워드 패스로 통합 처리해요.
"빨간 컵을 집어"라는 명령에서 인식, 경로 결정, 관절 명령 생성이 동시에 이루어지는 겁니다.
이것이 가능한 이유는 엘엘엠이 이미 보유한 세상 지식 덕분이에요.
컵이 무엇인지, 집는다는 것이 어떤 동작인지를 사전학습에서 이미 알고 있습니다.
"탁자 위의 멸종 동물을 집어"라고 하면 공룡 장난감을 집어요. 이 추론은 개별 학습으로는 절대 불가능합니다.
출력을 보면 7자유도 연속 제어 명령이 초당 3에서 5회 생성됩니다.
엑스 와이 제트 이동, 롤 피치 요 회전, 그리고 그리퍼 열림닫힘까지 7개 값이에요.
새로운 태스크를 추가할 때도 언어 명령만 바꾸면 제로샷으로 수행할 수 있습니다.
기존 방식은 새 태스크마다 인식 모델부터 제어기까지 전부 다시 설계해야 했어요.
브이엘에이는 알티투, 오픈브이엘에이, 파이제로 등 2023년부터 급속히 발전하고 있습니다.
이번 레슨에서는 각 모델의 아키텍처와 핵심 기술을 하나씩 깊이 파헤쳐 봅시다.
다음 슬라이드에서 브이엘에이의 세 가지 핵심 모듈 구조를 상세히 살펴볼게요.
선생님: 기존 로봇 시스템이 인식, 계획, 제어를 분리했을 때 가장 큰 문제는 무엇이었을까요?
학생: 모듈 간 정보 손실이요. 인식 모듈에서 작은 오류가 생기면 그게 계획 모듈로 전파되어 전체 동작이 실패할 수 있잖아요.
선생님: 맞아요! 그러면 브이엘에이가 이 문제를 어떻게 해결했을까요?
학생: 세 모듈을 하나의 신경망으로 통합해서 엔드투엔드로 학습시키니까, 정보 손실 없이 전체 최적화가 가능해진 거예요.
선생님: 정확해요. 특히 엘엘엠의 세상 지식이 로봇 행동으로 전이되는 것이 핵심이에요. 멸종 동물이 공룡이라는 추론은 분리 파이프라인으로는 절대 할 수 없죠.