이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → Foundation Models & VLA
Learn VLA architecture, RT-2, OpenVLA, π₀, action tokenization, language grounding, spatial reasoning, and the future of robot agents.
2023년, 구글 딥마인드가 공개한 영상 하나가 로봇 에이아이의 역사를 바꿉니다.
로봇에게 "서랍에서 음료수를 꺼내 코카콜라인지 확인해"라고 말하자, 로봇이 실제로 서랍을 열고 캔을 집어 라벨을 읽었습니다.
이 로봇의 핵심이 바로 브이엘에이, 비전-랭귀지-액션 모델입니다.
대규모 언어모델의 추론 능력을 시각과 행동에 연결한 통합 모델이에요.
화면 왼쪽을 보세요. 기존 접근은 인식, 계획, 제어를 별도 모듈로 설계했습니다.
물체 인식 모델, 경로 계획 알고리즘, 피아이디 제어기를 따로 만들고 이어붙이는 방식이었죠.
이 방식의 문제는 모듈 간 정보 손실이에요. 인식에서 작은 오류가 발생하면 계획 전체가 틀어집니다.
화면 오른쪽의 브이엘에이 구조를 보세요. 카메라 이미지, 언어 명령, 관절 상태가 모두 하나의 신경망으로 들어갑니다.
비전 인코더와 엘엘엠, 액션 헤드가 하나의 포워드 패스로 통합 처리해요.
"빨간 컵을 집어"라는 명령에서 인식, 경로 결정, 관절 명령 생성이 동시에 이루어지는 겁니다.
이것이 가능한 이유는 엘엘엠이 이미 보유한 세상 지식 덕분이에요.
컵이 무엇인지, 집는다는 것이 어떤 동작인지를 사전학습에서 이미 알고 있습니다.
"탁자 위의 멸종 동물을 집어"라고 하면 공룡 장난감을 집어요. 이 추론은 개별 학습으로는 절대 불가능합니다.
출력을 보면 7자유도 연속 제어 명령이 초당 3에서 5회 생성됩니다.
엑스 와이 제트 이동, 롤 피치 요 회전, 그리고 그리퍼 열림닫힘까지 7개 값이에요.
새로운 태스크를 추가할 때도 언어 명령만 바꾸면 제로샷으로 수행할 수 있습니다.
기존 방식은 새 태스크마다 인식 모델부터 제어기까지 전부 다시 설계해야 했어요.
브이엘에이는 알티투, 오픈브이엘에이, 파이제로 등 2023년부터 급속히 발전하고 있습니다.
이번 레슨에서는 각 모델의 아키텍처와 핵심 기술을 하나씩 깊이 파헤쳐 봅시다.
다음 슬라이드에서 브이엘에이의 세 가지 핵심 모듈 구조를 상세히 살펴볼게요.