VLA: 비전-언어-행동 모델 — 보고 듣고 행동하기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

로봇 AI 정리로봇 모방학습robot manipulation 과제

비전공/입문자

Embodied AI란로봇 AI 입문

취준생

로봇 AI 취업robotics 포트폴리오

직장인

로봇 자동화산업용 로봇 AI

대학원생/연구자

VLA 모델 논문robot foundation modelsim-to-real

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

VLA: 비전-언어-행동 모델 — 보고 듣고 행동하기

Learn VLA architecture, RT-2, OpenVLA, π₀, action tokenization, language grounding, spatial reasoning, and the future of robot agents.

1 / 15

언어로 로봇에게 명령하는 시대

왜 언어로 로봇에게 명령하는 시대이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

2023년, 구글 딥마인드는 놀라운 실험 결과를 발표합니다. 로봇에게 "서랍에서 음료수를 꺼내 코카콜라인지 확인하고, 맞으면 사람에게 건네줘"라고 말하자, 로봇이 서랍을 열고, 캔을 집어 라벨을 읽고, 정확히 코카콜라를 찾아 전달했습니다. 이 로봇의 핵심은 VLA(Vision-Language-Action) 모델 — 대규모 언어모델(LLM)의 추론 능력을 시각과 행동에 연결한 것입니다.

VLA는 로봇 AI의 패러다임을 완전히 바꿨습니다. 기존 접근은 인식(perception) → 계획(planning) → 제어(control)를 별도 모듈로 설계했습니다. 물체 인식 모델, 경로 계획 알고리즘, PID 제어기를 따로 만들고 이어붙였죠. 하지만 VLA는 이 모든 것을 단일 신경망이 통합 처리합니다. "빨간 컵을 집어" → 이미지에서 빨간 컵 인식 → 접근 경로 결정 → 관절 명령 생성이 하나의 forward pass로 이루어집니다. 이것이 가능한 이유는 LLM이 이미 보유한 세상 지식(world knowledge)과 추론 능력 덕분입니다.

0:00

2:19

🎓 강의 스크립트

2023년, 구글 딥마인드가 공개한 영상 하나가 로봇 에이아이의 역사를 바꿉니다.

로봇에게 "서랍에서 음료수를 꺼내 코카콜라인지 확인해"라고 말하자, 로봇이 실제로 서랍을 열고 캔을 집어 라벨을 읽었습니다.

이 로봇의 핵심이 바로 브이엘에이, 비전-랭귀지-액션 모델입니다.

대규모 언어모델의 추론 능력을 시각과 행동에 연결한 통합 모델이에요.

화면 왼쪽을 보세요. 기존 접근은 인식, 계획, 제어를 별도 모듈로 설계했습니다.

물체 인식 모델, 경로 계획 알고리즘, 피아이디 제어기를 따로 만들고 이어붙이는 방식이었죠.

이 방식의 문제는 모듈 간 정보 손실이에요. 인식에서 작은 오류가 발생하면 계획 전체가 틀어집니다.

화면 오른쪽의 브이엘에이 구조를 보세요. 카메라 이미지, 언어 명령, 관절 상태가 모두 하나의 신경망으로 들어갑니다.

비전 인코더와 엘엘엠, 액션 헤드가 하나의 포워드 패스로 통합 처리해요.

"빨간 컵을 집어"라는 명령에서 인식, 경로 결정, 관절 명령 생성이 동시에 이루어지는 겁니다.

이것이 가능한 이유는 엘엘엠이 이미 보유한 세상 지식 덕분이에요.

컵이 무엇인지, 집는다는 것이 어떤 동작인지를 사전학습에서 이미 알고 있습니다.

"탁자 위의 멸종 동물을 집어"라고 하면 공룡 장난감을 집어요. 이 추론은 개별 학습으로는 절대 불가능합니다.

출력을 보면 7자유도 연속 제어 명령이 초당 3에서 5회 생성됩니다.

엑스 와이 제트 이동, 롤 피치 요 회전, 그리고 그리퍼 열림닫힘까지 7개 값이에요.

새로운 태스크를 추가할 때도 언어 명령만 바꾸면 제로샷으로 수행할 수 있습니다.

기존 방식은 새 태스크마다 인식 모델부터 제어기까지 전부 다시 설계해야 했어요.

브이엘에이는 알티투, 오픈브이엘에이, 파이제로 등 2023년부터 급속히 발전하고 있습니다.

이번 레슨에서는 각 모델의 아키텍처와 핵심 기술을 하나씩 깊이 파헤쳐 봅시다.

다음 슬라이드에서 브이엘에이의 세 가지 핵심 모듈 구조를 상세히 살펴볼게요.

💬 강의 Q&A

0:00

0:43

🎓 강의 스크립트

선생님: 기존 로봇 시스템이 인식, 계획, 제어를 분리했을 때 가장 큰 문제는 무엇이었을까요?

학생: 모듈 간 정보 손실이요. 인식 모듈에서 작은 오류가 생기면 그게 계획 모듈로 전파되어 전체 동작이 실패할 수 있잖아요.

선생님: 맞아요! 그러면 브이엘에이가 이 문제를 어떻게 해결했을까요?

학생: 세 모듈을 하나의 신경망으로 통합해서 엔드투엔드로 학습시키니까, 정보 손실 없이 전체 최적화가 가능해진 거예요.

선생님: 정확해요. 특히 엘엘엠의 세상 지식이 로봇 행동으로 전이되는 것이 핵심이에요. 멸종 동물이 공룡이라는 추론은 분리 파이프라인으로는 절대 할 수 없죠.