AI 로보틱스 & Embodied AI — 물리 세계의 지능 → Foundation Models & VLA

로봇 Foundation Models

1 / 15

왜 왜 로봇에도 Foundation Model이 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다. 전통적인 로봇 AI는 "하나의 태스크, 하나의 모델"이라는 한계에 갇혀 있었습니다. 컵을 집는 로봇, 서랍을 여는 로봇, 물건을 분류하는 로봇 — 각각 별도의 모델을 처음부터 학습시켜야 했습니다. 이것은 NLP에서 감성분석, 번역, 요약마다 각각 별도의 모델을 만들던 2017년의 상황과 놀랍도록 닮아 있습니다. NLP에서 GPT, BERT 같은 Foundation Model 이 등장하자 "하나의 사전학습 모델 \to 다양한 태스크에 fine-tuning"이라는 패러다임이 확립되었습니다. 이 혁명이 로봇에도 가능할까요? 로봇은 NLP보다 훨씬 더 어렵습니다. 첫째, 데이터가 압도적으로 부족합니다 — GPT-3의 학습 데이터는 수천억 토큰이지만 로봇 조작 데이터는 수십만 에피소드가 전부입니다. 둘째, 물리적 세계는 텍스트보다 다양하고 예측 불가능 합니다. 셋째, 로봇 하드웨어가 제각각이라 하나의 모델이 모든 로봇에서 작동하기 어렵습니다. 이번 레슨에서는 이 도전을 돌파한 RT-1, RT-2, Octo, 그리고 최신 π₀까지의 여정을 따라갑니다.

0:00

1:56

🎓 강의 스크립트

여러분, 지금까지 배운 로봇 제어와 학습은 모두 "하나의 태스크, 하나의 모델"이라는 틀 안에 있었습니다.

화면 왼쪽 빨간색 상자를 보세요.

컵을 집는 로봇, 서랍을 여는 로봇, 물건을 분류하는 로봇 — 각각 별도의 모델을 처음부터 학습시켜야 했어요.

태스크 하나당 수만 개의 에피소드 데이터가 필요했습니다.

가운데 파란색 상자를 보면, 파운데이션 모델 방식은 완전히 다릅니다.

대규모 데이터로 한 번 사전학습하고, 소량의 파인튜닝만으로 여러 태스크에 적응하는 거예요.

수백 개의 에피소드만으로 새로운 태스크를 배울 수 있습니다.

오른쪽 초록색 상자를 보세요. 이 접근법은 에엔엘피와 시브이에서 이미 검증되었습니다.

버트는 2018년에, 지피티-3는 2020년에 대규모 사전학습의 위력을 증명했어요.

비전 트랜스포머와 클립도 같은 패러다임으로 시각 인공지능을 혁신했습니다.

하단 테이블을 보시면, 전통 방식과 파운데이션 모델의 차이가 극명합니다.

데이터 효율에서 태스크당 5만 에피소드 대 100에서 500 에피소드, 100배 차이가 납니다.

새 태스크 적응은 수주 대 수시간이에요.

일반화 능력도 학습된 태스크에 한정 대 제로샷으로 새 물체까지 대응합니다.

가운데 강조 상자를 보세요. 핵심은 스케일링과 범용 지식입니다.

이것이 로봇 지능의 새로운 패러다임이에요.

에엔엘피에서 인터넷 텍스트가 무한했듯이, 로봇에도 비슷한 데이터 혁명이 필요합니다.

다만 로봇 데이터는 물리적으로 수집해야 한다는 근본적 차이가 있어요.

이 도전을 어떻게 극복하는지, 다음 블록에서 구체적으로 살펴봅시다.

파운데이션 모델이 로봇에도 혁명을 일으킬 수 있을지, 함께 알아보겠습니다.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

로봇 AI 정리로봇 모방학습robot manipulation 과제

비전공/입문자

Embodied AI란로봇 AI 입문

취준생

로봇 AI 취업robotics 포트폴리오

직장인

로봇 자동화산업용 로봇 AI

대학원생/연구자

VLA 모델 논문robot foundation modelsim-to-real

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비