이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → Foundation Models & VLA
Learn about RT-1, RT-2, RT-X, Octo, data scaling, cross-embodiment transfer, and the latest robot foundation models.
여러분, 지금까지 배운 로봇 제어와 학습은 모두 "하나의 태스크, 하나의 모델"이라는 틀 안에 있었습니다.
화면 왼쪽 빨간색 상자를 보세요.
컵을 집는 로봇, 서랍을 여는 로봇, 물건을 분류하는 로봇 — 각각 별도의 모델을 처음부터 학습시켜야 했어요.
태스크 하나당 수만 개의 에피소드 데이터가 필요했습니다.
가운데 파란색 상자를 보면, 파운데이션 모델 방식은 완전히 다릅니다.
대규모 데이터로 한 번 사전학습하고, 소량의 파인튜닝만으로 여러 태스크에 적응하는 거예요.
수백 개의 에피소드만으로 새로운 태스크를 배울 수 있습니다.
오른쪽 초록색 상자를 보세요. 이 접근법은 에엔엘피와 시브이에서 이미 검증되었습니다.
버트는 2018년에, 지피티-3는 2020년에 대규모 사전학습의 위력을 증명했어요.
비전 트랜스포머와 클립도 같은 패러다임으로 시각 인공지능을 혁신했습니다.
하단 테이블을 보시면, 전통 방식과 파운데이션 모델의 차이가 극명합니다.
데이터 효율에서 태스크당 5만 에피소드 대 100에서 500 에피소드, 100배 차이가 납니다.
새 태스크 적응은 수주 대 수시간이에요.
일반화 능력도 학습된 태스크에 한정 대 제로샷으로 새 물체까지 대응합니다.
가운데 강조 상자를 보세요. 핵심은 스케일링과 범용 지식입니다.
이것이 로봇 지능의 새로운 패러다임이에요.
에엔엘피에서 인터넷 텍스트가 무한했듯이, 로봇에도 비슷한 데이터 혁명이 필요합니다.
다만 로봇 데이터는 물리적으로 수집해야 한다는 근본적 차이가 있어요.
이 도전을 어떻게 극복하는지, 다음 블록에서 구체적으로 살펴봅시다.
파운데이션 모델이 로봇에도 혁명을 일으킬 수 있을지, 함께 알아보겠습니다.
선생님: 전통적인 로봇 에이아이에서 새로운 태스크를 추가하려면 어떤 문제가 있었을까요?
학생: 태스크마다 별도의 모델을 처음부터 학습시켜야 했어요. 데이터 수집부터 학습까지 수주가 걸리고, 태스크 간 지식 공유가 전혀 안 되었습니다.
선생님: 맞아요! 그러면 파운데이션 모델이 이 문제를 어떻게 해결하나요?
학생: 대규모 사전학습으로 범용 지식을 먼저 쌓고, 새 태스크에는 소량의 파인튜닝만 하면 됩니다. 에엔엘피에서 지피티가 모든 언어 태스크에 적응하는 것과 같은 원리에요.
선생님: 정확합니다! 하지만 로봇 파운데이션 모델에는 에엔엘피와 다른 어려움이 있어요. 어떤 걸까요?
학생: 데이터 부족이 가장 크겠죠. 텍스트는 인터넷에 넘쳐나지만, 로봇 조작 데이터는 물리적으로 수집해야 하니까요.