이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → 학습 기반 로보틱스
Behavioral cloning, DAgger, ACT, Diffusion Policy, teleoperation, few-shot IL, language-conditioned IL, and scaling trends.
2023년, 스탠포드 연구팀이 알로하라는 양팔 로봇에 단 50회 인간 시연만으로 젓가락 사용법을 가르쳤습니다.
보상 함수도 없고, 물리 모델도 없이, 오직 보고 따라하기만으로 학습한 겁니다.
이것이 바로 이미테이션 러닝, 모방학습의 핵심 아이디어입니다.
그림 왼쪽을 보세요. 강화학습은 환경을 탐색하고 보상을 설계해야 합니다.
"깔끔하게 옷을 개라"라는 과제의 보상 함수를 수학적으로 정의하는 건 거의 불가능하죠.
게다가 수십만에서 수백만 번의 시행착오가 필요합니다.
반면 그림 오른쪽의 모방학습을 보세요. 전문가 시연 데이터, 즉 상태와 행동의 쌍을 수집합니다.
이 데이터로 지도학습을 수행해서 정책 파이를 전문가 정책에 근사시킵니다.
50에서 200회 시연만으로 학습이 가능하니 샘플 효율성이 압도적으로 높습니다.
그림 아래쪽 타임라인을 보면, 모방학습의 역사를 한눈에 볼 수 있습니다.
1989년 알빈이 최초로 자율주행에 비헤이비얼 클로닝을 적용했습니다.
2011년 대거 알고리즘이 등장하면서 분포 불일치 문제를 해결했고요.
2023년에는 에이시티와 알로하, 디퓨전 폴리시가 혁신적 성과를 보여줬습니다.
2024년에는 파이제로와 옥토 같은 파운데이션 모델 기반 모방학습이 등장했습니다.
가운데 강조 박스를 보세요. 알로하는 단 50회 시연으로 젓가락 조작에 성공했습니다.
보상 함수 없이, 물리 모델 없이, 관찰에서 모방으로 재현까지 완성한 겁니다.
왜 로봇공학에서 모방학습이 주목받을까요? 복잡한 조작 태스크일수록 보상 설계가 어렵기 때문입니다.
요리, 봉합, 조립처럼 손재주가 필요한 작업은 사람이 직접 보여주는 게 훨씬 효율적이에요.
결국 이미테이션 러닝은 전문가의 지식을 가장 직접적으로 전달하는 방법입니다.
이 레슨에서 비헤이비얼 클로닝부터 디퓨전 폴리시까지 모방학습의 전체 파이프라인을 하나씩 살펴보겠습니다.
선생님: 강화학습에서 보상 함수 설계가 어려운 로봇 태스크의 예를 들어볼까요?
학생: 수건 접기 같은 작업이요. 어떤 상태가 잘 접은 건지 수치로 정의하기 매우 어렵습니다.
선생님: 맞아요! 그래서 모방학습이 필요한 거예요. 전문가 시연에서 직접 학습하면 보상 함수가 필요 없거든요.
학생: 그럼 모방학습은 항상 강화학습보다 좋은 건가요?
선생님: 아니에요. 전문가 수준 이상으로 향상되기 어렵고, 좋은 시연 데이터가 반드시 필요합니다.
학생: 강화학습은 탐색을 통해 전문가를 넘어설 수 있는 거군요.
선생님: 정확해요. 그래서 최근에는 모방학습으로 초기 정책을 배운 뒤 강화학습으로 미세 조정하는 하이브리드 접근도 많이 연구됩니다.