로봇 모방학습 — 시범을 보고 따라하기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

로봇 AI 정리로봇 모방학습robot manipulation 과제

비전공/입문자

Embodied AI란로봇 AI 입문

취준생

로봇 AI 취업robotics 포트폴리오

직장인

로봇 자동화산업용 로봇 AI

대학원생/연구자

VLA 모델 논문robot foundation modelsim-to-real

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

로봇 모방학습 — 시범을 보고 따라하기

Behavioral cloning, DAgger, ACT, Diffusion Policy, teleoperation, few-shot IL, language-conditioned IL, and scaling trends.

1 / 15

왜 모방학습인가? — 보상 없이 시연만으로 학습

왜 왜 모방학습인가? — 보상 없이 시연만으로 학습이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

2023년, 스탠포드 연구팀은 ALOHA라는 양팔 로봇에 단 50회의 인간 시연만으로 젓가락 사용법을 가르쳤습니다. 로봇은 새우를 집어 그릇에 옮기고, 작은 블록을 정밀하게 쌓았습니다. 보상 함수를 설계하지 않았고, 물리 모델을 프로그래밍하지도 않았습니다. 오직 "사람이 하는 것을 보고 따라 하기"만으로 학습한 것입니다.

이것이 모방학습(Imitation Learning, IL)의 핵심 아이디어입니다. 강화학습이 "시행착오를 통해 보상을 최대화하라"는 접근이라면, 모방학습은 "전문가의 행동을 관찰하고 그대로 재현하라"는 접근입니다. 수학적으로 보면, 강화학습은 보상 함수 R(s,a)를 최대화하지만 모방학습은 전문가 정책 π*와의 차이를 최소화합니다.

왜 로봇공학에서 모방학습이 주목받는가? 세 가지 이유가 있습니다. 첫째, 보상 설계의 어려움. "깔끔하게 옷을 개라"라는 과제의 보상 함수를 수학적으로 정의하는 것은 극도로 어렵습니다. 둘째, 샘플 효율성. 강화학습은 수백만 번의 시행착오가 필요하지만, 모방학습은 수십~수백 회의 시연이면 충분할 수 있습니다. 실제 로봇에서 데이터를 모으는 비용을 생각하면 결정적 차이입니다. 셋째, 안전성. 전문가 시연 데이터를 먼저 학습하므로, 처음부터 극단적인 행동을 시도하는 강화학습의 위험을 피할 수 있습니다.

이번 레슨에서는 모방학습의 전체 파이프라인을 탐구합니다. 데이터를 어떻게 수집하고(텔레오퍼레이션), 가장 단순한 방법(Behavioral Cloning)의 한계를 어떻게 극복하며(DAgger, ACT), 최신 생성 모델(Diffusion Policy)이 어떻게 혁신을 가져오는지 — 모방학습이 로봇을 가르치는 가장 실용적인 방법으로 자리잡은 과정을 따라갑니다.

0:00

2:13

🎓 강의 스크립트

2023년, 스탠포드 연구팀이 알로하라는 양팔 로봇에 단 50회 인간 시연만으로 젓가락 사용법을 가르쳤습니다.

보상 함수도 없고, 물리 모델도 없이, 오직 보고 따라하기만으로 학습한 겁니다.

이것이 바로 이미테이션 러닝, 모방학습의 핵심 아이디어입니다.

그림 왼쪽을 보세요. 강화학습은 환경을 탐색하고 보상을 설계해야 합니다.

"깔끔하게 옷을 개라"라는 과제의 보상 함수를 수학적으로 정의하는 건 거의 불가능하죠.

게다가 수십만에서 수백만 번의 시행착오가 필요합니다.

반면 그림 오른쪽의 모방학습을 보세요. 전문가 시연 데이터, 즉 상태와 행동의 쌍을 수집합니다.

이 데이터로 지도학습을 수행해서 정책 파이를 전문가 정책에 근사시킵니다.

50에서 200회 시연만으로 학습이 가능하니 샘플 효율성이 압도적으로 높습니다.

그림 아래쪽 타임라인을 보면, 모방학습의 역사를 한눈에 볼 수 있습니다.

1989년 알빈이 최초로 자율주행에 비헤이비얼 클로닝을 적용했습니다.

2011년 대거 알고리즘이 등장하면서 분포 불일치 문제를 해결했고요.

2023년에는 에이시티와 알로하, 디퓨전 폴리시가 혁신적 성과를 보여줬습니다.

2024년에는 파이제로와 옥토 같은 파운데이션 모델 기반 모방학습이 등장했습니다.

가운데 강조 박스를 보세요. 알로하는 단 50회 시연으로 젓가락 조작에 성공했습니다.

보상 함수 없이, 물리 모델 없이, 관찰에서 모방으로 재현까지 완성한 겁니다.

왜 로봇공학에서 모방학습이 주목받을까요? 복잡한 조작 태스크일수록 보상 설계가 어렵기 때문입니다.

요리, 봉합, 조립처럼 손재주가 필요한 작업은 사람이 직접 보여주는 게 훨씬 효율적이에요.

결국 이미테이션 러닝은 전문가의 지식을 가장 직접적으로 전달하는 방법입니다.

이 레슨에서 비헤이비얼 클로닝부터 디퓨전 폴리시까지 모방학습의 전체 파이프라인을 하나씩 살펴보겠습니다.

💬 강의 Q&A

0:00

0:50

🎓 강의 스크립트

선생님: 강화학습에서 보상 함수 설계가 어려운 로봇 태스크의 예를 들어볼까요?

학생: 수건 접기 같은 작업이요. 어떤 상태가 잘 접은 건지 수치로 정의하기 매우 어렵습니다.

선생님: 맞아요! 그래서 모방학습이 필요한 거예요. 전문가 시연에서 직접 학습하면 보상 함수가 필요 없거든요.

학생: 그럼 모방학습은 항상 강화학습보다 좋은 건가요?

선생님: 아니에요. 전문가 수준 이상으로 향상되기 어렵고, 좋은 시연 데이터가 반드시 필요합니다.

학생: 강화학습은 탐색을 통해 전문가를 넘어설 수 있는 거군요.

선생님: 정확해요. 그래서 최근에는 모방학습으로 초기 정책을 배운 뒤 강화학습으로 미세 조정하는 하이브리드 접근도 많이 연구됩니다.