이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → Foundation Models & VLA
Learn World Models: environment dynamics, video prediction, Dreamer, UniSim, 3D World Models, MPC planning, and Foundation World Models.
여러분, 오늘은 로봇 월드 모델에 대해 이야기합니다.
사람은 컵을 잡기 전에 머릿속으로 손의 궤적을 시뮬레이션하죠.
넘어질 것 같으면 경로를 바꾸고, 무거우면 힘을 더 줍니다.
이처럼 행동 결과를 미리 예측하는 것, 이것이 월드 모델의 핵심이에요.
그림 왼쪽을 보세요. 기존 모델 프리 강화학습 방식이 있습니다.
행동을 실행하고, 환경 반응을 받고, 정책을 갱신하는 루프를 만 번 반복해야 해요.
로봇 팔 하나의 태스크를 배우는 데 48시간이 걸리고, 하드웨어 파손 위험도 따릅니다.
이제 오른쪽의 월드 모델 방식을 보세요.
관측을 잠재 공간으로 인코딩하고, 그 안에서 다음 상태를 예측합니다.
실제 환경 없이 머릿속 시뮬레이션만으로 수천 번 연습할 수 있어요.
같은 태스크를 약 1시간 안에 학습하고, 파손 사고는 제로입니다.
하단 비교 테이블을 보시면, 샘플 효율이 10배에서 100배까지 차이가 납니다.
마치 체스 챔피언이 말을 옮기기 전에 다섯 수 앞을 내다보는 것과 같아요.
얀 르쿤은 2022년에 월드 모델을 에이지아이의 핵심 모듈로 제안했습니다.
관측에서 잠재 표현으로, 잠재 표현에서 예측으로 이어지는 구조가 동물 뇌의 전두엽 해마 상호작용과 유사하다는 근거예요.
이번 블록의 핵심 메시지는, 월드 모델이란 로봇의 상상력이라는 점입니다.
행동 전에 결과를 예측해서 안전하고 효율적인 학습을 가능하게 만듭니다.
다음 블록에서는 이 월드 모델이 구체적으로 어떻게 환경의 다이내믹스를 학습하는지 살펴보겠습니다.
선생님: 모델 프리 강화학습은 왜 로봇에 적용하기 어려울까요?
학생: 실제 환경에서 수만 번 시행착오를 해야 하는데, 로봇은 물리적으로 고장 나거나 위험할 수 있어서요.
선생님: 맞아요. 그래서 월드 모델이 어떻게 이 문제를 해결하나요?
학생: 환경의 다이내믹스를 학습해서, 머릿속 시뮬레이션으로 연습하니까 실제 시행 횟수를 크게 줄일 수 있어요.
선생님: 정확해요! 10배에서 100배까지 효율 차이가 나죠. 하지만 상상 모델이 부정확하면 문제가 생길 수 있다는 점도 기억하세요.