21. What — Model-Free RL의 샘플 효율 문제
3- Model-Free RL(PPO, SAC 등)은 환경과 직접 상호작용하며 시행착오로 학습
4- 문제: Atari 게임 하나를 학습하는 데 약 4천만 프레임 이상 필요 (Mnih et al., 2015)
5- 로봇 팔 제어에서 10만 스텝 = 수일간의 물리적 실험 → 모터 마모, 전력 소비, 안전 사고 위험
6- 반면 인간은 컵을 집는 동작을 몇 번의 시도만으로 학습 — 왜 이런 차이가 발생하는가?
72. Why — 인간에겐 세계 모델이 있다
8- 인간은 물리 법칙에 대한 내부 모델(Internal Model)을 갖고 있음
9- 실제로 행동하기 전에 "이렇게 하면 이렇게 되겠지"라고 머릿속 시뮬레이션을 수행
10- 비유: 체스 고수가 말을 옮기기 전 수십 수를 머릿속으로 두어보는 것
11- Model-Free RL에는 이 내부 모델이 없음 → 매번 실제 환경에서 부딪혀야 함
12- 핵심 통찰: 환경의 동역학 모델 \hat{T}(s', r | s, a)을 학습하면 상상 속에서 정책을 훈련할 수 있다 (Sutton, 1991)
133. How — Model-Based RL의 핵심 아이디어
14- 세계 모델(World Model): 상태 s에서 행동 a를 취했을 때 다음 상태 s'와 보상 r을 예측하는 학습된 함수
15- 학습 루프:
16 - (1) 실제 환경에서 소량의 데이터 수집
17 - (2) 수집한 데이터로 세계 모델 \hat{T} 학습
18 - (3) 세계 모델 안에서 가상 롤아웃(imagined rollout)을 대량 생성
19 - (4) 가상 데이터로 정책 \pi 업데이트
20- 효과: 실제 환경 상호작용 횟수를 10~100배 절감 (Janner et al., 2019)
214. 대표 성공 사례
22- AlphaZero (Silver et al., 2017): 게임 규칙 자체가 완벽한 모델 → MCTS로 수백만 가상 시뮬레이션 수행, 인간 챔피언 압도
23- Dreamer (Hafner et al., 2020): 이미지 관측에서 잠재 공간 세계 모델을 학습, 상상 속 궤적만으로 정책 훈련 → Atari에서 Model-Free 대비 20배 적은 샘플로 동등 성능
24- MBPO (Janner et al., 2019): 학습된 모델의 단기 롤아웃 + 실제 데이터 혼합 → MuJoCo 연속 제어에서 SAC 대비 샘플 효율 10배 이상 향상
255. Model-Free vs Model-Based 비교
26- 샘플 효율: Model-Free 낮음 / Model-Based 높음
27- 계산 비용: Model-Free 낮음 / Model-Based 높음 (모델 학습 + 가상 롤아웃)
28- 모델 오차 위험: Model-Free 없음 / Model-Based 있음 — 모델이 부정확하면 정책도 엉망
29- 적용 적합 상황: Model-Free는 시뮬레이터가 빠르고 무한 샘플 가능할 때 / Model-Based는 실제 로봇처럼 샘플 비용이 클 때
306. 핵심 트레이드오프 — 모델 오차(Model Error)
31- 학습된 모델 \hat{T}는 실제 환경 T와 항상 오차(compounding error)가 존재
32- 가상 롤아웃이 길어질수록 오차가 누적 → 정책이 현실과 동떨어진 행동 학습
33- 이를 해결하기 위한 전략이 이후 레슨의 핵심 주제:
34 - 짧은 롤아웃만 사용 (MBPO)
35 - 모델 앙상블로 불확실성 추정 (PETS, Chua et al., 2018)
36 - 잠재 공간에서 모델링 (Dreamer)