인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL

모델 기반 강화학습 — 세상을 시뮬레이션하며 배우기

환경 모델을 학습하여 샘플 효율적 강화학습을 달성하는 방법을 배웁니다.

1 / 20

왜 Model-Based RL인가 — 샘플 효율의 위기

21. What — Model-Free RL의 샘플 효율 문제

3- Model-Free RL(PPO, SAC 등)은 환경과 직접 상호작용하며 시행착오로 학습

4- 문제: Atari 게임 하나를 학습하는 데 약 4천만 프레임 이상 필요 (Mnih et al., 2015)

5- 로봇 팔 제어에서 10만 스텝 = 수일간의 물리적 실험 → 모터 마모, 전력 소비, 안전 사고 위험

6- 반면 인간은 컵을 집는 동작을 몇 번의 시도만으로 학습 — 왜 이런 차이가 발생하는가?

72. Why — 인간에겐 세계 모델이 있다

8- 인간은 물리 법칙에 대한 내부 모델(Internal Model)을 갖고 있음

9- 실제로 행동하기 전에 "이렇게 하면 이렇게 되겠지"라고 머릿속 시뮬레이션을 수행

10- 비유: 체스 고수가 말을 옮기기 전 수십 수를 머릿속으로 두어보는 것

11- Model-Free RL에는 이 내부 모델이 없음 → 매번 실제 환경에서 부딪혀야 함

12- 핵심 통찰: 환경의 동역학 모델 \hat{T}(s', r | s, a)을 학습하면 상상 속에서 정책을 훈련할 수 있다 (Sutton, 1991)

133. How — Model-Based RL의 핵심 아이디어

14- 세계 모델(World Model): 상태 s에서 행동 a를 취했을 때 다음 상태 s'와 보상 r을 예측하는 학습된 함수

15- 학습 루프:

16 - (1) 실제 환경에서 소량의 데이터 수집

17 - (2) 수집한 데이터로 세계 모델 \hat{T} 학습

18 - (3) 세계 모델 안에서 가상 롤아웃(imagined rollout)을 대량 생성

19 - (4) 가상 데이터로 정책 \pi 업데이트

20- 효과: 실제 환경 상호작용 횟수를 10~100배 절감 (Janner et al., 2019)

214. 대표 성공 사례

22- AlphaZero (Silver et al., 2017): 게임 규칙 자체가 완벽한 모델 → MCTS로 수백만 가상 시뮬레이션 수행, 인간 챔피언 압도

23- Dreamer (Hafner et al., 2020): 이미지 관측에서 잠재 공간 세계 모델을 학습, 상상 속 궤적만으로 정책 훈련 → Atari에서 Model-Free 대비 20배 적은 샘플로 동등 성능

24- MBPO (Janner et al., 2019): 학습된 모델의 단기 롤아웃 + 실제 데이터 혼합 → MuJoCo 연속 제어에서 SAC 대비 샘플 효율 10배 이상 향상

255. Model-Free vs Model-Based 비교

26- 샘플 효율: Model-Free 낮음 / Model-Based 높음

27- 계산 비용: Model-Free 낮음 / Model-Based 높음 (모델 학습 + 가상 롤아웃)

28- 모델 오차 위험: Model-Free 없음 / Model-Based 있음 — 모델이 부정확하면 정책도 엉망

29- 적용 적합 상황: Model-Free는 시뮬레이터가 빠르고 무한 샘플 가능할 때 / Model-Based는 실제 로봇처럼 샘플 비용이 클 때

306. 핵심 트레이드오프 — 모델 오차(Model Error)

31- 학습된 모델 \hat{T}는 실제 환경 T와 항상 오차(compounding error)가 존재

32- 가상 롤아웃이 길어질수록 오차가 누적 → 정책이 현실과 동떨어진 행동 학습

33- 이를 해결하기 위한 전략이 이후 레슨의 핵심 주제:

34 - 짧은 롤아웃만 사용 (MBPO)

35 - 모델 앙상블로 불확실성 추정 (PETS, Chua et al., 2018)

36 - 잠재 공간에서 모델링 (Dreamer)

0:00

1:41

🎓 강의 스크립트

오늘은 모델 기반 강화학습이 왜 필요한지 알아봅니다.

핵심 키워드는 바로 샘플 효율입니다.

슬라이드 왼쪽 빨간 박스를 보세요.

이게 바로 모델 프리 강화학습의 문제입니다.

피피오나 에스에이씨 같은 알고리즘이 여기 해당합니다.

이 방법들은 환경과 직접 부딪히며 배웁니다.

마치 눈 감고 길을 찾는 것과 비슷하죠.

아타리 게임 하나를 배우는 데 4천만 프레임이 필요합니다.

정말 어마어마한 양이죠.

로봇 팔의 경우엔 10만 스텝을 돌려야 합니다.

이게 며칠에 걸친 물리 실험을 뜻합니다.

슬라이드 왼쪽 아래 경고 문구를 보시면,

모터 마모, 전력 소모, 안전사고 위험까지 있습니다.

가장 치명적인 건 내부 모델이 전혀 없다는 겁니다.

그냥 무작정 해보는 거예요.

이번엔 오른쪽 초록 박스를 보세요.

인간은 어떻게 배울까요?

우리 머릿속엔 물리 법칙에 대한 모델이 있습니다.

이렇게 하면 이렇게 되겠지, 라고 상상하는 거죠.

이게 바로 머릿속 시뮬레이션입니다.

컵을 잡을 때 수만 번 실패하지 않잖아요.

몇 번의 시도만으로 바로 익힙니다.

이 차이가 바로 샘플 효율의 핵심입니다.

모델 기반 강화학습은 이 인간의 방식을 따릅니다.

환경의 모델을 학습하고 머릿속에서 시뮬레이션합니다.

그 덕에 훨씬 적은 샘플로 학습이 가능합니다.

지금까지 왜 모델 기반 접근이 필요한지 살펴봤습니다.

💬 강의 Q&A

0:00

0:30

🎓 강의 스크립트

선생님: 여기서 질문이 들어왔네요.

학생: 선생님, 내부 모델이 없다는 게 정확히 무슨 뜻인가요?

선생님: 좋은 질문이에요!

선생님: 지도 없이 미로를 매번 직접 걷는 것과 같아요.

선생님: 모델 프리는 결과를 미리 예측할 수가 없어요.

선생님: 그러니 실제로 부딪혀봐야만 정보를 얻을 수 있죠.

선생님: 반면 내부 모델이 있으면 머릿속으로 먼저 시뮬해요.

선생님: 그래서 실제 시도 횟수가 훨씬 줄어드는 거예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

모델 기반 강화학습 — 세상을 시뮬레이션하며 배우기

환경 모델을 학습하여 샘플 효율적 강화학습을 달성하는 방법을 배웁니다.

1 / 20

왜 Model-Based RL인가 — 샘플 효율의 위기

21. What — Model-Free RL의 샘플 효율 문제

3- Model-Free RL(PPO, SAC 등)은 환경과 직접 상호작용하며 시행착오로 학습

4- 문제: Atari 게임 하나를 학습하는 데 약 4천만 프레임 이상 필요 (Mnih et al., 2015)

5- 로봇 팔 제어에서 10만 스텝 = 수일간의 물리적 실험 → 모터 마모, 전력 소비, 안전 사고 위험

6- 반면 인간은 컵을 집는 동작을 몇 번의 시도만으로 학습 — 왜 이런 차이가 발생하는가?

72. Why — 인간에겐 세계 모델이 있다

8- 인간은 물리 법칙에 대한 내부 모델(Internal Model)을 갖고 있음

9- 실제로 행동하기 전에 "이렇게 하면 이렇게 되겠지"라고 머릿속 시뮬레이션을 수행

10- 비유: 체스 고수가 말을 옮기기 전 수십 수를 머릿속으로 두어보는 것

11- Model-Free RL에는 이 내부 모델이 없음 → 매번 실제 환경에서 부딪혀야 함

12- 핵심 통찰: 환경의 동역학 모델 \hat{T}(s', r | s, a)을 학습하면 상상 속에서 정책을 훈련할 수 있다 (Sutton, 1991)

133. How — Model-Based RL의 핵심 아이디어

14- 세계 모델(World Model): 상태 s에서 행동 a를 취했을 때 다음 상태 s'와 보상 r을 예측하는 학습된 함수

15- 학습 루프:

16 - (1) 실제 환경에서 소량의 데이터 수집

17 - (2) 수집한 데이터로 세계 모델 \hat{T} 학습

18 - (3) 세계 모델 안에서 가상 롤아웃(imagined rollout)을 대량 생성

19 - (4) 가상 데이터로 정책 \pi 업데이트

20- 효과: 실제 환경 상호작용 횟수를 10~100배 절감 (Janner et al., 2019)

214. 대표 성공 사례

22- AlphaZero (Silver et al., 2017): 게임 규칙 자체가 완벽한 모델 → MCTS로 수백만 가상 시뮬레이션 수행, 인간 챔피언 압도

24- MBPO (Janner et al., 2019): 학습된 모델의 단기 롤아웃 + 실제 데이터 혼합 → MuJoCo 연속 제어에서 SAC 대비 샘플 효율 10배 이상 향상

255. Model-Free vs Model-Based 비교

26- 샘플 효율: Model-Free 낮음 / Model-Based 높음

27- 계산 비용: Model-Free 낮음 / Model-Based 높음 (모델 학습 + 가상 롤아웃)

28- 모델 오차 위험: Model-Free 없음 / Model-Based 있음 — 모델이 부정확하면 정책도 엉망

29- 적용 적합 상황: Model-Free는 시뮬레이터가 빠르고 무한 샘플 가능할 때 / Model-Based는 실제 로봇처럼 샘플 비용이 클 때

306. 핵심 트레이드오프 — 모델 오차(Model Error)

31- 학습된 모델 \hat{T}는 실제 환경 T와 항상 오차(compounding error)가 존재

32- 가상 롤아웃이 길어질수록 오차가 누적 → 정책이 현실과 동떨어진 행동 학습

33- 이를 해결하기 위한 전략이 이후 레슨의 핵심 주제:

34 - 짧은 롤아웃만 사용 (MBPO)

35 - 모델 앙상블로 불확실성 추정 (PETS, Chua et al., 2018)

36 - 잠재 공간에서 모델링 (Dreamer)

0:00

1:41

🎓 강의 스크립트

오늘은 모델 기반 강화학습이 왜 필요한지 알아봅니다.

핵심 키워드는 바로 샘플 효율입니다.

슬라이드 왼쪽 빨간 박스를 보세요.

이게 바로 모델 프리 강화학습의 문제입니다.

피피오나 에스에이씨 같은 알고리즘이 여기 해당합니다.

이 방법들은 환경과 직접 부딪히며 배웁니다.

마치 눈 감고 길을 찾는 것과 비슷하죠.

아타리 게임 하나를 배우는 데 4천만 프레임이 필요합니다.

정말 어마어마한 양이죠.

로봇 팔의 경우엔 10만 스텝을 돌려야 합니다.

이게 며칠에 걸친 물리 실험을 뜻합니다.

슬라이드 왼쪽 아래 경고 문구를 보시면,

모터 마모, 전력 소모, 안전사고 위험까지 있습니다.

가장 치명적인 건 내부 모델이 전혀 없다는 겁니다.

그냥 무작정 해보는 거예요.

이번엔 오른쪽 초록 박스를 보세요.

인간은 어떻게 배울까요?

우리 머릿속엔 물리 법칙에 대한 모델이 있습니다.

이렇게 하면 이렇게 되겠지, 라고 상상하는 거죠.

이게 바로 머릿속 시뮬레이션입니다.

컵을 잡을 때 수만 번 실패하지 않잖아요.

몇 번의 시도만으로 바로 익힙니다.

이 차이가 바로 샘플 효율의 핵심입니다.

모델 기반 강화학습은 이 인간의 방식을 따릅니다.

환경의 모델을 학습하고 머릿속에서 시뮬레이션합니다.

그 덕에 훨씬 적은 샘플로 학습이 가능합니다.

지금까지 왜 모델 기반 접근이 필요한지 살펴봤습니다.

💬 강의 Q&A

0:00

0:30

🎓 강의 스크립트

선생님: 여기서 질문이 들어왔네요.

학생: 선생님, 내부 모델이 없다는 게 정확히 무슨 뜻인가요?

선생님: 좋은 질문이에요!

선생님: 지도 없이 미로를 매번 직접 걷는 것과 같아요.

선생님: 모델 프리는 결과를 미리 예측할 수가 없어요.

선생님: 그러니 실제로 부딪혀봐야만 정보를 얻을 수 있죠.

선생님: 반면 내부 모델이 있으면 머릿속으로 먼저 시뮬해요.

선생님: 그래서 실제 시도 횟수가 훨씬 줄어드는 거예요.