동적 프로그래밍 — 작은 문제로 큰 문제 풀기

정책 반복, 가치 반복, 정책 평가·개선, 비동기 DP, MC/TD 전환 동기까지 체계적으로 학습합니다.

1 / 19

동적 프로그래밍이란? — 모델을 알 때 최적 정책 찾기

동적 프로그래밍(Dynamic Programming, DP)은 MDP의 완전한 모델(전이 확률 P, 보상 R)을 알고 있을 때 최적 정책을 계산하는 방법입니다.

DP의 핵심 아이디어:

- 벨만 방정식을 반복적으로 적용하여 가치 함수를 계산

- 큰 문제를 작은 하위 문제로 분해 → 하위 문제의 해를 저장·재사용

- "계획(Planning)" 방법: 환경과 상호작용 없이 모델만으로 풀이

DP가 필요한 조건:

1. 최적 부분 구조: 최적 해가 하위 문제의 최적 해로 구성

2. 중복 하위 문제: 같은 하위 문제가 반복 등장 → 저장해서 재사용

3. 완전한 MDP 모델: P(s'|s,a)와 R(s,a,s')를 정확히 알아야 함

두 가지 핵심 알고리즘:

- 정책 반복(Policy Iteration): 평가와 개선을 번갈아 수행

- 가치 반복(Value Iteration): 평가와 개선을 한 번에 결합

DP vs 모델 프리:

- DP: 모델을 알아야 함 → 계획(Planning) → 정확한 해

- MC/TD: 모델 불필요 → 학습(Learning) → 경험 기반 근사

0:00

2:01

🎓 강의 스크립트

동적 프로그래밍, 줄여서 디피는 엠디피 모델을 완전히 알고 있을 때 최적 정책을 찾는 방법이에요.

그림 왼쪽을 보세요. 디피의 전제 조건이 나와 있어요.

전이 확률 P와 보상 함수 R을 정확히 알아야 해요.

이건 환경과 직접 상호작용하지 않고 모델만으로 푸는 계획 방법이에요.

가운데 박스를 보면 디피의 핵심 아이디어가 정리되어 있어요.

벨만 방정식을 반복적으로 적용해서 가치 함수를 수렴시키는 거예요.

큰 문제를 작은 하위 문제로 쪼개고, 해를 저장해서 재사용해요.

최적 부분 구조와 중복 하위 문제라는 두 조건이 필요한데, 엠디피는 이 조건을 자연스럽게 만족해요.

오른쪽 결과 박스를 보면, 디피의 산출물은 최적 가치 함수 V 스타와 최적 정책 파이 스타예요.

아래 보라색 박스에 두 가지 핵심 알고리즘이 나와 있어요.

폴리시 이터레이션은 정책 평가와 개선을 번갈아 수행해요. 평가를 완전히 수렴시키고 나서 개선하는 방식이에요.

밸류 이터레이션은 평가 한 번에 바로 개선해요. 반복은 많지만 각 반복이 가벼워요.

그림 하단을 보면 디피와 모델 프리 방법의 차이가 나와 있어요.

디피는 모델이 필요하지만 정확한 최적해를 구할 수 있어요.

반면 몬테카를로나 티디 학습은 경험만으로 학습하지만 근사 해를 구하는 거예요.

리처드 벨만이 1957년에 동적 프로그래밍을 제안했고, 하워드가 1960년에 폴리시 이터레이션을 정립했어요.

디피는 강화학습의 이론적 기반이에요. 엠씨와 티디는 디피를 모델 없이 근사하는 방법이라고 볼 수 있어요.

이번 레슨에서 이 두 알고리즘의 동작 원리와 차이점을 자세히 배울 거예요.

디피의 한계인 차원의 저주와 비동기 디피 같은 해결책도 함께 살펴볼게요.

그럼 먼저 폴리시 이터레이션의 전체 구조부터 알아볼게요.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

선생님: 동적 프로그래밍이 가능하려면 어떤 전제 조건이 필요한가요?

학생: 엠디피 모델을 완전히 알아야 해요. 전이 확률과 보상 함수를 모두 아는 상황이요.

선생님: 맞아요. 그런데 모델을 안다는 게 왜 그렇게 중요할까요?

학생: 모델이 있으면 환경과 직접 상호작용하지 않고도 가치를 계산할 수 있으니까요. 각 행동의 결과를 미리 알 수 있어서 계획이 가능해요.

선생님: 정확해요. 그래서 모델을 모르면 몬테카를로나 티디 같은 모델 프리 방법을 사용하는 거예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

강화학습 기말고사MDP 벨만 방정식Q-learning 정리강화학습 과제

비전공/입문자

강화학습이란강화학습 입문Q-learning 쉽게

취준생

강화학습 면접RL 프로젝트 아이디어

직장인

추천 시스템 RL강화학습 실무 적용

대학원생/연구자

PPO 논문offline RL 서베이model-based RL

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

동적 프로그래밍 — 작은 문제로 큰 문제 풀기

정책 반복, 가치 반복, 정책 평가·개선, 비동기 DP, MC/TD 전환 동기까지 체계적으로 학습합니다.

1 / 19

동적 프로그래밍이란? — 모델을 알 때 최적 정책 찾기

동적 프로그래밍(Dynamic Programming, DP)은 MDP의 완전한 모델(전이 확률 P, 보상 R)을 알고 있을 때 최적 정책을 계산하는 방법입니다.

DP의 핵심 아이디어:

- 벨만 방정식을 반복적으로 적용하여 가치 함수를 계산

- 큰 문제를 작은 하위 문제로 분해 → 하위 문제의 해를 저장·재사용

- "계획(Planning)" 방법: 환경과 상호작용 없이 모델만으로 풀이

DP가 필요한 조건:

1. 최적 부분 구조: 최적 해가 하위 문제의 최적 해로 구성

2. 중복 하위 문제: 같은 하위 문제가 반복 등장 → 저장해서 재사용

3. 완전한 MDP 모델: P(s'|s,a)와 R(s,a,s')를 정확히 알아야 함

두 가지 핵심 알고리즘:

- 정책 반복(Policy Iteration): 평가와 개선을 번갈아 수행

- 가치 반복(Value Iteration): 평가와 개선을 한 번에 결합

DP vs 모델 프리:

- DP: 모델을 알아야 함 → 계획(Planning) → 정확한 해

- MC/TD: 모델 불필요 → 학습(Learning) → 경험 기반 근사

0:00

2:01

🎓 강의 스크립트

동적 프로그래밍, 줄여서 디피는 엠디피 모델을 완전히 알고 있을 때 최적 정책을 찾는 방법이에요.

그림 왼쪽을 보세요. 디피의 전제 조건이 나와 있어요.

전이 확률 P와 보상 함수 R을 정확히 알아야 해요.

이건 환경과 직접 상호작용하지 않고 모델만으로 푸는 계획 방법이에요.

가운데 박스를 보면 디피의 핵심 아이디어가 정리되어 있어요.

벨만 방정식을 반복적으로 적용해서 가치 함수를 수렴시키는 거예요.

큰 문제를 작은 하위 문제로 쪼개고, 해를 저장해서 재사용해요.

최적 부분 구조와 중복 하위 문제라는 두 조건이 필요한데, 엠디피는 이 조건을 자연스럽게 만족해요.

오른쪽 결과 박스를 보면, 디피의 산출물은 최적 가치 함수 V 스타와 최적 정책 파이 스타예요.

아래 보라색 박스에 두 가지 핵심 알고리즘이 나와 있어요.

폴리시 이터레이션은 정책 평가와 개선을 번갈아 수행해요. 평가를 완전히 수렴시키고 나서 개선하는 방식이에요.

밸류 이터레이션은 평가 한 번에 바로 개선해요. 반복은 많지만 각 반복이 가벼워요.

그림 하단을 보면 디피와 모델 프리 방법의 차이가 나와 있어요.

디피는 모델이 필요하지만 정확한 최적해를 구할 수 있어요.

반면 몬테카를로나 티디 학습은 경험만으로 학습하지만 근사 해를 구하는 거예요.

리처드 벨만이 1957년에 동적 프로그래밍을 제안했고, 하워드가 1960년에 폴리시 이터레이션을 정립했어요.

디피는 강화학습의 이론적 기반이에요. 엠씨와 티디는 디피를 모델 없이 근사하는 방법이라고 볼 수 있어요.

이번 레슨에서 이 두 알고리즘의 동작 원리와 차이점을 자세히 배울 거예요.

디피의 한계인 차원의 저주와 비동기 디피 같은 해결책도 함께 살펴볼게요.

그럼 먼저 폴리시 이터레이션의 전체 구조부터 알아볼게요.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

선생님: 동적 프로그래밍이 가능하려면 어떤 전제 조건이 필요한가요?

학생: 엠디피 모델을 완전히 알아야 해요. 전이 확률과 보상 함수를 모두 아는 상황이요.

선생님: 맞아요. 그런데 모델을 안다는 게 왜 그렇게 중요할까요?

학생: 모델이 있으면 환경과 직접 상호작용하지 않고도 가치를 계산할 수 있으니까요. 각 행동의 결과를 미리 알 수 있어서 계획이 가능해요.

선생님: 정확해요. 그래서 모델을 모르면 몬테카를로나 티디 같은 모델 프리 방법을 사용하는 거예요.