MDP와 벨만 방정식 — 최적 행동의 수학

MDP의 5-tuple 구성 요소, 벨만 기대·최적 방정식, 가치 함수, 할인율, POMDP까지 체계적으로 학습합니다.

1 / 19

마르코프 성질 — 미래는 현재에만 의존한다

마르코프 성질(Markov Property)은 MDP의 핵심 가정입니다. "미래 상태는 오직 현재 상태에만 의존하며, 과거 이력은 무관하다"는 원리예요.

수학적 표현:

P(S_{t+1} | S_t, S_{t-1}, ..., S_{0}) = P(S_{t+1} | S_t)

직관적 이해:

- 체스에서 현재 보드 배치만 알면 최적의 수를 둘 수 있습니다

- 어떤 경로로 현재 배치에 도달했는지는 중요하지 않아요

- 현재 상태가 미래를 결정하는 데 필요한 모든 정보를 담고 있다는 뜻

왜 중요한가:

마르코프 성질 덕분에 상태 공간을 유한하게 관리할 수 있고, 벨만 방정식 같은 재귀적 풀이가 가능해집니다.

한계:

실제 세계에서는 마르코프 성질이 완벽히 성립하지 않는 경우도 많습니다. 이때는 과거 정보를 상태에 포함시키거나 POMDP로 확장합니다.

0:00

2:27

🎓 강의 스크립트

{MDP→엠디피}를 이해하려면 먼저 마르코프 성질이 무엇인지 정확히 알아야 합니다.

마르코프 성질의 핵심은 놀랍도록 간단해요. 미래 상태는 오직 현재 상태에만 달려 있다는 거죠.

과거에 어떤 경로를 거쳐왔든, 현재 상태만 알면 앞으로 일어날 일을 예측할 수 있어요.

체스를 예로 들어볼게요. 화면에 보이는 체스 보드를 보세요.

현재 보드 위 말의 배치만 알면 최적의 다음 수를 결정할 수 있어요. 어떤 순서로 말을 움직여서 이 배치가 됐는지는 전혀 중요하지 않죠.

수학적으로 표현하면, 조건부 확률에서 과거 상태를 모두 제거할 수 있다는 뜻이에요.

화면 중앙의 핵심 수식을 보시면, P(Sₜ₊₁|Sₜ)와 P(Sₜ₊₁|Sₜ, Sₜ₋₁, ..., S₀)가 같다는 걸 알 수 있어요.

시간축에서 빨간 X 표시가 된 과거 화살표를 보세요. 이 연결들은 미래 예측에 필요 없다는 의미예요.

반면 초록색 체크 표시가 된 현재→미래 화살표만이 유효한 정보를 전달합니다.

이 성질이 왜 그렇게 중요할까요? 오른쪽 박스에 정리된 네 가지 이유를 살펴보세요.

첫째, 상태 공간을 유한하게 관리할 수 있게 됩니다. 과거 전체를 기억할 필요가 없으니까요.

둘째, {Bellman→벨만} 방정식의 재귀적 분해가 가능해져요. 이건 앞으로 계속 나올 핵심 개념입니다.

셋째, 동적 프로그래밍을 적용할 수 있는 수학적 근거가 됩니다.

그런데 현실 세계에서 마르코프 성질이 완벽히 성립하지 않는 경우도 많아요.

예를 들어 포커 게임에서는 이전에 어떤 카드가 나왔는지가 중요하죠. 현재 패만으로는 부족해요.

이런 경우에는 과거 정보를 현재 상태 표현에 포함시키거나, {POMDP→피오엠디피}로 확장합니다.

딥러닝에서는 프레임 스태킹이라는 기법으로 여러 시점의 관측을 하나의 상태로 묶어서 마르코프 성질을 근사해요.

Atari 게임의 {DQN→디큐엔}이 바로 이 방법을 사용했어요. 4개 연속 프레임을 하나의 상태로 취급한 거죠.

정리하면, 마르코프 성질은 {MDP→엠디피}의 핵심 가정이자, 강화학습 전체를 떠받치는 수학적 기초입니다.

이 가정 덕분에 우리는 복잡한 순차적 의사결정 문제를 체계적으로 풀 수 있게 되는 거예요.

💬 강의 Q&A

0:00

0:52

🎓 강의 스크립트

선생님: 마르코프 성질이 왜 {RL→알엘}에서 그렇게 중요한 걸까요?

학생: {Bellman→벨만} 방정식이나 동적 프로그래밍이 전부 마르코프 성질을 전제로 하기 때문이에요. 이게 없으면 재귀적으로 문제를 분해할 수가 없어요.

선생님: 맞아요! 그러면 실전에서 마르코프 성질이 안 만족되는 경우에는 어떻게 대처하나요?

학생: 상태 표현을 확장해요. {DQN→디큐엔}처럼 여러 프레임을 쌓아서 하나의 상태로 만들거나, {LSTM→엘에스티엠}으로 과거 정보를 내부 상태에 압축하는 방법이 있어요.

선생님: 그렇다면 충분히 긴 기억을 가진 상태 표현이 있으면 모든 문제가 마르코프가 되나요?

학생: 이론적으로는 그래요. 하지만 상태 공간이 기하급수적으로 커지면 학습이 어려워지니까, 실용적으로 적절한 수준의 상태 표현을 찾는 게 중요해요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

강화학습 기말고사MDP 벨만 방정식Q-learning 정리강화학습 과제

비전공/입문자

강화학습이란강화학습 입문Q-learning 쉽게

취준생

강화학습 면접RL 프로젝트 아이디어

직장인

추천 시스템 RL강화학습 실무 적용

대학원생/연구자

PPO 논문offline RL 서베이model-based RL

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

MDP와 벨만 방정식 — 최적 행동의 수학

MDP의 5-tuple 구성 요소, 벨만 기대·최적 방정식, 가치 함수, 할인율, POMDP까지 체계적으로 학습합니다.

1 / 19

마르코프 성질 — 미래는 현재에만 의존한다

마르코프 성질(Markov Property)은 MDP의 핵심 가정입니다. "미래 상태는 오직 현재 상태에만 의존하며, 과거 이력은 무관하다"는 원리예요.

수학적 표현:

P(S_{t+1} | S_t, S_{t-1}, ..., S_{0}) = P(S_{t+1} | S_t)

직관적 이해:

- 체스에서 현재 보드 배치만 알면 최적의 수를 둘 수 있습니다

- 어떤 경로로 현재 배치에 도달했는지는 중요하지 않아요

- 현재 상태가 미래를 결정하는 데 필요한 모든 정보를 담고 있다는 뜻

왜 중요한가:

마르코프 성질 덕분에 상태 공간을 유한하게 관리할 수 있고, 벨만 방정식 같은 재귀적 풀이가 가능해집니다.

한계:

실제 세계에서는 마르코프 성질이 완벽히 성립하지 않는 경우도 많습니다. 이때는 과거 정보를 상태에 포함시키거나 POMDP로 확장합니다.

0:00

2:27

🎓 강의 스크립트

{MDP→엠디피}를 이해하려면 먼저 마르코프 성질이 무엇인지 정확히 알아야 합니다.

마르코프 성질의 핵심은 놀랍도록 간단해요. 미래 상태는 오직 현재 상태에만 달려 있다는 거죠.

과거에 어떤 경로를 거쳐왔든, 현재 상태만 알면 앞으로 일어날 일을 예측할 수 있어요.

체스를 예로 들어볼게요. 화면에 보이는 체스 보드를 보세요.

현재 보드 위 말의 배치만 알면 최적의 다음 수를 결정할 수 있어요. 어떤 순서로 말을 움직여서 이 배치가 됐는지는 전혀 중요하지 않죠.

수학적으로 표현하면, 조건부 확률에서 과거 상태를 모두 제거할 수 있다는 뜻이에요.

화면 중앙의 핵심 수식을 보시면, P(Sₜ₊₁|Sₜ)와 P(Sₜ₊₁|Sₜ, Sₜ₋₁, ..., S₀)가 같다는 걸 알 수 있어요.

시간축에서 빨간 X 표시가 된 과거 화살표를 보세요. 이 연결들은 미래 예측에 필요 없다는 의미예요.

반면 초록색 체크 표시가 된 현재→미래 화살표만이 유효한 정보를 전달합니다.

이 성질이 왜 그렇게 중요할까요? 오른쪽 박스에 정리된 네 가지 이유를 살펴보세요.

첫째, 상태 공간을 유한하게 관리할 수 있게 됩니다. 과거 전체를 기억할 필요가 없으니까요.

둘째, {Bellman→벨만} 방정식의 재귀적 분해가 가능해져요. 이건 앞으로 계속 나올 핵심 개념입니다.

셋째, 동적 프로그래밍을 적용할 수 있는 수학적 근거가 됩니다.

그런데 현실 세계에서 마르코프 성질이 완벽히 성립하지 않는 경우도 많아요.

예를 들어 포커 게임에서는 이전에 어떤 카드가 나왔는지가 중요하죠. 현재 패만으로는 부족해요.

이런 경우에는 과거 정보를 현재 상태 표현에 포함시키거나, {POMDP→피오엠디피}로 확장합니다.

딥러닝에서는 프레임 스태킹이라는 기법으로 여러 시점의 관측을 하나의 상태로 묶어서 마르코프 성질을 근사해요.

Atari 게임의 {DQN→디큐엔}이 바로 이 방법을 사용했어요. 4개 연속 프레임을 하나의 상태로 취급한 거죠.

정리하면, 마르코프 성질은 {MDP→엠디피}의 핵심 가정이자, 강화학습 전체를 떠받치는 수학적 기초입니다.

이 가정 덕분에 우리는 복잡한 순차적 의사결정 문제를 체계적으로 풀 수 있게 되는 거예요.

💬 강의 Q&A

0:00

0:52

🎓 강의 스크립트

선생님: 마르코프 성질이 왜 {RL→알엘}에서 그렇게 중요한 걸까요?

선생님: 맞아요! 그러면 실전에서 마르코프 성질이 안 만족되는 경우에는 어떻게 대처하나요?

선생님: 그렇다면 충분히 긴 기억을 가진 상태 표현이 있으면 모든 문제가 마르코프가 되나요?