이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → RL 기초 — 시행착오로 배우는 에이전트 → 기본 개념
MDP의 5-tuple 구성 요소, 벨만 기대·최적 방정식, 가치 함수, 할인율, POMDP까지 체계적으로 학습합니다.
{MDP→엠디피}를 이해하려면 먼저 마르코프 성질이 무엇인지 정확히 알아야 합니다.
마르코프 성질의 핵심은 놀랍도록 간단해요. 미래 상태는 오직 현재 상태에만 달려 있다는 거죠.
과거에 어떤 경로를 거쳐왔든, 현재 상태만 알면 앞으로 일어날 일을 예측할 수 있어요.
체스를 예로 들어볼게요. 화면에 보이는 체스 보드를 보세요.
현재 보드 위 말의 배치만 알면 최적의 다음 수를 결정할 수 있어요. 어떤 순서로 말을 움직여서 이 배치가 됐는지는 전혀 중요하지 않죠.
수학적으로 표현하면, 조건부 확률에서 과거 상태를 모두 제거할 수 있다는 뜻이에요.
화면 중앙의 핵심 수식을 보시면, P(Sₜ₊₁|Sₜ)와 P(Sₜ₊₁|Sₜ, Sₜ₋₁, ..., S₀)가 같다는 걸 알 수 있어요.
시간축에서 빨간 X 표시가 된 과거 화살표를 보세요. 이 연결들은 미래 예측에 필요 없다는 의미예요.
반면 초록색 체크 표시가 된 현재→미래 화살표만이 유효한 정보를 전달합니다.
이 성질이 왜 그렇게 중요할까요? 오른쪽 박스에 정리된 네 가지 이유를 살펴보세요.
첫째, 상태 공간을 유한하게 관리할 수 있게 됩니다. 과거 전체를 기억할 필요가 없으니까요.
둘째, {Bellman→벨만} 방정식의 재귀적 분해가 가능해져요. 이건 앞으로 계속 나올 핵심 개념입니다.
셋째, 동적 프로그래밍을 적용할 수 있는 수학적 근거가 됩니다.
그런데 현실 세계에서 마르코프 성질이 완벽히 성립하지 않는 경우도 많아요.
예를 들어 포커 게임에서는 이전에 어떤 카드가 나왔는지가 중요하죠. 현재 패만으로는 부족해요.
이런 경우에는 과거 정보를 현재 상태 표현에 포함시키거나, {POMDP→피오엠디피}로 확장합니다.
딥러닝에서는 프레임 스태킹이라는 기법으로 여러 시점의 관측을 하나의 상태로 묶어서 마르코프 성질을 근사해요.
Atari 게임의 {DQN→디큐엔}이 바로 이 방법을 사용했어요. 4개 연속 프레임을 하나의 상태로 취급한 거죠.
정리하면, 마르코프 성질은 {MDP→엠디피}의 핵심 가정이자, 강화학습 전체를 떠받치는 수학적 기초입니다.
이 가정 덕분에 우리는 복잡한 순차적 의사결정 문제를 체계적으로 풀 수 있게 되는 거예요.
선생님: 마르코프 성질이 왜 {RL→알엘}에서 그렇게 중요한 걸까요?
학생: {Bellman→벨만} 방정식이나 동적 프로그래밍이 전부 마르코프 성질을 전제로 하기 때문이에요. 이게 없으면 재귀적으로 문제를 분해할 수가 없어요.
선생님: 맞아요! 그러면 실전에서 마르코프 성질이 안 만족되는 경우에는 어떻게 대처하나요?
학생: 상태 표현을 확장해요. {DQN→디큐엔}처럼 여러 프레임을 쌓아서 하나의 상태로 만들거나, {LSTM→엘에스티엠}으로 과거 정보를 내부 상태에 압축하는 방법이 있어요.
선생님: 그렇다면 충분히 긴 기억을 가진 상태 표현이 있으면 모든 문제가 마르코프가 되나요?
학생: 이론적으로는 그래요. 하지만 상태 공간이 기하급수적으로 커지면 학습이 어려워지니까, 실용적으로 적절한 수준의 상태 표현을 찾는 게 중요해요.