Q-Learning과 TD 학습 — 테이블로 배우는 가치

TD 학습, SARSA, Q-Learning, ε-greedy 탐색, Q-table 한계와 DQN 동기까지 체계적으로 학습합니다.

1 / 19

모델 프리 학습 — DP와의 핵심 차이

모델 프리(Model-Free) 강화학습은 환경의 전이 확률 P(s'|s,a)와 보상 함수 R을 모르는 상태에서 최적 정책을 학습하는 방법입니다.

DP vs 모델 프리:

- DP (Dynamic Programming): P(s'|s,a)와 R을 정확히 알아야 함 → 기대값을 직접 계산

- 모델 프리: 환경과 실제로 상호작용하며 (s, a, r, s') 경험을 수집하여 학습

왜 모델 프리가 필요한가?

1. 대부분의 실제 문제에서 전이 확률을 모름 (로봇, 게임, 금융)

2. 환경이 너무 복잡해서 모델을 만들기 어려움

3. 환경이 동적으로 변할 수 있음

모델 프리 학습의 두 축:

- 몬테카를로(MC): 에피소드 끝까지 진행한 후 실제 리턴으로 학습

- 시간차(TD): 한 스텝만 보고 즉시 업데이트 (부트스트래핑)

핵심 전환:

DP의 Σ_{s'} P(s'|s,a)·[...] → MC/TD의 실제 경험 샘플 (s, a, r, s')로 대체

0:00

2:13

🎓 강의 스크립트

이번 시간에는 모델 프리 학습의 핵심을 배워볼게요.

다이나믹 프로그래밍은 환경의 전이 확률과 보상 함수를 정확히 알아야 했어요.

그림 왼쪽 빨간 박스를 보세요. 피 오브 에스프라임 기븐 에스 에이, 이 전이 확률을 알아야 벨만 방정식을 계산할 수 있죠.

하지만 현실의 로봇이나 게임에서 이런 확률을 정확히 아는 경우는 거의 없어요.

그래서 등장한 것이 모델 프리 방법이에요. 환경 모델 없이 경험 데이터만으로 학습하는 거죠.

그림 가운데 주황색 박스가 몬테카를로 방법이에요. 에피소드 끝까지 진행해서 실제 리턴 지를 계산해요.

몬테카를로의 리턴은 알원 더하기 감마 곱하기 알투 더하기 감마제곱 곱하기 알쓰리, 이렇게 누적 보상이에요.

무편향이라는 장점이 있지만, 에피소드가 길면 분산이 매우 커져요.

더 큰 문제는 에피소드가 끝나야만 학습할 수 있다는 거예요. 연속 환경에서는 사용 불가능하죠.

그림 오른쪽 초록 박스를 보세요. 티디 학습은 한 스텝만 보고 바로 업데이트해요.

티디 타겟은 보상 알 더하기 감마 곱하기 브이 에스프라임이에요. 다음 상태의 추정값을 활용하죠.

이걸 부트스트래핑이라고 불러요. 아직 정확하지 않은 추정값으로 현재 추정값을 개선하는 거예요.

부트스트래핑 때문에 편향이 생기지만, 분산은 몬테카를로보다 훨씬 낮아요.

에피소드 끝을 기다릴 필요가 없으니 온라인 학습도 가능해요. 실시간 로봇 제어에 딱 맞죠.

그림 하단 파란 강조 박스를 보세요. 핵심 메시지가 있어요.

모델을 모를 때는 샘플로 학습하고, 그중에서도 티디가 실용적 표준이에요.

티디 기반의 사르사와 큐러닝이 바로 이 레슨의 주인공이에요.

사르사는 현재 정책을 따라 학습하는 온폴리시 방법이에요.

큐러닝은 최적 정책을 직접 학습하는 오프폴리시 방법이고요.

이 두 방법의 차이와 장단점을 하나씩 깊이 살펴볼 거예요.

먼저 몬테카를로와 티디의 차이를 더 자세히 비교해볼게요.

💬 강의 Q&A

0:00

0:36

🎓 강의 스크립트

선생님: 모델 프리 방법이 디피보다 데이터가 더 많이 필요한 이유는 뭘까요?

학생: 디피는 전이 확률을 알아서 기대값을 정확히 계산하지만, 모델 프리는 샘플로 추정하니까 분산이 있어서 더 많은 데이터가 필요해요.

선생님: 정확해요. 그럼 티디가 몬테카를로보다 실전에서 선호되는 가장 큰 이유는 뭘까요?

학생: 에피소드 끝까지 기다릴 필요 없이 매 스텝 학습할 수 있고, 분산이 작아서 안정적이기 때문이에요.

선생님: 맞아요. 온라인 학습이 가능하다는 건 실시간 제어 시스템에서 특히 중요하죠.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

강화학습 기말고사MDP 벨만 방정식Q-learning 정리강화학습 과제

비전공/입문자

강화학습이란강화학습 입문Q-learning 쉽게

취준생

강화학습 면접RL 프로젝트 아이디어

직장인

추천 시스템 RL강화학습 실무 적용

대학원생/연구자

PPO 논문offline RL 서베이model-based RL

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

Q-Learning과 TD 학습 — 테이블로 배우는 가치

TD 학습, SARSA, Q-Learning, ε-greedy 탐색, Q-table 한계와 DQN 동기까지 체계적으로 학습합니다.

1 / 19

모델 프리 학습 — DP와의 핵심 차이

모델 프리(Model-Free) 강화학습은 환경의 전이 확률 P(s'|s,a)와 보상 함수 R을 모르는 상태에서 최적 정책을 학습하는 방법입니다.

DP vs 모델 프리:

- DP (Dynamic Programming): P(s'|s,a)와 R을 정확히 알아야 함 → 기대값을 직접 계산

- 모델 프리: 환경과 실제로 상호작용하며 (s, a, r, s') 경험을 수집하여 학습

왜 모델 프리가 필요한가?

1. 대부분의 실제 문제에서 전이 확률을 모름 (로봇, 게임, 금융)

2. 환경이 너무 복잡해서 모델을 만들기 어려움

3. 환경이 동적으로 변할 수 있음

모델 프리 학습의 두 축:

- 몬테카를로(MC): 에피소드 끝까지 진행한 후 실제 리턴으로 학습

- 시간차(TD): 한 스텝만 보고 즉시 업데이트 (부트스트래핑)

핵심 전환:

DP의 Σ_{s'} P(s'|s,a)·[...] → MC/TD의 실제 경험 샘플 (s, a, r, s')로 대체

0:00

2:13

🎓 강의 스크립트

이번 시간에는 모델 프리 학습의 핵심을 배워볼게요.

다이나믹 프로그래밍은 환경의 전이 확률과 보상 함수를 정확히 알아야 했어요.

그림 왼쪽 빨간 박스를 보세요. 피 오브 에스프라임 기븐 에스 에이, 이 전이 확률을 알아야 벨만 방정식을 계산할 수 있죠.

하지만 현실의 로봇이나 게임에서 이런 확률을 정확히 아는 경우는 거의 없어요.

그래서 등장한 것이 모델 프리 방법이에요. 환경 모델 없이 경험 데이터만으로 학습하는 거죠.

그림 가운데 주황색 박스가 몬테카를로 방법이에요. 에피소드 끝까지 진행해서 실제 리턴 지를 계산해요.

몬테카를로의 리턴은 알원 더하기 감마 곱하기 알투 더하기 감마제곱 곱하기 알쓰리, 이렇게 누적 보상이에요.

무편향이라는 장점이 있지만, 에피소드가 길면 분산이 매우 커져요.

더 큰 문제는 에피소드가 끝나야만 학습할 수 있다는 거예요. 연속 환경에서는 사용 불가능하죠.

그림 오른쪽 초록 박스를 보세요. 티디 학습은 한 스텝만 보고 바로 업데이트해요.

티디 타겟은 보상 알 더하기 감마 곱하기 브이 에스프라임이에요. 다음 상태의 추정값을 활용하죠.

이걸 부트스트래핑이라고 불러요. 아직 정확하지 않은 추정값으로 현재 추정값을 개선하는 거예요.

부트스트래핑 때문에 편향이 생기지만, 분산은 몬테카를로보다 훨씬 낮아요.

에피소드 끝을 기다릴 필요가 없으니 온라인 학습도 가능해요. 실시간 로봇 제어에 딱 맞죠.

그림 하단 파란 강조 박스를 보세요. 핵심 메시지가 있어요.

모델을 모를 때는 샘플로 학습하고, 그중에서도 티디가 실용적 표준이에요.

티디 기반의 사르사와 큐러닝이 바로 이 레슨의 주인공이에요.

사르사는 현재 정책을 따라 학습하는 온폴리시 방법이에요.

큐러닝은 최적 정책을 직접 학습하는 오프폴리시 방법이고요.

이 두 방법의 차이와 장단점을 하나씩 깊이 살펴볼 거예요.

먼저 몬테카를로와 티디의 차이를 더 자세히 비교해볼게요.

💬 강의 Q&A

0:00

0:36

🎓 강의 스크립트

선생님: 모델 프리 방법이 디피보다 데이터가 더 많이 필요한 이유는 뭘까요?

학생: 디피는 전이 확률을 알아서 기대값을 정확히 계산하지만, 모델 프리는 샘플로 추정하니까 분산이 있어서 더 많은 데이터가 필요해요.

선생님: 정확해요. 그럼 티디가 몬테카를로보다 실전에서 선호되는 가장 큰 이유는 뭘까요?

학생: 에피소드 끝까지 기다릴 필요 없이 매 스텝 학습할 수 있고, 분산이 작아서 안정적이기 때문이에요.

선생님: 맞아요. 온라인 학습이 가능하다는 건 실시간 제어 시스템에서 특히 중요하죠.