이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → RL 기초 — 시행착오로 배우는 에이전트 → 가치 기반 방법
TD 학습, SARSA, Q-Learning, ε-greedy 탐색, Q-table 한계와 DQN 동기까지 체계적으로 학습합니다.
이번 시간에는 모델 프리 학습의 핵심을 배워볼게요.
다이나믹 프로그래밍은 환경의 전이 확률과 보상 함수를 정확히 알아야 했어요.
그림 왼쪽 빨간 박스를 보세요. 피 오브 에스프라임 기븐 에스 에이, 이 전이 확률을 알아야 벨만 방정식을 계산할 수 있죠.
하지만 현실의 로봇이나 게임에서 이런 확률을 정확히 아는 경우는 거의 없어요.
그래서 등장한 것이 모델 프리 방법이에요. 환경 모델 없이 경험 데이터만으로 학습하는 거죠.
그림 가운데 주황색 박스가 몬테카를로 방법이에요. 에피소드 끝까지 진행해서 실제 리턴 지를 계산해요.
몬테카를로의 리턴은 알원 더하기 감마 곱하기 알투 더하기 감마제곱 곱하기 알쓰리, 이렇게 누적 보상이에요.
무편향이라는 장점이 있지만, 에피소드가 길면 분산이 매우 커져요.
더 큰 문제는 에피소드가 끝나야만 학습할 수 있다는 거예요. 연속 환경에서는 사용 불가능하죠.
그림 오른쪽 초록 박스를 보세요. 티디 학습은 한 스텝만 보고 바로 업데이트해요.
티디 타겟은 보상 알 더하기 감마 곱하기 브이 에스프라임이에요. 다음 상태의 추정값을 활용하죠.
이걸 부트스트래핑이라고 불러요. 아직 정확하지 않은 추정값으로 현재 추정값을 개선하는 거예요.
부트스트래핑 때문에 편향이 생기지만, 분산은 몬테카를로보다 훨씬 낮아요.
에피소드 끝을 기다릴 필요가 없으니 온라인 학습도 가능해요. 실시간 로봇 제어에 딱 맞죠.
그림 하단 파란 강조 박스를 보세요. 핵심 메시지가 있어요.
모델을 모를 때는 샘플로 학습하고, 그중에서도 티디가 실용적 표준이에요.
티디 기반의 사르사와 큐러닝이 바로 이 레슨의 주인공이에요.
사르사는 현재 정책을 따라 학습하는 온폴리시 방법이에요.
큐러닝은 최적 정책을 직접 학습하는 오프폴리시 방법이고요.
이 두 방법의 차이와 장단점을 하나씩 깊이 살펴볼 거예요.
먼저 몬테카를로와 티디의 차이를 더 자세히 비교해볼게요.
선생님: 모델 프리 방법이 디피보다 데이터가 더 많이 필요한 이유는 뭘까요?
학생: 디피는 전이 확률을 알아서 기대값을 정확히 계산하지만, 모델 프리는 샘플로 추정하니까 분산이 있어서 더 많은 데이터가 필요해요.
선생님: 정확해요. 그럼 티디가 몬테카를로보다 실전에서 선호되는 가장 큰 이유는 뭘까요?
학생: 에피소드 끝까지 기다릴 필요 없이 매 스텝 학습할 수 있고, 분산이 작아서 안정적이기 때문이에요.
선생님: 맞아요. 온라인 학습이 가능하다는 건 실시간 제어 시스템에서 특히 중요하죠.