이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 정책 기반 방법
Value vs Policy, REINFORCE, Policy Gradient Theorem, Baseline, Actor-Critic, A2C, PPO Clipping, PPO 손실 함수, SAC까지 정책 경사 방법의 진화를 학습합니다.
강화학습에는 가치 기반과 정책 기반, 크게 두 가지 접근법이 있어요.
그림 왼쪽을 보세요. 가치 기반은 큐 함수를 학습해서 가장 높은 가치의 행동을 선택하는 방식이에요.
디큐엔과 큐러닝이 대표적인 알고리즘이죠.
하지만 argmax로 행동을 고르기 때문에 연속 행동 공간에서는 사용할 수 없어요.
예를 들어 로봇 팔의 관절 각도처럼 실수 값이 필요한 문제에서는 한계가 있죠.
또한 항상 최적 행동 하나만 결정적으로 선택하기 때문에 확률적 정책을 표현할 수 없어요.
그림 오른쪽을 보시면, 폴리시 기반은 정책 함수 파이를 직접 학습해요.
행동의 확률 분포를 출력하기 때문에 연속 값도 자연스럽게 다룰 수 있어요.
가우시안 분포를 사용하면 평균과 분산을 신경망이 출력하고, 거기서 행동을 샘플링하죠.
확률적 정책이라서 탐험이 자동으로 내장돼 있다는 것도 큰 장점이에요.
엡실론 그리디처럼 부자연스러운 탐험 전략을 별도로 설계할 필요가 없어요.
로봇 팔 제어나 자율주행처럼 연속 제어가 필요한 문제에 특히 적합해요.
역사적으로 보면, 1992년 윌리엄스가 리인포스 알고리즘을 처음 제안했어요.
그리고 2013년 디큐엔이 아타리 게임에서 인간을 이기면서 가치 기반이 주목받았죠.
하지만 연속 제어 문제가 중요해지면서 폴리시 기반이 다시 부상했어요.
2015년 슐만의 티알피오가 안정적인 정책 업데이트를 가능하게 했고요.
2017년 같은 슐만이 피피오를 발표하면서 현재 강화학습의 사실상 표준이 됐어요.
그림 하단의 결론을 보세요. 현대 강화학습은 폴리시 기반이 주류예요.
피피오와 에스에이씨 같은 알고리즘이 거의 모든 연속 제어 문제에서 사용되고 있어요.
이번 레슨에서는 폴리시 그래디언트의 기본부터 피피오까지 전체 흐름을 배울 거예요.
왜 가치 기반의 한계를 정책 기반이 극복하는지, 그 원리를 깊이 이해해 봅시다.
선생님: 가치 기반 방법이 연속 행동 공간을 다루지 못하는 근본적인 이유가 뭘까요?
학생: argmax로 행동을 선택하는데, 연속 공간에서는 무한한 행동 중에서 최댓값을 찾을 수 없기 때문이에요.
선생님: 맞아요! 그럼 정책 기반은 이 문제를 어떻게 해결하나요?
학생: 확률 분포의 파라미터를 출력해서, 거기서 샘플링하는 방식이라 연속 값을 자연스럽게 다뤄요.
선생님: 정확해요. 그래서 현대 로봇 제어에는 거의 다 정책 기반을 사용해요.