Policy Gradient와 PPO — 직접 정책을 최적화

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

Policy Gradient와 PPO — 직접 정책을 최적화

Value vs Policy, REINFORCE, Policy Gradient Theorem, Baseline, Actor-Critic, A2C, PPO Clipping, PPO 손실 함수, SAC까지 정책 경사 방법의 진화를 학습합니다.

1 / 19

Value-based vs Policy-based 접근법

왜 Value-based vs Policy-based 접근법이 필요한가? 강화학습의 두 가지 근본 패러다임을 이해해야 PPO와 같은 최신 알고리즘의 설계 철학을 파악할 수 있습니다.

</div>

강화학습에는 크게 두 가지 접근법이 있습니다.

Value-based (가치 기반):

- Q(s,a) 또는 V(s)를 학습한 후, 가치가 높은 행동을 선택

- 대표: DQN, Q-Learning

- 한계 1: 이산 행동만 가능 — argmax로 행동을 선택하므로 연속 행동 공간에서 사용 불가

- 한계 2: 확률적 정책 불가 — 항상 최적 행동 하나만 선택 (결정적)

- 한계 3: 고차원 행동 공간에서 비효율적 — 행동 개수만큼 Q값 계산 필요

Policy-based (정책 기반):

- 정책 π(a|s;θ)를 직접 학습 — 행동의 확률 분포를 출력

- 연속 행동 공간을 자연스럽게 지원 (가우시안 분포 등 사용)

- 확률적 정책으로 탐험이 자동 내장

- 대표: REINFORCE, PPO, SAC

- 장점 1: 연속 행동 — 로봇 팔 관절 각도, 자율주행 핸들 각도 등

- 장점 2: 확률적 탐험 — ε-greedy 같은 부자연스러운 탐험 불필요

- 장점 3: 고차원 행동에서 효율적 — 행동 공간 차원에 선형으로 스케일

역사적 맥락:

- 1992: Williams의 REINFORCE — 최초의 policy gradient 알고리즘

- 2013: Mnih의 DQN — value-based의 딥러닝 혁명

- 2015: Schulman의 TRPO — trust region으로 안정적 정책 업데이트

- 2017: Schulman의 PPO — TRPO를 단순화하여 현재 표준

0:00

2:09

🎓 강의 스크립트

강화학습에는 가치 기반과 정책 기반, 크게 두 가지 접근법이 있어요.

그림 왼쪽을 보세요. 가치 기반은 큐 함수를 학습해서 가장 높은 가치의 행동을 선택하는 방식이에요.

디큐엔과 큐러닝이 대표적인 알고리즘이죠.

하지만 argmax로 행동을 고르기 때문에 연속 행동 공간에서는 사용할 수 없어요.

예를 들어 로봇 팔의 관절 각도처럼 실수 값이 필요한 문제에서는 한계가 있죠.

또한 항상 최적 행동 하나만 결정적으로 선택하기 때문에 확률적 정책을 표현할 수 없어요.

그림 오른쪽을 보시면, 폴리시 기반은 정책 함수 파이를 직접 학습해요.

행동의 확률 분포를 출력하기 때문에 연속 값도 자연스럽게 다룰 수 있어요.

가우시안 분포를 사용하면 평균과 분산을 신경망이 출력하고, 거기서 행동을 샘플링하죠.

확률적 정책이라서 탐험이 자동으로 내장돼 있다는 것도 큰 장점이에요.

엡실론 그리디처럼 부자연스러운 탐험 전략을 별도로 설계할 필요가 없어요.

로봇 팔 제어나 자율주행처럼 연속 제어가 필요한 문제에 특히 적합해요.

역사적으로 보면, 1992년 윌리엄스가 리인포스 알고리즘을 처음 제안했어요.

그리고 2013년 디큐엔이 아타리 게임에서 인간을 이기면서 가치 기반이 주목받았죠.

하지만 연속 제어 문제가 중요해지면서 폴리시 기반이 다시 부상했어요.

2015년 슐만의 티알피오가 안정적인 정책 업데이트를 가능하게 했고요.

2017년 같은 슐만이 피피오를 발표하면서 현재 강화학습의 사실상 표준이 됐어요.

그림 하단의 결론을 보세요. 현대 강화학습은 폴리시 기반이 주류예요.

피피오와 에스에이씨 같은 알고리즘이 거의 모든 연속 제어 문제에서 사용되고 있어요.

이번 레슨에서는 폴리시 그래디언트의 기본부터 피피오까지 전체 흐름을 배울 거예요.

왜 가치 기반의 한계를 정책 기반이 극복하는지, 그 원리를 깊이 이해해 봅시다.

💬 강의 Q&A

0:00

0:33

🎓 강의 스크립트

선생님: 가치 기반 방법이 연속 행동 공간을 다루지 못하는 근본적인 이유가 뭘까요?

학생: argmax로 행동을 선택하는데, 연속 공간에서는 무한한 행동 중에서 최댓값을 찾을 수 없기 때문이에요.

선생님: 맞아요! 그럼 정책 기반은 이 문제를 어떻게 해결하나요?

학생: 확률 분포의 파라미터를 출력해서, 거기서 샘플링하는 방식이라 연속 값을 자연스럽게 다뤄요.

선생님: 정확해요. 그래서 현대 로봇 제어에는 거의 다 정책 기반을 사용해요.