계층적 강화학습 — 복잡한 행동을 분해하기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

계층적 강화학습 — 복잡한 행동을 분해하기

Learn hierarchical RL: Options Framework, MAXQ, Feudal Networks, HAM, Goal-Conditioned RL, HER, Skill Discovery, Option-Critic, and LLM-guided hierarchy.

1 / 15

왜 계층적 강화학습이 필요한가? — 장기 과제의 저주

왜 왜 계층적 강화학습이 필요한가? — 장기 과제의 저주이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

일반 강화학습(flat RL)은 장기적인 과제에서 심각한 어려움을 겪습니다.

문제 상황 — 주방 로봇:

"커피를 만들어라"라는 과제를 생각해봅시다. 이것은 수백 개의 저수준 행동(관절 움직임)으로 이루어져 있고, 보상은 커피가 완성된 후에야 받습니다.

Flat RL이 실패하는 이유:

- 희소 보상(Sparse Reward): 수천 스텝 동안 보상이 0 → 학습 불가능

- 탐색 폭발: 행동 공간이 너무 커서 무작위 탐색으로는 목표에 도달 불가

- 크레딧 할당(Credit Assignment): 어떤 행동이 성공에 기여했는지 판별 불가

- 전이 실패: "컵 잡기"를 배워도 다른 과제에서 재사용 불가

인간의 해결책 — 서브골 분할:

1. 컵을 찾는다 → 2. 컵을 잡는다 → 3. 물을 끓인다 → 4. 커피를 내린다

각 서브골에 대해 독립적으로 학습하면 문제가 훨씬 쉬워집니다.

계층적 강화학습(Hierarchical RL, HRL)은 이 아이디어를 형식화합니다:

- 고수준 정책: 어떤 서브골을 달성할지 결정

- 저수준 정책: 서브골을 실제 행동으로 실행

- 시간적 추상화: 여러 스텝을 하나의 "옵션"으로 묶음

0:00

1:38

🎓 강의 스크립트

오늘은 계층적 강화학습이 왜 필요한지 살펴봅니다.

기존 강화학습이 어떤 상황에서 실패하는지부터 볼게요.

슬라이드 상단 빨간 박스를 보세요.

커피 만들기 예시가 제시되어 있습니다.

이 과제는 수백 개의 저수준 행동이 필요해요.

물 끓이기, 컵 꺼내기, 원두 갈기가 차례로 이어집니다.

이런 과제를 장기 과제라고 부릅니다.

기존 강화학습을 플랫 알엘이라고 해요.

플랫 알엘은 매 스텝마다 행동을 직접 선택합니다.

타임라인의 빨간 점들을 보시면 알 수 있어요.

점 하나하나가 각각의 행동 단계입니다.

이 점들이 수백 개씩 끝없이 이어지죠.

그런데 보상은 맨 끝에서 단 한 번만 주어집니다.

이것을 희소 보상 문제라고 합니다.

오른쪽 끝 초록색 R 표시를 보세요.

보상이 오직 마지막 단계에만 등장합니다.

에이전트 입장에서 한번 생각해봅시다.

수백 번 행동했는데 어떤 게 좋았는지 모릅니다.

좋은 행동과 나쁜 행동 구분이 어려워집니다.

이것이 바로 장기 과제의 저주입니다.

학습 신호가 너무 드물게 오기 때문이에요.

가운데 점들 사이를 보면 신호가 전혀 없죠.

그러니 탐색 공간이 기하급수적으로 넓어집니다.

계층적 강화학습은 이 문제를 해결합니다.

고수준 목표와 저수준 행동으로 계층을 나눠요.

각 계층마다 적절한 보상을 받을 수 있게 됩니다.

💬 강의 Q&A

0:00

0:34

🎓 강의 스크립트

선생님: 왜 계층적 강화학습이 필요한가? — 장기 과제의 저주의 핵심 아이디어를 한 문장으로 설명해볼까요?

학생: 기존 방법의 한계를 극복하기 위해 새로운 접근법을 제시하는 것이에요. Hierarchical RL에서 중요한 개념이에요.

선생님: 맞아요! 이 방법의 가장 큰 장점은 무엇인가요?

학생: 실전에서 검증된 효과적인 방법이면서도, 이론적 기반이 탄탄하다는 점이에요.

선생님: 정확해요. 이론과 실전 모두에서 강한 방법을 이해하는 것이 중요해요.