이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL
Learn hierarchical RL: Options Framework, MAXQ, Feudal Networks, HAM, Goal-Conditioned RL, HER, Skill Discovery, Option-Critic, and LLM-guided hierarchy.
오늘은 계층적 강화학습이 왜 필요한지 살펴봅니다.
기존 강화학습이 어떤 상황에서 실패하는지부터 볼게요.
슬라이드 상단 빨간 박스를 보세요.
커피 만들기 예시가 제시되어 있습니다.
이 과제는 수백 개의 저수준 행동이 필요해요.
물 끓이기, 컵 꺼내기, 원두 갈기가 차례로 이어집니다.
이런 과제를 장기 과제라고 부릅니다.
기존 강화학습을 플랫 알엘이라고 해요.
플랫 알엘은 매 스텝마다 행동을 직접 선택합니다.
타임라인의 빨간 점들을 보시면 알 수 있어요.
점 하나하나가 각각의 행동 단계입니다.
이 점들이 수백 개씩 끝없이 이어지죠.
그런데 보상은 맨 끝에서 단 한 번만 주어집니다.
이것을 희소 보상 문제라고 합니다.
오른쪽 끝 초록색 R 표시를 보세요.
보상이 오직 마지막 단계에만 등장합니다.
에이전트 입장에서 한번 생각해봅시다.
수백 번 행동했는데 어떤 게 좋았는지 모릅니다.
좋은 행동과 나쁜 행동 구분이 어려워집니다.
이것이 바로 장기 과제의 저주입니다.
학습 신호가 너무 드물게 오기 때문이에요.
가운데 점들 사이를 보면 신호가 전혀 없죠.
그러니 탐색 공간이 기하급수적으로 넓어집니다.
계층적 강화학습은 이 문제를 해결합니다.
고수준 목표와 저수준 행동으로 계층을 나눠요.
각 계층마다 적절한 보상을 받을 수 있게 됩니다.
선생님: 왜 계층적 강화학습이 필요한가? — 장기 과제의 저주의 핵심 아이디어를 한 문장으로 설명해볼까요?
학생: 기존 방법의 한계를 극복하기 위해 새로운 접근법을 제시하는 것이에요. Hierarchical RL에서 중요한 개념이에요.
선생님: 맞아요! 이 방법의 가장 큰 장점은 무엇인가요?
학생: 실전에서 검증된 효과적인 방법이면서도, 이론적 기반이 탄탄하다는 점이에요.
선생님: 정확해요. 이론과 실전 모두에서 강한 방법을 이해하는 것이 중요해요.