이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL
제약 기반 안전 학습과 기존 데이터 기반 오프라인 강화학습
안녕하세요, 오늘은 Safe RL이 왜 필요한지 살펴봅니다.
강화학습의 핵심은 탐색, Exploration입니다.
에이전트가 새 행동을 시도하며 최적 정책을 찾죠.
슬라이드 상단 파란 박스를 보세요.
새로운 행동을 시도하며 최적 정책을 찾는다고 나옵니다.
이 탐색, 온라인 탐색이 핵심입니다.
시뮬레이션 환경에서는 탐색이 자유롭습니다.
왼쪽 초록 박스를 보시면 장점이 세 가지 나옵니다.
실패해도 리셋하면 그만이고, 비용도 없습니다.
자유롭게 탐색하며 정책을 빠르게 개선할 수 있죠.
하지만 시뮬레이션과 현실 사이엔 간극이 있습니다.
이를 심-투-리얼 갭이라고 부릅니다.
그래서 실전 환경에서도 탐색이 필요한 경우가 많습니다.
오른쪽 빨간 박스를 보세요.
실전 환경에서의 탐색은 전혀 다른 이야기입니다.
자율주행 차가 위험 행동을 탐색하면 사고가 납니다.
로봇 팔의 실수는 사람을 다치게 할 수 있습니다.
의료 기기나 전력망도 마찬가지입니다.
단 한 번의 실패가 큰 피해로 이어질 수 있습니다.
가운데 분기 화살표를 보시면 두 환경의 차이가 보입니다.
초록은 안전한 시뮬레이션, 빨간은 위험한 실전입니다.
이것이 바로 Safe RL이 필요한 핵심 이유입니다.
탐색의 자유와 안전 사이의 균형이 필요합니다.
Safe RL은 제약 조건으로 이 문제를 해결합니다.
선생님: 왜 Safe RL이 필요한가? — 온라인 탐색의 위험성의 핵심 아이디어를 한 문장으로 설명해볼까요?
학생: 기존 방법의 한계를 극복하기 위해 새로운 접근법을 제시하는 것이에요. Safe & Offline RL에서 중요한 개념이에요.
선생님: 맞아요! 이 방법의 가장 큰 장점은 무엇인가요?
학생: 실전에서 검증된 효과적인 방법이면서도, 이론적 기반이 탄탄하다는 점이에요.
선생님: 정확해요. 이론과 실전 모두에서 강한 방법을 이해하는 것이 중요해요.