이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → RL 기초 — 시행착오로 배우는 에이전트 → 기본 개념
A motivational overview of reinforcement learning — what you will learn, why it matters, and how to approach it.
강화학습이란 뭘까요? 한마디로 시행착오를 통해 배우는 인공지능이에요.
그림 상단을 보세요. 왼쪽에 에이전트, 오른쪽에 환경이 있어요.
에이전트는 현재 상태를 관찰하고 행동을 선택하는 주체예요.
환경은 에이전트의 행동에 반응해서 새로운 상태와 리워드를 돌려줘요.
위쪽 빨간 화살표를 보세요. 에이전트가 환경에 액션을 보내요.
아래쪽 주황 화살표를 보면, 환경이 리워드와 새 상태를 돌려보내죠.
이 두 화살표가 계속 반복되면서 학습이 일어나는 거예요.
자전거를 배우는 과정을 떠올려보세요. 페달을 밟으면 앞으로 가고, 핸들을 꺾으면 넘어지죠.
수많은 시행착오 끝에 능숙해지는 것, 그게 바로 강화학습의 핵심이에요.
그림 하단의 점선 박스를 보세요. 엠디피 사이클 상세 과정이에요.
첫 번째 파란 박스, 상태 관찰이에요. 에이전트가 현재 상태 s_t를 인식해요.
두 번째 빨간 박스, 행동 선택이에요. 폴리시에 따라 액션을 골라요.
세 번째 주황 박스, 리워드를 받아요. 잘했으면 양의 보상, 못했으면 음의 보상이죠.
네 번째 초록 박스, 새 상태로 전이돼요. s_{t+1}로 이동하는 거예요.
보라색 점선을 보면 네 번째에서 다시 첫 번째로 돌아가요. 이게 반복이에요.
에피소드가 끝날 때까지 이 사이클이 계속 돌아가요.
지도학습과 다른 점이 뭘까요? 정답 라벨이 없어요. 오직 리워드 신호뿐이에요.
에이전트가 스스로 좋은 행동과 나쁜 행동을 구분하며 배우는 거예요.
정리하면, 강화학습은 에이전트가 환경과 상호작용하며 누적 리워드를 최대화하는 폴리시를 학습하는 기술이에요.
폴리시란 어떤 상태에서 어떤 행동을 할지 결정하는 전략이에요.
이 개념은 이번 과목 전체의 핵심 뼈대가 되니까 꼭 기억해주세요.
선생님: 강화학습에서 에이전트가 학습하는 가장 핵심적인 것은 무엇일까요?
학생: 상태에서 어떤 행동을 할지 결정하는 폴리시요!
선생님: 맞아요! 그런데 지도학습과 달리 정답 라벨 없이 어떻게 배울 수 있을까요?
학생: 리워드 신호를 받아서 좋은 행동은 더 하고, 나쁜 행동은 줄이는 방식이요.
선생님: 정확해요. 이 과정이 반복되면서 점점 더 나은 폴리시를 만들어가는 거예요.