RL 기초 — 시행착오로 배우는 에이전트 → 기본 개념

강화학습 개요

1 / 19

왜 강화학습이란? — 시행착오로 배우는 AI이 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다. 강화학습(Reinforcement Learning, RL) 은 에이전트(Agent) 가 환경(Environment) 과 상호작용하면서 보상(Reward) 을 최대화하는 방법을 스스로 학습하는 기술입니다. 핵심 아이디어: - 에이전트가 행동(Action)을 선택 \to 환경이 새 상태(State)와 보상을 돌려줌 - 좋은 행동은 보상이 크고, 나쁜 행동은 벌점(음의 보상) - 이 과정을 반복하며 최적의 전략(Policy) 을 학습 일상 비유: 아이가 자전거를 배우는 과정과 같습니다. - 페달을 밟으면 \to 앞으로 감 (양의 보상) - 핸들을 너무 꺾으면 \to 넘어짐 (음의 보상) - 수많은 시행착오 끝에 \to 능숙하게 타게 됨 지도학습과의 차이: - 지도학습: 정답이 주어짐 ("이 사진은 고양이야") - 강화학습: 정답은 없고, 보상 신호만 존재 ("이 행동은 좋았어/나빴어") 한 줄 정의: "시행착오를 통해, 누적 보상을 최대화하는 행동 전략을 학습하는 AI 기법"

0:00

2:10

🎓 강의 스크립트

강화학습이란 뭘까요? 한마디로 시행착오를 통해 배우는 인공지능이에요.

그림 상단을 보세요. 왼쪽에 에이전트, 오른쪽에 환경이 있어요.

에이전트는 현재 상태를 관찰하고 행동을 선택하는 주체예요.

환경은 에이전트의 행동에 반응해서 새로운 상태와 리워드를 돌려줘요.

위쪽 빨간 화살표를 보세요. 에이전트가 환경에 액션을 보내요.

아래쪽 주황 화살표를 보면, 환경이 리워드와 새 상태를 돌려보내죠.

이 두 화살표가 계속 반복되면서 학습이 일어나는 거예요.

자전거를 배우는 과정을 떠올려보세요. 페달을 밟으면 앞으로 가고, 핸들을 꺾으면 넘어지죠.

수많은 시행착오 끝에 능숙해지는 것, 그게 바로 강화학습의 핵심이에요.

그림 하단의 점선 박스를 보세요. 엠디피 사이클 상세 과정이에요.

첫 번째 파란 박스, 상태 관찰이에요. 에이전트가 현재 상태 s_t를 인식해요.

두 번째 빨간 박스, 행동 선택이에요. 폴리시에 따라 액션을 골라요.

세 번째 주황 박스, 리워드를 받아요. 잘했으면 양의 보상, 못했으면 음의 보상이죠.

네 번째 초록 박스, 새 상태로 전이돼요. s_{t+1}로 이동하는 거예요.

보라색 점선을 보면 네 번째에서 다시 첫 번째로 돌아가요. 이게 반복이에요.

에피소드가 끝날 때까지 이 사이클이 계속 돌아가요.

지도학습과 다른 점이 뭘까요? 정답 라벨이 없어요. 오직 리워드 신호뿐이에요.

에이전트가 스스로 좋은 행동과 나쁜 행동을 구분하며 배우는 거예요.

정리하면, 강화학습은 에이전트가 환경과 상호작용하며 누적 리워드를 최대화하는 폴리시를 학습하는 기술이에요.

폴리시란 어떤 상태에서 어떤 행동을 할지 결정하는 전략이에요.

이 개념은 이번 과목 전체의 핵심 뼈대가 되니까 꼭 기억해주세요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

강화학습 기말고사MDP 벨만 방정식Q-learning 정리강화학습 과제

비전공/입문자

강화학습이란강화학습 입문Q-learning 쉽게

취준생

강화학습 면접RL 프로젝트 아이디어

직장인

추천 시스템 RL강화학습 실무 적용

대학원생/연구자

PPO 논문offline RL 서베이model-based RL

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비