이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL
Real-world RL applications: games, robotics, autonomous driving, recommendations, finance, RLHF, chip design, offline RL, and foundation model integration.
RL은 게임에만 쓰인다고 생각하시나요?
사실 훨씬 더 넓은 분야에 적용됩니다.
슬라이드 제목을 보시면 한 줄 정의가 나와요.
RL은 순차적 의사결정 최적화 프레임워크입니다.
게임이든 현실이든, 이 틀에 맞으면 RL을 씁니다.
그럼 어떤 문제에 RL이 잘 맞을까요?
슬라이드 가운데를 보세요.
4가지 특징이 깔끔하게 정리되어 있습니다.
첫 번째는 순차적 의사결정이에요.
한 번이 아니라 결정이 연속으로 이어지는 상황이죠.
로봇 경로 계획이 대표적인 예시입니다.
두 번째는 지연된 보상입니다.
좋은 결정을 해도 결과가 바로 안 나타나요.
왼쪽 두 번째 박스를 보시면 신약 개발 예시가 있어요.
신약은 수년이 지나야 성공 여부를 알 수 있죠.
세 번째 특징은 탐색이 필요한 상황입니다.
최적 전략을 미리 알 수 없을 때를 말해요.
오른쪽 박스들을 보세요.
각 특징마다 실제 예시가 함께 적혀 있습니다.
네 번째 특징까지 모두 갖추면 RL이 딱 맞아요.
실제로 RL은 데이터센터 냉각 최적화에도 쓰입니다.
구글은 이 방법으로 에너지를 40%나 절감했어요.
금융 포트폴리오, 자율주행, 의료 치료 계획에도요.
핵심은 보상 함수를 잘 설계하는 것입니다.
어떤 목표를 최대화할지 명확히 정의해야 해요.
이것이 현실 적용에서 가장 어려운 부분입니다.
선생님: RL은 게임 말고 어디에 쓰일까?의 핵심 아이디어를 한 문장으로 설명해볼까요?
학생: 기존 방법의 한계를 극복하기 위해 새로운 접근법을 제시하는 것이에요. RL Applications에서 중요한 개념이에요.
선생님: 맞아요! 이 방법의 가장 큰 장점은 무엇인가요?
학생: 실전에서 검증된 효과적인 방법이면서도, 이론적 기반이 탄탄하다는 점이에요.
선생님: 정확해요. 이론과 실전 모두에서 강한 방법을 이해하는 것이 중요해요.