ReadCode

코드를 읽고 설명하면, 합격합니다

강화학습 응용 — 게임부터 로봇까지 | ReadCode

심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL

강화학습 응용

1 / 16

RL은 게임 말고 어디에 쓰일까?

강화학습(RL)하면 대부분 게임을 떠올립니다. Atari를 깨고, 바둑 세계챔피언을 이기는 장면이요. 하지만 RL의 진짜 가치는 게임을 넘어선 현실 세계 문제 해결 에 있습니다. RL이 적합한 문제의 특징: 순차적 의사결정 : 한 번의 선택이 아니라 연속된 결정의 연쇄 지연된 보상 : 좋은 결정의 결과가 즉시 나타나지 않음 탐색이 필요 : 최적 전략을 미리 알 수 없어 시행착오가 필요 시뮬레이션 가능 : 안전하게 수많은 시도를 할 수 있는 환경 현실 적용 분야: 로봇 제어, 자율주행, 추천 시스템, 금융, 의약, 데이터센터 관리, LLM 정렬, 반도체 설계 등 — 이 수업에서 하나씩 살펴보겠습니다. 핵심은 "RL = 게임 AI"가 아니라 "RL = 순차적 의사결정 최적화 프레임워크" 라는 점입니다.

0:00

1:39

🎓 강의 스크립트

RL은 게임에만 쓰인다고 생각하시나요?

사실 훨씬 더 넓은 분야에 적용됩니다.

슬라이드 제목을 보시면 한 줄 정의가 나와요.

RL은 순차적 의사결정 최적화 프레임워크입니다.

게임이든 현실이든, 이 틀에 맞으면 RL을 씁니다.

그럼 어떤 문제에 RL이 잘 맞을까요?

슬라이드 가운데를 보세요.

4가지 특징이 깔끔하게 정리되어 있습니다.

첫 번째는 순차적 의사결정이에요.

한 번이 아니라 결정이 연속으로 이어지는 상황이죠.

로봇 경로 계획이 대표적인 예시입니다.

두 번째는 지연된 보상입니다.

좋은 결정을 해도 결과가 바로 안 나타나요.

왼쪽 두 번째 박스를 보시면 신약 개발 예시가 있어요.

신약은 수년이 지나야 성공 여부를 알 수 있죠.

세 번째 특징은 탐색이 필요한 상황입니다.

최적 전략을 미리 알 수 없을 때를 말해요.

오른쪽 박스들을 보세요.

각 특징마다 실제 예시가 함께 적혀 있습니다.

네 번째 특징까지 모두 갖추면 RL이 딱 맞아요.

실제로 RL은 데이터센터 냉각 최적화에도 쓰입니다.

구글은 이 방법으로 에너지를 40%나 절감했어요.

금융 포트폴리오, 자율주행, 의료 치료 계획에도요.

핵심은 보상 함수를 잘 설계하는 것입니다.

어떤 목표를 최대화할지 명확히 정의해야 해요.

이것이 현실 적용에서 가장 어려운 부분입니다.