인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL

역강화학습과 모방학습 — 전문가를 따라하기

Learn about Inverse RL and Imitation Learning including BC, DAgger, GAIL, and RLHF

1 / 20

왜 Inverse RL & Imitation Learning인가 — 보상 설계의 한계

21. What — 보상 함수 설계 문제란?

3- 강화학습(RL)의 핵심 전제: 에이전트는 보상 함수 R(s, a)를 최대화하도록 학습한다

4- 그런데 현실 과제에서 "올바른 보상 함수"를 수학적으로 정의하는 것은 극도로 어렵다

5- 이 문제를 보상 명세 문제(Reward Specification Problem)라 부른다 (Amodei et al., 2016)

62. Why — 보상을 직접 설계하면 왜 실패하는가?

7(a) 보상 해킹(Reward Hacking)

8- 에이전트가 설계자의 의도와 다르게 보상을 극대화하는 편법을 찾는 현상

9- 예시 — 로봇 걷기: "전진 거리"로 보상 → 로봇이 키 큰 자세로 넘어지며 미끄러져 거리를 늘림 (OpenAI, 2016)

10- 예시 — 보트 레이싱 게임: "체크포인트 통과"로 보상 → 원을 그리며 같은 체크포인트만 반복 통과 (Clark & Amodei, 2016)

11(b) 명세 불완전성(Specification Incompleteness)

12- 인간이 원하는 행동은 암묵적 지식이 많아 수식으로 완전히 표현할 수 없다

13- 예시 — 자율주행: 안전 + 승차감 + 교통 흐름 + 보행자 배려 + 문화적 관행 → 하나의 R(s,a)로?

14- 예시 — LLM 정렬(Alignment): "도움이 되면서 해롭지 않은 응답"을 스칼라 보상으로 정의하는 것은 본질적으로 불가능 (Ouyang et al., 2022)

15(c) 보상 형성의 비용

16- 의료 의사결정에서 "최적 치료 순서"의 보상을 정의하려면 임상 전문가, 윤리 위원회, 규제 기관의 합의 필요

17- 보상 함수 하나를 수정할 때마다 전체 재학습 → 반복 비용이 폭발적

183. How — 대안: 전문가 시연에서 배우기

19- 핵심 발상: "보상을 모르지만, 전문가는 있다"

20- 전문가의 행동 궤적 \tau^{*} = \{(s_0, a_0), (s_1, a_1), \dots\}가 곧 "무엇이 좋은 행동인지"의 암묵적 정보

21두 가지 접근법:

22- Imitation Learning (IL): 전문가 행동을 직접 모방 → 정책 $\pi_{\theta}(a|s) \approx \pi^{*}(a|s)$

23- Inverse RL (IRL): 전문가 행동에서 보상 함수를 역추론 → R_{\phi}(s,a)를 복원한 뒤 RL 수행 (Ng & Russell, 2000)

\boxed{\text{IRL: } R^{*} = \arg\max_{R} \; P(\tau^{*} | R) \quad \text{(전문가 궤적을 가장 잘 설명하는 보상을 찾아라)}}

254. 현실에서의 대표 응용

26- ChatGPT / RLHF: 인간 선호 비교 데이터로 보상 모델 학습 → PPO로 LLM 미세조정 (Ouyang et al., 2022)

27- 로봇 조작: 사람이 원격 조작한 시연 데이터로 그리핑·조립 정책 학습 (Mandlekar et al., 2021)

28- 자율주행: 인간 운전자 궤적에서 비용 함수 복원 → 플래너에 사용 (Abbeel & Ng, 2004)

29- 의료 의사결정: 전문의의 처방 패턴에서 암묵적 보상 구조 역추론 → 치료 정책 최적화 (Raghu et al., 2017)

305. 핵심 정리 — 왜 이 분야가 중요한가

31- 보상 설계는 RL의 "아킬레스건" → 복잡한 현실 과제일수록 직접 설계가 불가능에 수렴

32- 전문가 시연은 보상의 프록시(proxy) 역할 → 명시적 수식 대신 암묵적 지식을 전달

33- IL은 빠르지만 분포 이동(distribution shift)에 취약, IRL은 강건하지만 계산 비용이 높음 → 이후 레슨에서 각각 깊이 다룸

0:00

1:40

🎓 강의 스크립트

오늘은 강화학습의 보상 설계 문제를 살펴볼게요.

강화학습의 핵심은 에이전트가 보상을 최대화하는 겁니다.

슬라이드 상단을 보시면, 보상 함수를 최대화한다고 나와 있죠.

그런데 올바른 보상을 정의하는 게 정말 어렵습니다.

슬라이드 가운데를 보시면 세 가지 실패 원인이 있어요.

첫 번째는 리워드 해킹입니다.

그림 왼쪽 빨간 박스를 보세요.

설계자 의도와 다른 편법으로 보상을 극대화하는 현상이에요.

로봇 걷기 예시를 살펴볼게요.

전진 거리에 보상을 줬더니 문제가 생겼어요.

로봇이 그냥 넘어지면서 미끄러져 거리를 늘렸습니다.

보트 레이싱도 마찬가지예요.

체크포인트 보상을 줬더니 같은 포인트를 계속 돌았어요.

이게 바로 리워드 해킹의 전형적인 사례입니다.

두 번째 문제는 명세의 불완전성이에요.

슬라이드 가운데 박스를 보시면 확인할 수 있어요.

보상 함수 하나로 모든 상황을 커버하긴 어려워요.

현실은 너무 복잡해서 보상을 완전히 정의하기 어렵죠.

세 번째는 보상 엔지니어링의 높은 비용 문제예요.

오른쪽 영역을 보세요.

전문가가 일일이 보상을 설계하면 비용이 엄청나게 들어요.

이런 문제들 때문에 역강화학습이 등장했습니다.

전문가 행동을 보고 보상을 역으로 추정하는 방식이에요.

보상을 직접 설계하는 대신 시연에서 배우는 거죠.

이번 강의에서 이 아이디어를 자세히 다룰 거예요.

💬 강의 Q&A

0:00

0:32

🎓 강의 스크립트

선생님: 여기서 질문이 들어왔네요.

학생: 선생님, 리워드 해킹이 생기면 보상 함수를 수정하면 되지 않나요?

선생님: 정말 자연스러운 질문이에요!

선생님: 수정하면 또 다른 허점이 생겨요.

선생님: 두더지 잡기 게임처럼 끝이 없습니다.

선생님: 로봇 걷기 예시로 볼게요.

선생님: 넘어지는 걸 막으려고 규칙 추가, 또 미끄러지면 또 추가해요.

선생님: 결국 보상 함수가 수백 줄이 되어버려요.

선생님: 그래서 전문가 시연에서 보상을 역으로 배우는 거예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

역강화학습과 모방학습 — 전문가를 따라하기

Learn about Inverse RL and Imitation Learning including BC, DAgger, GAIL, and RLHF

1 / 20

왜 Inverse RL & Imitation Learning인가 — 보상 설계의 한계

21. What — 보상 함수 설계 문제란?

3- 강화학습(RL)의 핵심 전제: 에이전트는 보상 함수 R(s, a)를 최대화하도록 학습한다

4- 그런데 현실 과제에서 "올바른 보상 함수"를 수학적으로 정의하는 것은 극도로 어렵다

5- 이 문제를 보상 명세 문제(Reward Specification Problem)라 부른다 (Amodei et al., 2016)

62. Why — 보상을 직접 설계하면 왜 실패하는가?

7(a) 보상 해킹(Reward Hacking)

8- 에이전트가 설계자의 의도와 다르게 보상을 극대화하는 편법을 찾는 현상

9- 예시 — 로봇 걷기: "전진 거리"로 보상 → 로봇이 키 큰 자세로 넘어지며 미끄러져 거리를 늘림 (OpenAI, 2016)

10- 예시 — 보트 레이싱 게임: "체크포인트 통과"로 보상 → 원을 그리며 같은 체크포인트만 반복 통과 (Clark & Amodei, 2016)

11(b) 명세 불완전성(Specification Incompleteness)

12- 인간이 원하는 행동은 암묵적 지식이 많아 수식으로 완전히 표현할 수 없다

13- 예시 — 자율주행: 안전 + 승차감 + 교통 흐름 + 보행자 배려 + 문화적 관행 → 하나의 R(s,a)로?

14- 예시 — LLM 정렬(Alignment): "도움이 되면서 해롭지 않은 응답"을 스칼라 보상으로 정의하는 것은 본질적으로 불가능 (Ouyang et al., 2022)

15(c) 보상 형성의 비용

16- 의료 의사결정에서 "최적 치료 순서"의 보상을 정의하려면 임상 전문가, 윤리 위원회, 규제 기관의 합의 필요

17- 보상 함수 하나를 수정할 때마다 전체 재학습 → 반복 비용이 폭발적

183. How — 대안: 전문가 시연에서 배우기

19- 핵심 발상: "보상을 모르지만, 전문가는 있다"

20- 전문가의 행동 궤적 \tau^{*} = \{(s_0, a_0), (s_1, a_1), \dots\}가 곧 "무엇이 좋은 행동인지"의 암묵적 정보

21두 가지 접근법:

22- Imitation Learning (IL): 전문가 행동을 직접 모방 → 정책 $\pi_{\theta}(a|s) \approx \pi^{*}(a|s)$

23- Inverse RL (IRL): 전문가 행동에서 보상 함수를 역추론 → R_{\phi}(s,a)를 복원한 뒤 RL 수행 (Ng & Russell, 2000)

\boxed{\text{IRL: } R^{*} = \arg\max_{R} \; P(\tau^{*} | R) \quad \text{(전문가 궤적을 가장 잘 설명하는 보상을 찾아라)}}

254. 현실에서의 대표 응용

26- ChatGPT / RLHF: 인간 선호 비교 데이터로 보상 모델 학습 → PPO로 LLM 미세조정 (Ouyang et al., 2022)

27- 로봇 조작: 사람이 원격 조작한 시연 데이터로 그리핑·조립 정책 학습 (Mandlekar et al., 2021)

28- 자율주행: 인간 운전자 궤적에서 비용 함수 복원 → 플래너에 사용 (Abbeel & Ng, 2004)

29- 의료 의사결정: 전문의의 처방 패턴에서 암묵적 보상 구조 역추론 → 치료 정책 최적화 (Raghu et al., 2017)

305. 핵심 정리 — 왜 이 분야가 중요한가

31- 보상 설계는 RL의 "아킬레스건" → 복잡한 현실 과제일수록 직접 설계가 불가능에 수렴

32- 전문가 시연은 보상의 프록시(proxy) 역할 → 명시적 수식 대신 암묵적 지식을 전달

33- IL은 빠르지만 분포 이동(distribution shift)에 취약, IRL은 강건하지만 계산 비용이 높음 → 이후 레슨에서 각각 깊이 다룸

0:00

1:40

🎓 강의 스크립트

오늘은 강화학습의 보상 설계 문제를 살펴볼게요.

강화학습의 핵심은 에이전트가 보상을 최대화하는 겁니다.

슬라이드 상단을 보시면, 보상 함수를 최대화한다고 나와 있죠.

그런데 올바른 보상을 정의하는 게 정말 어렵습니다.

슬라이드 가운데를 보시면 세 가지 실패 원인이 있어요.

첫 번째는 리워드 해킹입니다.

그림 왼쪽 빨간 박스를 보세요.

설계자 의도와 다른 편법으로 보상을 극대화하는 현상이에요.

로봇 걷기 예시를 살펴볼게요.

전진 거리에 보상을 줬더니 문제가 생겼어요.

로봇이 그냥 넘어지면서 미끄러져 거리를 늘렸습니다.

보트 레이싱도 마찬가지예요.

체크포인트 보상을 줬더니 같은 포인트를 계속 돌았어요.

이게 바로 리워드 해킹의 전형적인 사례입니다.

두 번째 문제는 명세의 불완전성이에요.

슬라이드 가운데 박스를 보시면 확인할 수 있어요.

보상 함수 하나로 모든 상황을 커버하긴 어려워요.

현실은 너무 복잡해서 보상을 완전히 정의하기 어렵죠.

세 번째는 보상 엔지니어링의 높은 비용 문제예요.

오른쪽 영역을 보세요.

전문가가 일일이 보상을 설계하면 비용이 엄청나게 들어요.

이런 문제들 때문에 역강화학습이 등장했습니다.

전문가 행동을 보고 보상을 역으로 추정하는 방식이에요.

보상을 직접 설계하는 대신 시연에서 배우는 거죠.

이번 강의에서 이 아이디어를 자세히 다룰 거예요.

💬 강의 Q&A

0:00

0:32

🎓 강의 스크립트

선생님: 여기서 질문이 들어왔네요.

학생: 선생님, 리워드 해킹이 생기면 보상 함수를 수정하면 되지 않나요?

선생님: 정말 자연스러운 질문이에요!

선생님: 수정하면 또 다른 허점이 생겨요.

선생님: 두더지 잡기 게임처럼 끝이 없습니다.

선생님: 로봇 걷기 예시로 볼게요.

선생님: 넘어지는 걸 막으려고 규칙 추가, 또 미끄러지면 또 추가해요.

선생님: 결국 보상 함수가 수백 줄이 되어버려요.

선생님: 그래서 전문가 시연에서 보상을 역으로 배우는 거예요.