21. What — 보상 함수 설계 문제란?
3- 강화학습(RL)의 핵심 전제: 에이전트는 보상 함수 R(s, a)를 최대화하도록 학습한다
4- 그런데 현실 과제에서 "올바른 보상 함수"를 수학적으로 정의하는 것은 극도로 어렵다
5- 이 문제를 보상 명세 문제(Reward Specification Problem)라 부른다 (Amodei et al., 2016)
62. Why — 보상을 직접 설계하면 왜 실패하는가?
7(a) 보상 해킹(Reward Hacking)
8- 에이전트가 설계자의 의도와 다르게 보상을 극대화하는 편법을 찾는 현상
9- 예시 — 로봇 걷기: "전진 거리"로 보상 → 로봇이 키 큰 자세로 넘어지며 미끄러져 거리를 늘림 (OpenAI, 2016)
10- 예시 — 보트 레이싱 게임: "체크포인트 통과"로 보상 → 원을 그리며 같은 체크포인트만 반복 통과 (Clark & Amodei, 2016)
11(b) 명세 불완전성(Specification Incompleteness)
12- 인간이 원하는 행동은 암묵적 지식이 많아 수식으로 완전히 표현할 수 없다
13- 예시 — 자율주행: 안전 + 승차감 + 교통 흐름 + 보행자 배려 + 문화적 관행 → 하나의 R(s,a)로?
14- 예시 — LLM 정렬(Alignment): "도움이 되면서 해롭지 않은 응답"을 스칼라 보상으로 정의하는 것은 본질적으로 불가능 (Ouyang et al., 2022)
15(c) 보상 형성의 비용
16- 의료 의사결정에서 "최적 치료 순서"의 보상을 정의하려면 임상 전문가, 윤리 위원회, 규제 기관의 합의 필요
17- 보상 함수 하나를 수정할 때마다 전체 재학습 → 반복 비용이 폭발적
183. How — 대안: 전문가 시연에서 배우기
19- 핵심 발상: "보상을 모르지만, 전문가는 있다"
20- 전문가의 행동 궤적 \tau^{*} = \{(s_0, a_0), (s_1, a_1), \dots\}가 곧 "무엇이 좋은 행동인지"의 암묵적 정보
21두 가지 접근법:
22- Imitation Learning (IL): 전문가 행동을 직접 모방 → 정책 $\pi_{\theta}(a|s) \approx \pi^{*}(a|s)$
23- Inverse RL (IRL): 전문가 행동에서 보상 함수를 역추론 → R_{\phi}(s,a)를 복원한 뒤 RL 수행 (Ng & Russell, 2000)
24\boxed{\text{IRL: } R^{*} = \arg\max_{R} \; P(\tau^{*} | R) \quad \text{(전문가 궤적을 가장 잘 설명하는 보상을 찾아라)}}
254. 현실에서의 대표 응용
26- ChatGPT / RLHF: 인간 선호 비교 데이터로 보상 모델 학습 → PPO로 LLM 미세조정 (Ouyang et al., 2022)
27- 로봇 조작: 사람이 원격 조작한 시연 데이터로 그리핑·조립 정책 학습 (Mandlekar et al., 2021)
28- 자율주행: 인간 운전자 궤적에서 비용 함수 복원 → 플래너에 사용 (Abbeel & Ng, 2004)
29- 의료 의사결정: 전문의의 처방 패턴에서 암묵적 보상 구조 역추론 → 치료 정책 최적화 (Raghu et al., 2017)
305. 핵심 정리 — 왜 이 분야가 중요한가
31- 보상 설계는 RL의 "아킬레스건" → 복잡한 현실 과제일수록 직접 설계가 불가능에 수렴
32- 전문가 시연은 보상의 프록시(proxy) 역할 → 명시적 수식 대신 암묵적 지식을 전달
33- IL은 빠르지만 분포 이동(distribution shift)에 취약, IRL은 강건하지만 계산 비용이 높음 → 이후 레슨에서 각각 깊이 다룸