이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → DQN과 변형
Q-table의 한계를 신경망으로 극복한 DQN의 아키텍처, Experience Replay, Target Network, 그리고 Double/Dueling/Rainbow 변형까지 학습합니다.
큐러닝은 큐테이블에 모든 상태와 행동 쌍의 가치를 저장하는 방식이에요.
그런데 아타리 게임 화면은 210곱하기160 픽셀에 3채널이라서, 가능한 상태 수가 10의 67000제곱이에요.
이렇게 천문학적인 상태를 테이블에 저장하는 건 물리적으로 불가능하죠.
로봇 관절 각도나 자동차 속도 같은 연속적인 실수 값도 테이블에 넣을 수 없어요.
게다가 비슷한 상태여도 별개로 취급해서 학습 경험을 전혀 공유하지 못해요.
그림 왼쪽을 보시면 큐테이블의 세 가지 한계가 정리되어 있어요.
상태 폭발, 연속 상태 불가, 일반화 불가 — 이 세 가지가 핵심 문제예요.
해결책은 신경망으로 큐 함수를 근사하는 거예요.
큐 에스 에이 세미콜론 세타 — 유한한 파라미터 세타로 무한한 상태를 커버하는 거죠.
그림 오른쪽을 보시면 디큐엔의 구조가 나와 있어요.
입력으로 84곱하기84 크기의 게임 화면 4장을 받아요.
씨엔엔 레이어를 통과하면서 공간적 특징을 추출하고요.
완전연결 레이어를 거쳐 모든 행동의 큐값을 한 번에 출력해요.
비슷한 상태는 자동으로 비슷한 큐값을 내놓으니까 일반화가 되는 거예요.
수백만 개의 파라미터로 10의 67000제곱 상태를 커버할 수 있게 된 거죠.
2015년 딥마인드가 네이처 논문으로 발표했어요.
아타리 49개 게임에서 인간 수준의 성능을 달성한 역사적인 연구예요.
디큐엔의 두 가지 핵심 비결은 익스피리언스 리플레이와 타깃 네트워크예요.
이 두 기법 덕분에 신경망으로도 안정적으로 강화학습을 할 수 있게 됐어요.
이번 레슨에서 이 모든 내용을 하나씩 깊이 있게 살펴볼 거예요.
다음 슬라이드에서 디큐엔의 전체 아키텍처를 자세히 보겠습니다.
선생님: 큐테이블에서 신경망으로의 전환이 왜 혁명적이었나요?
학생: 연속적이고 거대한 상태 공간을 다룰 수 있게 되면서 아타리 같은 실제 문제를 풀 수 있게 됐어요.
선생님: 맞아요! 그런데 신경망을 강화학습에 바로 쓰면 어떤 문제가 생기나요?
학생: 연속된 경험 데이터의 상관관계와 학습 타깃이 계속 변하는 문제가 있어서 발산할 수 있어요.
선생님: 정확해요. 그래서 디큐엔은 어떤 두 가지 기법으로 이걸 해결했나요?
학생: 익스피리언스 리플레이로 상관관계를 끊고, 타깃 네트워크로 학습 타깃을 안정시켰어요.