DQN (Deep Q-Network) — 딥러닝으로 게임 정복

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

DQN (Deep Q-Network) — 딥러닝으로 게임 정복

Q-table의 한계를 신경망으로 극복한 DQN의 아키텍처, Experience Replay, Target Network, 그리고 Double/Dueling/Rainbow 변형까지 학습합니다.

1 / 19

Q-table의 한계 → 신경망 근사

왜 Q-table의 한계 → 신경망 근사가 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

Q-Learning은 Q-table에 모든 상태-행동 쌍의 가치를 저장합니다. 하지만 실제 문제에서는 이 방식이 근본적으로 작동하지 않습니다.

Q-table이 실패하는 이유:

1. 상태 공간 폭발: Atari 게임의 화면은 210×160 픽셀 × 3채널 — 가능한 상태 수가 256^(210×160×3) \approx 10^(67,000) 이상

2. 연속 상태: 로봇 관절 각도, 자동차 속도 등은 실수 값 — 테이블에 저장 불가

3. 일반화 불가: 비슷한 상태여도 별개로 취급하여 학습 경험을 공유할 수 없음

해결책: 함수 근사 (Function Approximation)

Q(s, a) \approx $Q(s, a; \theta)$

신경망 파라미터 θ로 Q 함수를 근사하면:

- 유한한 파라미터(수만~수백만)로 무한한 상태 공간 커버

- 비슷한 상태에 대해 자동으로 일반화 (feature extraction)

- 연속 상태를 직접 입력으로 사용 가능

- 고차원 입력(이미지)도 처리 가능

Deep Q-Network (DQN)은 이 아이디어를 구현한 혁신적 알고리즘입니다:

- 상태 s를 입력받아 모든 행동의 Q값을 출력하는 심층 신경망

- 2015년 DeepMind가 Nature 논문으로 발표, Atari 49개 게임에서 인간 수준 성능 달성

- 두 가지 핵심 기법: Experience Replay + Target Network

- 딥 강화학습(Deep RL) 시대를 연 기념비적 연구

0:00

1:54

🎓 강의 스크립트

큐러닝은 큐테이블에 모든 상태와 행동 쌍의 가치를 저장하는 방식이에요.

그런데 아타리 게임 화면은 210곱하기160 픽셀에 3채널이라서, 가능한 상태 수가 10의 67000제곱이에요.

이렇게 천문학적인 상태를 테이블에 저장하는 건 물리적으로 불가능하죠.

로봇 관절 각도나 자동차 속도 같은 연속적인 실수 값도 테이블에 넣을 수 없어요.

게다가 비슷한 상태여도 별개로 취급해서 학습 경험을 전혀 공유하지 못해요.

그림 왼쪽을 보시면 큐테이블의 세 가지 한계가 정리되어 있어요.

상태 폭발, 연속 상태 불가, 일반화 불가 — 이 세 가지가 핵심 문제예요.

해결책은 신경망으로 큐 함수를 근사하는 거예요.

큐 에스 에이 세미콜론 세타 — 유한한 파라미터 세타로 무한한 상태를 커버하는 거죠.

그림 오른쪽을 보시면 디큐엔의 구조가 나와 있어요.

입력으로 84곱하기84 크기의 게임 화면 4장을 받아요.

씨엔엔 레이어를 통과하면서 공간적 특징을 추출하고요.

완전연결 레이어를 거쳐 모든 행동의 큐값을 한 번에 출력해요.

비슷한 상태는 자동으로 비슷한 큐값을 내놓으니까 일반화가 되는 거예요.

수백만 개의 파라미터로 10의 67000제곱 상태를 커버할 수 있게 된 거죠.

2015년 딥마인드가 네이처 논문으로 발표했어요.

아타리 49개 게임에서 인간 수준의 성능을 달성한 역사적인 연구예요.

디큐엔의 두 가지 핵심 비결은 익스피리언스 리플레이와 타깃 네트워크예요.

이 두 기법 덕분에 신경망으로도 안정적으로 강화학습을 할 수 있게 됐어요.

이번 레슨에서 이 모든 내용을 하나씩 깊이 있게 살펴볼 거예요.

다음 슬라이드에서 디큐엔의 전체 아키텍처를 자세히 보겠습니다.

💬 강의 Q&A

0:00

0:38

🎓 강의 스크립트

선생님: 큐테이블에서 신경망으로의 전환이 왜 혁명적이었나요?

학생: 연속적이고 거대한 상태 공간을 다룰 수 있게 되면서 아타리 같은 실제 문제를 풀 수 있게 됐어요.

선생님: 맞아요! 그런데 신경망을 강화학습에 바로 쓰면 어떤 문제가 생기나요?

학생: 연속된 경험 데이터의 상관관계와 학습 타깃이 계속 변하는 문제가 있어서 발산할 수 있어요.

선생님: 정확해요. 그래서 디큐엔은 어떤 두 가지 기법으로 이걸 해결했나요?

학생: 익스피리언스 리플레이로 상관관계를 끊고, 타깃 네트워크로 학습 타깃을 안정시켰어요.