다중 에이전트 강화학습 — 협력과 경쟁의 학습

1 / 16

지금까지 배운 DQN과 PPO는 단일 에이전트(single-agent) 설정이었습니다. 환경 안에 학습하는 주체가 딱 하나뿐이었죠. 하지만 현실 세계를 생각해보세요.

현실의 다중 에이전트 상황:

- 도로 위 자율주행 차량 수백 대가 동시에 주행합니다

- 주식시장에서 수천 명의 트레이더가 동시에 매매합니다

- 축구에서 22명의 선수가 동시에 전략적으로 움직입니다

- 로봇 공장에서 여러 로봇 팔이 협력해 조립합니다

- 드론 편대가 협력 탐색을 수행합니다

왜 단일 에이전트 RL로는 부족한가?

- 다른 에이전트의 행동이 환경을 바꿉니다 → 비정상성(non-stationarity)

- 내가 최적 정책을 찾아도, 상대가 전략을 바꾸면 무의미해집니다

- 상태-행동 공간이 에이전트 수에 따라 지수적으로 폭발합니다

- 에이전트 간 협력, 경쟁, 소통이 필요한 상황이 다양합니다

다중 에이전트 강화학습(MARL)은 여러 에이전트가 동시에 학습하고, 상호작용하며, 각자의 정책을 개선하는 프레임워크입니다. 단일 에이전트 RL의 MDP를 확장한 Stochastic Game(확률 게임) 또는 Markov Game으로 수학적으로 모델링합니다.

MARL의 핵심 도전과제:

- 비정상 환경: 다른 에이전트도 학습 중이므로 환경이 끊임없이 변합니다

- 결합 행동 공간: N개 에이전트의 행동 조합은 |A|^N으로 폭발합니다

- Credit Assignment: 팀 성공에서 누가 얼마나 기여했는지 판단이 어렵습니다

- 균형 개념: 내시 균형(Nash Equilibrium) 등 게임 이론적 해 개념이 필요합니다

0:00

2:18

🎓 강의 스크립트

지금까지 배운 DQN과 PPO는 환경에 에이전트가 하나뿐인 단일 에이전트 설정이었어요.

하지만 현실 세계를 떠올려 보세요, 도로 위에 자율주행 차량 수백 대가 동시에 달리고 있어요.

주식시장에서도 수천 명의 트레이더가 동시에 매매하고, 축구에서는 22명의 선수가 전략적으로 움직여요.

이런 상황에서 단일 에이전트 알엘로는 왜 부족할까요?

가장 큰 문제는 비정상성, 영어로 논 스테이셔너리티예요.

다른 에이전트들이 환경의 일부인데, 그들도 함께 학습하면서 행동이 변하니까 환경 자체가 계속 바뀌어요.

내가 최적 정책을 찾았다 해도, 상대가 전략을 바꿔버리면 그 정책은 더 이상 최적이 아니에요.

게다가 상태와 행동 공간이 에이전트 수에 따라 지수적으로 폭발해요.

에이전트가 N개이고 각각 행동이 A개라면, 결합 행동 공간은 A의 N제곱이 되어버려요.

다중 에이전트 강화학습, 말은 이런 문제를 해결하는 프레임워크예요.

말은 단일 에이전트의 MDP를 확장한 스토캐스틱 게임, 또는 마르코프 게임이라는 수학적 모델을 사용해요.

왼쪽 그림을 보시면, 단일 에이전트에서는 환경의 전이확률 T가 고정되어 있어서 벨만 방정식으로 수렴이 보장돼요.

하지만 오른쪽 멀티 에이전트 상황을 보세요, 전이확률이 모든 에이전트의 행동에 의존해요.

에이전트 1, 2, N이 동시에 행동을 선택하고, 환경은 이 결합 행동에 반응해요.

각 에이전트는 자신만의 보상을 받기 때문에, 이해관계가 일치할 수도, 충돌할 수도 있어요.

크레딧 어사인먼트 문제도 생겨요, 팀이 성공했을 때 누가 얼마나 기여했는지 판단하기 어렵거든요.

게임 이론에서 온 내시 이퀄리브리엄 개념도 중요해져요.

내시 이퀄리브리엄은 어떤 에이전트도 혼자서 전략을 바꿔서는 더 나은 결과를 얻을 수 없는 상태예요.

이렇게 말은 알엘, 게임 이론, 분산 시스템이 만나는 매우 흥미로운 분야예요.

이번 레슨에서 협력과 경쟁의 학습이 어떻게 이루어지는지 함께 살펴볼게요.

자, 다음 블록에서 말의 세 가지 유형을 구체적으로 알아보겠습니다.

💬 강의 Q&A

0:00

0:38

🎓 강의 스크립트

선생님: 말에서 환경이 비정상적인 이유를 멀티 에이전트 관점에서 설명해볼까요?

학생: 다른 에이전트들도 동시에 학습하면서 행동이 변하니까, 내 관점에서 보면 환경의 전이확률 자체가 계속 바뀌어요.

선생님: 정확해요! 그래서 단일 에이전트의 벨만 방정식 수렴 보장이 깨지는 거예요. 그렇다면 결합 행동 공간 폭발 문제는 어떻게 다루나요?

학생: 씨티디이 같은 방법으로 훈련할 때만 전체 정보를 쓰고, 실행할 때는 각자 분산적으로 행동하는 방식을 써요.

선생님: 맞아요, 중앙 집중 훈련 분산 실행 패러다임이 핵심 해결책이에요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

다중 에이전트 강화학습 — 협력과 경쟁의 학습

1 / 16

현실의 다중 에이전트 상황:

- 도로 위 자율주행 차량 수백 대가 동시에 주행합니다

- 주식시장에서 수천 명의 트레이더가 동시에 매매합니다

- 축구에서 22명의 선수가 동시에 전략적으로 움직입니다

- 로봇 공장에서 여러 로봇 팔이 협력해 조립합니다

- 드론 편대가 협력 탐색을 수행합니다

왜 단일 에이전트 RL로는 부족한가?

- 다른 에이전트의 행동이 환경을 바꿉니다 → 비정상성(non-stationarity)

- 내가 최적 정책을 찾아도, 상대가 전략을 바꾸면 무의미해집니다

- 상태-행동 공간이 에이전트 수에 따라 지수적으로 폭발합니다

- 에이전트 간 협력, 경쟁, 소통이 필요한 상황이 다양합니다

MARL의 핵심 도전과제:

- 비정상 환경: 다른 에이전트도 학습 중이므로 환경이 끊임없이 변합니다

- 결합 행동 공간: N개 에이전트의 행동 조합은 |A|^N으로 폭발합니다

- Credit Assignment: 팀 성공에서 누가 얼마나 기여했는지 판단이 어렵습니다

- 균형 개념: 내시 균형(Nash Equilibrium) 등 게임 이론적 해 개념이 필요합니다

0:00

2:18

🎓 강의 스크립트

지금까지 배운 DQN과 PPO는 환경에 에이전트가 하나뿐인 단일 에이전트 설정이었어요.

하지만 현실 세계를 떠올려 보세요, 도로 위에 자율주행 차량 수백 대가 동시에 달리고 있어요.

주식시장에서도 수천 명의 트레이더가 동시에 매매하고, 축구에서는 22명의 선수가 전략적으로 움직여요.

이런 상황에서 단일 에이전트 알엘로는 왜 부족할까요?

가장 큰 문제는 비정상성, 영어로 논 스테이셔너리티예요.

다른 에이전트들이 환경의 일부인데, 그들도 함께 학습하면서 행동이 변하니까 환경 자체가 계속 바뀌어요.

내가 최적 정책을 찾았다 해도, 상대가 전략을 바꿔버리면 그 정책은 더 이상 최적이 아니에요.

게다가 상태와 행동 공간이 에이전트 수에 따라 지수적으로 폭발해요.

에이전트가 N개이고 각각 행동이 A개라면, 결합 행동 공간은 A의 N제곱이 되어버려요.

다중 에이전트 강화학습, 말은 이런 문제를 해결하는 프레임워크예요.

말은 단일 에이전트의 MDP를 확장한 스토캐스틱 게임, 또는 마르코프 게임이라는 수학적 모델을 사용해요.

왼쪽 그림을 보시면, 단일 에이전트에서는 환경의 전이확률 T가 고정되어 있어서 벨만 방정식으로 수렴이 보장돼요.

하지만 오른쪽 멀티 에이전트 상황을 보세요, 전이확률이 모든 에이전트의 행동에 의존해요.

에이전트 1, 2, N이 동시에 행동을 선택하고, 환경은 이 결합 행동에 반응해요.

각 에이전트는 자신만의 보상을 받기 때문에, 이해관계가 일치할 수도, 충돌할 수도 있어요.

크레딧 어사인먼트 문제도 생겨요, 팀이 성공했을 때 누가 얼마나 기여했는지 판단하기 어렵거든요.

게임 이론에서 온 내시 이퀄리브리엄 개념도 중요해져요.

내시 이퀄리브리엄은 어떤 에이전트도 혼자서 전략을 바꿔서는 더 나은 결과를 얻을 수 없는 상태예요.

이렇게 말은 알엘, 게임 이론, 분산 시스템이 만나는 매우 흥미로운 분야예요.

이번 레슨에서 협력과 경쟁의 학습이 어떻게 이루어지는지 함께 살펴볼게요.

자, 다음 블록에서 말의 세 가지 유형을 구체적으로 알아보겠습니다.

💬 강의 Q&A

0:00

0:38

🎓 강의 스크립트

선생님: 말에서 환경이 비정상적인 이유를 멀티 에이전트 관점에서 설명해볼까요?

학생: 다른 에이전트들도 동시에 학습하면서 행동이 변하니까, 내 관점에서 보면 환경의 전이확률 자체가 계속 바뀌어요.

선생님: 정확해요! 그래서 단일 에이전트의 벨만 방정식 수렴 보장이 깨지는 거예요. 그렇다면 결합 행동 공간 폭발 문제는 어떻게 다루나요?

학생: 씨티디이 같은 방법으로 훈련할 때만 전체 정보를 쓰고, 실행할 때는 각자 분산적으로 행동하는 방식을 써요.

선생님: 맞아요, 중앙 집중 훈련 분산 실행 패러다임이 핵심 해결책이에요.