이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 강화학습(RL) — 시행착오로 배우는 에이전트 → 심층 강화학습 — 딥러닝과 강화학습의 만남 → 다중 에이전트 RL
지금까지 배운 DQN과 PPO는 환경에 에이전트가 하나뿐인 단일 에이전트 설정이었어요.
하지만 현실 세계를 떠올려 보세요, 도로 위에 자율주행 차량 수백 대가 동시에 달리고 있어요.
주식시장에서도 수천 명의 트레이더가 동시에 매매하고, 축구에서는 22명의 선수가 전략적으로 움직여요.
이런 상황에서 단일 에이전트 알엘로는 왜 부족할까요?
가장 큰 문제는 비정상성, 영어로 논 스테이셔너리티예요.
다른 에이전트들이 환경의 일부인데, 그들도 함께 학습하면서 행동이 변하니까 환경 자체가 계속 바뀌어요.
내가 최적 정책을 찾았다 해도, 상대가 전략을 바꿔버리면 그 정책은 더 이상 최적이 아니에요.
게다가 상태와 행동 공간이 에이전트 수에 따라 지수적으로 폭발해요.
에이전트가 N개이고 각각 행동이 A개라면, 결합 행동 공간은 A의 N제곱이 되어버려요.
다중 에이전트 강화학습, 말은 이런 문제를 해결하는 프레임워크예요.
말은 단일 에이전트의 MDP를 확장한 스토캐스틱 게임, 또는 마르코프 게임이라는 수학적 모델을 사용해요.
왼쪽 그림을 보시면, 단일 에이전트에서는 환경의 전이확률 T가 고정되어 있어서 벨만 방정식으로 수렴이 보장돼요.
하지만 오른쪽 멀티 에이전트 상황을 보세요, 전이확률이 모든 에이전트의 행동에 의존해요.
에이전트 1, 2, N이 동시에 행동을 선택하고, 환경은 이 결합 행동에 반응해요.
각 에이전트는 자신만의 보상을 받기 때문에, 이해관계가 일치할 수도, 충돌할 수도 있어요.
크레딧 어사인먼트 문제도 생겨요, 팀이 성공했을 때 누가 얼마나 기여했는지 판단하기 어렵거든요.
게임 이론에서 온 내시 이퀄리브리엄 개념도 중요해져요.
내시 이퀄리브리엄은 어떤 에이전트도 혼자서 전략을 바꿔서는 더 나은 결과를 얻을 수 없는 상태예요.
이렇게 말은 알엘, 게임 이론, 분산 시스템이 만나는 매우 흥미로운 분야예요.
이번 레슨에서 협력과 경쟁의 학습이 어떻게 이루어지는지 함께 살펴볼게요.
자, 다음 블록에서 말의 세 가지 유형을 구체적으로 알아보겠습니다.
선생님: 말에서 환경이 비정상적인 이유를 멀티 에이전트 관점에서 설명해볼까요?
학생: 다른 에이전트들도 동시에 학습하면서 행동이 변하니까, 내 관점에서 보면 환경의 전이확률 자체가 계속 바뀌어요.
선생님: 정확해요! 그래서 단일 에이전트의 벨만 방정식 수렴 보장이 깨지는 거예요. 그렇다면 결합 행동 공간 폭발 문제는 어떻게 다루나요?
학생: 씨티디이 같은 방법으로 훈련할 때만 전체 정보를 쓰고, 실행할 때는 각자 분산적으로 행동하는 방식을 써요.
선생님: 맞아요, 중앙 집중 훈련 분산 실행 패러다임이 핵심 해결책이에요.