이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → 학습 기반 로보틱스
Learn PPO, SAC, reward shaping, sim-to-real, domain randomization, hierarchical RL, and safe RL for robot control.
2016년, 구글 딥마인드가 공개한 영상 하나가 로봇공학의 패러다임을 바꿨습니다.
가상 에이전트가 아무 지시 없이 스스로 걷고, 달리고, 장애물을 뛰어넘는 모습이었죠.
프로그래머가 다리를 이렇게 움직여라 라고 코딩한 적이 없습니다.
에이전트에게 준 것은 앞으로 빨리 가면 리워드를 준다는 신호뿐이었습니다.
그림 상단을 보세요. 왼쪽 로봇에서 오른쪽 리워드까지 화살표가 이어집니다.
이것이 강화학습의 핵심 파이프라인입니다. 상태를 관찰하고, 폴리시가 행동을 선택하고, 환경이 리워드를 돌려줍니다.
상태에는 관절 각도, 각속도, 몸체 기울기 등이 포함되는데, 차원이 48에서 100을 넘기도 합니다.
행동 역시 연속값입니다. 왼쪽 오른쪽이 아니라, 각 관절에 실수값 토크를 보냅니다.
그림 하단을 보면 전통 제어와 강화학습의 비교가 있습니다.
피아이디나 엠피씨 같은 전통 제어는 정확한 동역학 모델이 필수입니다.
지형이 바뀌거나 외란이 오면 엔지니어가 직접 파라미터를 다시 조정해야 합니다.
반면 강화학습은 데이터에서 배우기 때문에 모델 방정식이 필요 없습니다.
시뮬레이션에서 수십억 스텝을 병렬로 돌려 다양한 상황을 경험시킬 수 있습니다.
리워드 피드백 루프를 보세요. 초록 점선이 리워드에서 다시 로봇으로 돌아갑니다.
이 루프를 수백만 번 반복하면 로봇은 넘어지지 않는 보행 전략을 스스로 발견합니다.
실제로 이 방법으로 ANYmal 사족보행 로봇이 눈밭과 계단을 걷는 데 성공했습니다.
이번 레슨에서는 피피오, 에스에이씨 같은 알고리즘부터 리워드 설계, 심투리얼 전이까지 다룹니다.
커리큘럼 학습과 레지듀얼 강화학습 같은 최신 기법도 함께 살펴볼 것입니다.
안전 제약, 계층적 제어, 멀티태스크 학습까지 로봇 강화학습의 전체 지형을 조망합니다.
자, 로봇이 시행착오로 움직임을 배우는 여정을 시작해 봅시다.
선생님: 로봇 강화학습이 모방학습과 다른 핵심 차이점은 뭘까요?
학생: 강화학습은 리워드를 통해 스스로 최적 전략을 발견하지만, 모방학습은 전문가 시연을 복제합니다.
선생님: 맞아요. 그래서 강화학습은 전문가보다 나은 해법을 찾을 수도 있죠.
학생: 그런데 시행착오 과정이 실제 로봇에서는 위험하고 비싸지 않나요?
선생님: 정확해요. 그래서 시뮬레이션에서 먼저 학습하고 현실로 전이하는 심투리얼이 핵심 패러다임이 된 겁니다.