이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → AI 로보틱스 & Embodied AI — 몸을 가진 지능 → AI 로보틱스 & Embodied AI — 물리 세계의 지능 → 기초
카메라, LiDAR, 촉각센서, IMU, 포인트클라우드, SLAM, 깊이 추정, 센서 퓨전, 오픈 어휘 검출, NeRF, 3DGS
여러분, 한번 주변을 둘러보세요.
눈앞에 있는 물건들이 무엇인지, 얼마나 떨어져 있는지, 어떤 재질인지 순식간에 파악되죠?
이런 일이 인간에게는 너무 자연스럽지만, 로봇에게는 엄청나게 어려운 과제입니다.
그림 왼쪽을 보시면 인간의 시각 처리 과정이 나와 있어요.
우리 눈에는 약 1억 2천만 개의 간상체가 있고, 시각 피질이 계층적으로 정보를 처리합니다.
브이원에서 엣지를 검출하고, 브이투에서 형태를 결합하고, 브이포에서 색상과 질감을 분석해요.
수백만 년 진화 덕분에 우리는 50밀리초, 즉 0.05초 만에 물체를 인식할 수 있어요.
이제 가운데 주황색 박스를 보세요.
첫 번째 도전은 센서 노이즈입니다.
카메라 이미지에는 조명 변화, 모션 블러, 어클루전이 항상 존재하죠.
두 번째는 실시간 제약이에요.
자율주행 차량은 100밀리초 이내에 판단을 마쳐야 하는데, 30에프피에스 카메라라면 프레임당 33밀리초밖에 없어요.
세 번째는 일반화 한계입니다.
딥러닝 모델은 학습 데이터에 없는 물체를 만나면 인식에 실패하는 경우가 많아요.
이것을 오픈 보캐뷸러리 문제라고 부릅니다.
이제 오른쪽 보라색 영역을 보시면 로봇의 퍼셉션 파이프라인이 정리되어 있어요.
알지비 카메라와 라이다에서 데이터를 받아서, 전처리, 특징 추출, 탐지, 추적 단계를 거칩니다.
최종 목표는 맨 아래 초록 박스의 행동 계획, 즉 플래닝 단계로 넘기는 거예요.
결국 로봇 퍼셉션은 센서 데이터를 받아서 의미 있는 정보로 바꾸는 전체 과정입니다.
이번 레슨에서 이 파이프라인의 각 단계를 하나하나 살펴보겠습니다.
선생님: 로봇에게 보는 것이 어려운 근본적인 이유를 한마디로 설명할 수 있나요?
학생: 인간은 수백만 년 진화로 무의식적으로 시각을 처리하지만, 로봇은 모든 걸 센서와 알고리즘으로 명시적 계산해야 해서요.
선생님: 정확해요. 그러면 세 가지 도전 과제 중에서 자율주행에 가장 치명적인 건 무엇일까요?
학생: 실시간 제약이요. 100밀리초 안에 판단하지 못하면 사고가 날 수 있으니까요.
선생님: 맞아요. 속도와 정확도의 트레이드오프가 핵심이에요.