로봇 인지(Perception) — 로봇의 감각 시스템

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

로봇 AI 정리로봇 모방학습robot manipulation 과제

비전공/입문자

Embodied AI란로봇 AI 입문

취준생

로봇 AI 취업robotics 포트폴리오

직장인

로봇 자동화산업용 로봇 AI

대학원생/연구자

VLA 모델 논문robot foundation modelsim-to-real

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

로봇 인지(Perception) — 로봇의 감각 시스템

카메라, LiDAR, 촉각센서, IMU, 포인트클라우드, SLAM, 깊이 추정, 센서 퓨전, 오픈 어휘 검출, NeRF, 3DGS

1 / 16

왜 로봇에게 "보는 것"이 어려운가?

왜 왜 로봇에게 "보는 것"이 어려운가?이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

여러분은 방에 들어서는 순간 0.1초 만에 테이블 위치, 문까지의 거리, 바닥 장애물을 무의식적으로 파악합니다.

10억 년 진화가 선물한 이 시각 능력을 로봇에게 부여하려면 어떻게 해야 할까요? 인간의 망막에는 약 1.2억 개의 광수용체가 있고, 시각 피질은 뇌 전체의 30%를 차지합니다. 우리가 "그냥 본다"고 느끼는 행위 뒤에는 엄청난 연산이 숨어 있습니다.

로봇에게 이것이 어려운 이유는 크게 세 가지입니다. 첫째, 센서 노이즈 — 카메라 이미지에는 조명 변화, 모션 블러, 가려짐(occlusion)이 항상 존재합니다. 둘째, 3D 세계를 2D로 투영하면서 깊이 정보가 사라집니다. 셋째, 의미 이해 — 픽셀 값을 "이것은 커피컵이다"라는 개념으로 바꾸는 것은 수십 년간 AI의 핵심 도전이었습니다.

그래서 로봇 인지(Perception)는 카메라, LiDAR, 촉각센서, IMU 등 다양한 센서를 조합하고, 딥러닝으로 의미를 부여하는 복합 시스템입니다.

핵심: 인간에게 쉬운 "보기"가 로봇에게는 가장 어려운 문제이며, 이것이 이 레슨의 주제입니다.

0:00

1:40

🎓 강의 스크립트

여러분, 한번 주변을 둘러보세요.

눈앞에 있는 물건들이 무엇인지, 얼마나 떨어져 있는지, 어떤 재질인지 순식간에 파악되죠?

이런 일이 인간에게는 너무 자연스럽지만, 로봇에게는 엄청나게 어려운 과제입니다.

그림 왼쪽을 보시면 인간의 시각 처리 과정이 나와 있어요.

우리 눈에는 약 1억 2천만 개의 간상체가 있고, 시각 피질이 계층적으로 정보를 처리합니다.

브이원에서 엣지를 검출하고, 브이투에서 형태를 결합하고, 브이포에서 색상과 질감을 분석해요.

수백만 년 진화 덕분에 우리는 50밀리초, 즉 0.05초 만에 물체를 인식할 수 있어요.

이제 가운데 주황색 박스를 보세요.

첫 번째 도전은 센서 노이즈입니다.

카메라 이미지에는 조명 변화, 모션 블러, 어클루전이 항상 존재하죠.

두 번째는 실시간 제약이에요.

자율주행 차량은 100밀리초 이내에 판단을 마쳐야 하는데, 30에프피에스 카메라라면 프레임당 33밀리초밖에 없어요.

세 번째는 일반화 한계입니다.

딥러닝 모델은 학습 데이터에 없는 물체를 만나면 인식에 실패하는 경우가 많아요.

이것을 오픈 보캐뷸러리 문제라고 부릅니다.

이제 오른쪽 보라색 영역을 보시면 로봇의 퍼셉션 파이프라인이 정리되어 있어요.

알지비 카메라와 라이다에서 데이터를 받아서, 전처리, 특징 추출, 탐지, 추적 단계를 거칩니다.

최종 목표는 맨 아래 초록 박스의 행동 계획, 즉 플래닝 단계로 넘기는 거예요.

결국 로봇 퍼셉션은 센서 데이터를 받아서 의미 있는 정보로 바꾸는 전체 과정입니다.

이번 레슨에서 이 파이프라인의 각 단계를 하나하나 살펴보겠습니다.

💬 강의 Q&A

0:00

0:37

🎓 강의 스크립트

선생님: 로봇에게 보는 것이 어려운 근본적인 이유를 한마디로 설명할 수 있나요?

학생: 인간은 수백만 년 진화로 무의식적으로 시각을 처리하지만, 로봇은 모든 걸 센서와 알고리즘으로 명시적 계산해야 해서요.

선생님: 정확해요. 그러면 세 가지 도전 과제 중에서 자율주행에 가장 치명적인 건 무엇일까요?

학생: 실시간 제약이요. 100밀리초 안에 판단하지 못하면 사고가 날 수 있으니까요.

선생님: 맞아요. 속도와 정확도의 트레이드오프가 핵심이에요.