이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 컴퓨터 비전(Computer Vision) — 기계에게 눈을 주다 → 딥러닝을 활용한 비전 — 검출에서 세그멘테이션까지 → 객체 탐지
영역 제안 네트워크(Region Proposal Network) 후 분류 및 박스 회귀를 사용하는 Faster R-CNN 아키텍처를 탐구합니다.
객체 검출에는 크게 두 가지 방식이 있어요. 왼쪽의 1-stage와 오른쪽의 2-stage예요.
왼쪽을 보세요. 1-stage는 이미지를 한 번에 쭉 보면서 바로 결과를 뱉어요.
대표적으로 YOLO가 있죠. 이미지를 13곱하기13 그리드로 나눠요.
왼쪽 아래 격자를 보시면, 각 셀이 직접 바운딩 박스와 클래스를 예측해요.
속도가 30에서 60 에프피에스까지 나와요. 실시간 처리가 가능하죠.
하지만 작은 물체를 놓치기 쉬워요. 한 번에 다 처리하니 꼼꼼하지 못한 거예요.
이제 오른쪽을 보세요. 2-stage는 두 단계를 거쳐요.
먼저 스테이지 1에서 알피엔이 물체가 있을 만한 후보 영역을 약 300개 제안해요.
오른쪽 아래 박스들을 보시면, 다양한 크기의 후보 영역이 제안된 걸 볼 수 있어요.
그다음 스테이지 2에서 각 후보를 정밀하게 분류하고 위치를 정제해요.
씨오씨오 벤치마크에서 엠에이피가 42에서 50 이상까지 나와요. 정밀도가 높죠.
속도는 5에서 15 에프피에스로 느리지만, 작은 물체도 정확히 잡아내요.
가운데 하단 요약을 보세요. 정밀도가 중요하면 2-stage, 속도가 중요하면 1-stage예요.
의료 영상이나 자율주행 안전 시스템처럼 놓치면 안 되는 상황에선 2-stage가 필수예요.
반면 실시간 영상 감시나 로봇 네비게이션엔 1-stage가 적합하죠.
이번 레슨에서는 2-stage의 대표 모델인 패스터 알씨엔엔을 깊이 파헤칠 거예요.
알씨엔엔에서 패스터 알씨엔엔까지 어떻게 진화했는지, 그 핵심 구조를 하나하나 살펴봅시다.
특히 알피엔이 왜 혁명적인지, 알오아이 얼라인이 왜 필요한지 이해하게 될 거예요.
에프피엔 백본까지 다루면 현대 2-stage 검출기의 전체 그림이 완성됩니다.
자, 그럼 알씨엔엔 계보의 시작부터 출발해 볼까요?
선생님: 1-stage와 2-stage 검출기의 가장 근본적인 차이가 뭘까요?
학생: 1-stage는 한 번에 검출하고, 2-stage는 후보 제안과 정제를 나눠서 하는 거요.
선생님: 맞아요. 그러면 2-stage가 항상 더 좋은 건 아닌데, 왜 굳이 두 단계로 나눌까요?
학생: 후보를 먼저 걸러내니까 각 영역을 더 집중해서 분석할 수 있어서요?
선생님: 정확해요. 후보 영역에 집중하니까 특히 작은 물체나 겹친 물체에서 강점을 보여요.
학생: 그래서 자율주행 같은 안전 중요한 곳에서 2-stage를 쓰는 거군요.