이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 컴퓨터 비전(Computer Vision) — 기계에게 눈을 주다 → 딥러닝을 활용한 비전 — 검출에서 세그멘테이션까지 → 객체 탐지
바운딩 박스와 클래스 예측을 통한 실시간 단일 샷 객체 탐지를 위한 YOLO 아키텍처를 이해합니다.
컴퓨터 비전에는 세 가지 큰 과제가 있어요. 분류, 검출, 분할. 그림을 보면서 하나씩 살펴볼게요.
왼쪽 파란 상자를 보세요. 이미지 분류는 사진 한 장에 레이블 하나를 붙이는 거예요.
224 곱하기 224 픽셀 이미지를 넣으면, "이건 고양이"라고 하나의 답만 내놔요.
하지만 사진에 고양이와 개가 같이 있으면요? 분류만으로는 둘 다 알려줄 수 없어요.
그래서 가운데 빨간 상자, 객체 검출이 필요해요. 어디에 뭐가 있는지 바운딩 박스로 찍어주죠.
검출 결과를 보면, 클래스, 엑스 와이 좌표, 너비 높이, 그리고 신뢰도까지 한 묶음이에요.
"여기에 고양이 0.92, 저기에 개 0.88" — 위치와 종류를 동시에 알려줘요.
그림 아래쪽 화살표를 보세요. 왼쪽에서 오른쪽으로 갈수록 세밀도가 올라가요.
오른쪽 보라색 상자는 인스턴스 분할이에요. 바운딩 박스가 아니라 픽셀 단위 마스크를 씌워요.
고양이의 정확한 윤곽선을 따라 색칠하는 거라고 생각하면 돼요.
분할은 자율주행에서 도로와 보행자를 구분할 때 특히 유용해요.
그런데 분할은 계산량이 많아서 실시간 처리가 어려워요. 그래서 검출이 실전에서 더 많이 쓰여요.
오늘 배울 욜로, YOLO는 객체 검출의 대표 모델이에요. 한 번의 순전파로 모든 객체를 찾아요.
욜로라는 이름은 "You Only Look Once"의 약자예요. 이미지를 딱 한 번만 본다는 뜻이죠.
이전의 R-CNN 계열은 후보 영역을 먼저 찾고, 그다음 분류해서 두 단계가 필요했어요.
욜로는 이 두 단계를 하나로 합쳤어요. 그래서 속도가 압도적으로 빨라요.
실시간 영상에서 초당 30프레임 이상 처리가 가능해요. CCTV, 자율주행에 딱이죠.
정리하면, 분류는 "무엇인가", 검출은 "어디에 무엇이", 분할은 "정확히 어떤 모양으로" 답해요.
이번 레슨에서는 검출의 핵심인 욜로를 처음부터 끝까지 파헤쳐 볼게요.
자, 그러면 다음 슬라이드에서 욜로의 핵심 아이디어부터 시작해 봅시다!
선생님: 자, 여기서 질문! 객체 검출과 이미지 분류의 가장 큰 차이가 뭘까요?
학생: 음... 검출은 위치도 알려주고, 하나 이상의 객체를 찾을 수 있다는 거요?
선생님: 맞아요! 분류는 이미지당 레이블 하나지만, 검출은 여러 객체의 위치와 클래스를 동시에 찾아요. 그래서 출력이 가변 길이예요.
학생: 그럼 검출이 항상 분류보다 좋은 건가요?
선생님: 꼭 그렇진 않아요. 검출은 더 많은 연산이 필요하고, 단순히 "이게 뭐지?"만 알면 될 때는 분류가 효율적이에요. 문제에 맞는 도구를 고르는 게 중요하죠.
학생: 아, 그래서 분류 모델이 여전히 많이 쓰이는 거군요!