YOLO 객체 검출 — 한 눈에 모든 것을 찾기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

YOLO 객체 검출 — 한 눈에 모든 것을 찾기

바운딩 박스와 클래스 예측을 통한 실시간 단일 샷 객체 탐지를 위한 YOLO 아키텍처를 이해합니다.

1 / 15

객체 검출이란? 분류 vs 검출 vs 분할

왜 객체 검출이란? 분류 vs 검출 vs 분할이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

컴퓨터 비전의 3가지 레벨:

1. 이미지 분류 (Classification)

- "이 사진에 뭐가 있지?" → "고양이"

- 이미지 전체에 하나의 레이블만 부여

- 객체가 어디에 있는지는 모름

- 예: ImageNet 분류 ("이 사진은 골든리트리버")

2. 객체 검출 (Object Detection)

- "어디에 뭐가 있지?" → "(x, y, w, h) = 고양이"

- 바운딩 박스(Bounding Box)로 위치를 표시

- 한 이미지에 여러 객체를 동시에 찾음

- 예: 자율주행에서 사람, 차, 신호등 동시에 검출

3. 시맨틱/인스턴스 분할 (Segmentation)

- "정확히 어디까지가 객체지?" → 픽셀 단위 마스크

- 시맨틱: 같은 클래스 = 같은 색 (모든 차가 파란색)

- 인스턴스: 개별 객체마다 다른 색 (차1=파랑, 차2=빨강)

- 예: 의료영상에서 종양 경계 정확히 표시

바운딩 박스란?

객체를 감싸는 최소 직사각형으로, (x, y, w, h) 4개 숫자로 표현해요:

- x, y: 박스 중심 좌표 (또는 좌상단)

- w, h: 박스의 너비와 높이

- 추가로 confidence (0~1): "이 박스에 진짜 객체가 있을 확률"

- 추가로 class: 어떤 종류의 객체인지 (사람, 차, 개, ...)

왜 객체 검출이 어려울까?

- 객체 개수가 이미지마다 다름 (0개? 100개?)

- 객체 크기가 다양함 (아주 작거나 아주 큼)

- 겹침(Occlusion): 객체끼리 가려짐

- 다양한 각도: 같은 객체를 정면, 측면, 위에서 봄

0:00

2:20

🎓 강의 스크립트

컴퓨터 비전에는 세 가지 큰 과제가 있어요. 분류, 검출, 분할. 그림을 보면서 하나씩 살펴볼게요.

왼쪽 파란 상자를 보세요. 이미지 분류는 사진 한 장에 레이블 하나를 붙이는 거예요.

224 곱하기 224 픽셀 이미지를 넣으면, "이건 고양이"라고 하나의 답만 내놔요.

하지만 사진에 고양이와 개가 같이 있으면요? 분류만으로는 둘 다 알려줄 수 없어요.

그래서 가운데 빨간 상자, 객체 검출이 필요해요. 어디에 뭐가 있는지 바운딩 박스로 찍어주죠.

검출 결과를 보면, 클래스, 엑스 와이 좌표, 너비 높이, 그리고 신뢰도까지 한 묶음이에요.

"여기에 고양이 0.92, 저기에 개 0.88" — 위치와 종류를 동시에 알려줘요.

그림 아래쪽 화살표를 보세요. 왼쪽에서 오른쪽으로 갈수록 세밀도가 올라가요.

오른쪽 보라색 상자는 인스턴스 분할이에요. 바운딩 박스가 아니라 픽셀 단위 마스크를 씌워요.

고양이의 정확한 윤곽선을 따라 색칠하는 거라고 생각하면 돼요.

분할은 자율주행에서 도로와 보행자를 구분할 때 특히 유용해요.

그런데 분할은 계산량이 많아서 실시간 처리가 어려워요. 그래서 검출이 실전에서 더 많이 쓰여요.

오늘 배울 욜로, YOLO는 객체 검출의 대표 모델이에요. 한 번의 순전파로 모든 객체를 찾아요.

욜로라는 이름은 "You Only Look Once"의 약자예요. 이미지를 딱 한 번만 본다는 뜻이죠.

이전의 R-CNN 계열은 후보 영역을 먼저 찾고, 그다음 분류해서 두 단계가 필요했어요.

욜로는 이 두 단계를 하나로 합쳤어요. 그래서 속도가 압도적으로 빨라요.

실시간 영상에서 초당 30프레임 이상 처리가 가능해요. CCTV, 자율주행에 딱이죠.

정리하면, 분류는 "무엇인가", 검출은 "어디에 무엇이", 분할은 "정확히 어떤 모양으로" 답해요.

이번 레슨에서는 검출의 핵심인 욜로를 처음부터 끝까지 파헤쳐 볼게요.

자, 그러면 다음 슬라이드에서 욜로의 핵심 아이디어부터 시작해 봅시다!

💬 강의 Q&A

0:00

0:45

🎓 강의 스크립트

선생님: 자, 여기서 질문! 객체 검출과 이미지 분류의 가장 큰 차이가 뭘까요?

학생: 음... 검출은 위치도 알려주고, 하나 이상의 객체를 찾을 수 있다는 거요?

선생님: 맞아요! 분류는 이미지당 레이블 하나지만, 검출은 여러 객체의 위치와 클래스를 동시에 찾아요. 그래서 출력이 가변 길이예요.

학생: 그럼 검출이 항상 분류보다 좋은 건가요?

선생님: 꼭 그렇진 않아요. 검출은 더 많은 연산이 필요하고, 단순히 "이게 뭐지?"만 알면 될 때는 분류가 효율적이에요. 문제에 맞는 도구를 고르는 게 중요하죠.

학생: 아, 그래서 분류 모델이 여전히 많이 쓰이는 거군요!