고급 비전 모델 — 트랜스포머와 멀티모달 → 분할(Segmentation) & 생성

시맨틱 분할

조밀한 예측을 위한 인코더-디코더 아키텍처를 사용하여 이미지의 모든 픽셀에 클래스 라벨을 할당합니다.

1 / 15

시맨틱 분할이란? 픽셀 단위 분류의 세계

왜 시맨틱 분할이란? 픽셀 단위 분류의 세계가 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다. 시맨틱 분할(Semantic Segmentation)이란? 이미지의 모든 픽셀 에 클래스 라벨을 부여하는 컴퓨터 비전 태스크입니다. "이 이미지에 고양이가 있다"가 아니라 "이 픽셀은 고양이, 저 픽셀은 배경"까지 알려주는 겁니다. 분류(Classification) vs 검출(Detection) vs 분할(Segmentation): | 태스크 | 출력 | 세밀도 | |---|---|---| | 분류 | 이미지 1개 \to 라벨 1개 | "고양이 사진" | | 검출 | 이미지 \to 바운딩 박스 + 라벨 | "여기에 고양이" (사각형) | | 시맨틱 분할 | 이미지 \to 픽셀별 라벨 맵 | "이 픽셀이 고양이" | 입출력 형태: - 입력: H\timesW\times3 (RGB 이미지) - 출력: H\timesW (각 픽셀 = 클래스 번호) - 모델 실제 출력: H\timesW\timesC (C = 클래스 수, softmax 전 logit) - argmax를 취하면 H\timesW 클래스 맵 Semantic vs Instance vs Panoptic: - Semantic : 같은 클래스 물체를 구분하지 않음 (사람 3명 = 전부 "사람") - Instance : 각 물체를 개별 마스크로 분리 (사람1, 사람2, 사람3) - Panoptic : Semantic + Instance (배경은 semantic, 물체는 instance) 대표 데이터셋: - PASCAL VOC: 21클래스 (배경 포함) - Cityscapes: 도시 주행 30클래스 - ADE20K: 150클래스 (실내외 다양) - COCO-Stuff: 171클래스 FCN(Fully Convolutional Network)은 Long 등이 제안한 최초의 픽셀 단위 분류 네트워크이다 (Long et al., 2015).

0:00

2:33

🎓 강의 스크립트

시맨틱 분할은 이미지의 모든 픽셀에 클래스 라벨을 부여하는 태스크예요.

분류가 이미지 전체에 라벨 하나를 주는 거라면, 시맨틱 세그멘테이션은 픽셀 하나하나에 라벨을 줘요.

왼쪽 그리드를 보세요. RGB 이미지의 각 픽셀이 sky, tree, car, road 같은 의미를 갖고 있어요.

검출은 그 중간이에요. 바운딩 박스로 물체 위치를 찾지만, 정확한 윤곽은 몰라요.

시맨틱 분할의 입력은 RGB 이미지고, 출력은 같은 크기의 클래스 맵이에요.

가운데 출력 그리드를 보시면, 각 픽셀이 0부터 C 빼기 1까지의 숫자 하나를 가져요.

0은 하늘, 1은 자동차, 2는 나무, 3은 도로예요. 이 숫자가 클래스 번호인 거죠.

모델은 각 픽셀마다 C개 클래스에 대한 확률을 출력하고, argmax로 최종 라벨을 정해요.

그래서 시맨틱 분할은 사실 H 곱하기 W개의 독립적인 분류 문제라고 볼 수 있어요.

오른쪽 비교 표를 보세요. 분류, 검출, 시맨틱 분할, 인스턴스 분할, 파놉틱 분할을 정리했어요.

분류의 단위는 이미지 전체, 검출은 물체, 시맨틱 분할은 픽셀이에요. 해상도가 점점 세밀해지는 거죠.

인스턴스 분할은 같은 클래스의 물체도 개별 ID로 구분해요. 마스크 더하기 ID가 출력이에요.

파놉틱 분할은 시맨틱과 인스턴스를 합친 거예요. 모든 픽셀에 클래스와 인스턴스 정보를 함께 줘요.

대표 데이터셋은 VOC가 21개 클래스, Cityscapes가 19개, ADE20K가 150개 클래스예요.

Cityscapes는 자율주행에, ADE20K는 실내외 장면에 많이 쓰여요. 목적에 맞게 선택하면 돼요.

자율주행에서는 도로, 차선, 보행자를 픽셀 단위로 정확히 구분해야 해서 시맨틱 분할이 핵심이에요.

의료 영상에서도 장기나 병변의 정확한 윤곽을 파악하는 데 시맨틱 분할이 쓰여요.

분할의 어려운 점은 경계예요. 물체와 물체 사이 경계 픽셀을 정확히 분류하는 게 가장 어려워요.

또 클래스 불균형도 문제예요. 배경이 대부분을 차지하고 물체는 작은 영역만 차지하거든요.

하단 강조 박스를 보세요. 핵심을 한 문장으로 정리하면, 시맨틱 분할은 H 곱하기 W개의 독립적 분류 문제예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

트랜스포머 시험attention 수식 정리self-attention 원리트랜스포머 과제

비전공/입문자

트랜스포머 쉽게attention 직관트랜스포머란

취준생

트랜스포머 면접attention 구현NLP 엔지니어 준비

직장인

트랜스포머 실무LLM 파인튜닝

대학원생/연구자

attention mechanism 논문efficient transformer 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비