비전 트랜스포머(ViT) — 패치로 이미지 읽기

합성곱을 자기 주의(self-attention)로 대체하여 분류를 위해 이미지 패치에 트랜스포머 아키텍처를 적용합니다.

1 / 15

ViT란? CNN 없이 Transformer로 이미지 분류하기

Vision Transformer(ViT)는 2020년 Google Brain이 발표한 논문 "An Image is Worth 16×16 Words"에서 제안된 모델입니다.

핵심 아이디어:

- CNN을 전혀 사용하지 않고 순수 Transformer만으로 이미지 분류

- 이미지를 고정 크기 패치(16×16)로 자르고, 각 패치를 "단어"처럼 취급

- NLP에서 검증된 Transformer 아키텍처를 그대로 비전에 적용

왜 혁명적인가?

- 2012년 AlexNet 이후 이미지 분류는 CNN의 독점 영역이었음

- ViT는 CNN의 귀납적 편향(locality, translation equivariance) 없이도 동작

- 충분한 데이터(JFT-300M)에서 학습하면 CNN을 능가하는 성능

- Transformer의 범용성을 증명 → NLP + Vision 통합의 시작

논문 제목이 말하는 것:

\text{"An Image is Worth 16×16 Words"}

→ 하나의 이미지는 16×16 크기의 "단어" 196개로 표현할 수 있다!

이후 DeiT, Swin Transformer, BEiT 등 수많은 Vision Transformer 변형이 등장했습니다.

왜 중요한가? ViT의 Self-Attention은 O(N²) 복잡도로, 고해상도 이미지(N=패치 수)에서 메모리와 계산량이 폭발합니다. 224×224에서 196패치는 괜찮지만, 1024×1024에서 4096패치면 어텐션 행렬이 16M 원소가 됩니다. Swin Transformer는 윈도우 내에서만 어텐션을 계산하고, Shifted Window로 윈도우 간 정보를 교환합니다. 이로써 O(N)의 선형 복잡도를 달성하면서도 글로벌 정보 흐름을 유지합니다. 계층적 구조로 다운샘플링하여 FPN과 결합 가능하므로, 분류뿐 아니라 검출/분할에서도 ViT를 실용적으로 만든 핵심 혁신입니다.

0:00

2:27

🎓 강의 스크립트

안녕하세요, 비전 트랜스포머, 줄여서 빗을 소개할게요.

2020년에 구글 브레인이 발표한 논문이에요. 제목이 "An Image is Worth 16 times 16 Words"예요.

핵심 아이디어는 놀라울 정도로 단순해요. 씨엔엔을 아예 쓰지 않고, 순수 트랜스포머만으로 이미지를 분류하는 거예요.

그림 왼쪽을 보세요. 전통 씨엔엔은 3곱하기3 합성곱을 반복해서, 지역 정보를 점진적으로 넓혀가요.

수용 영역이 처음엔 아주 작다가, 레이어를 쌓을수록 커지는 구조예요.

씨엔엔에는 두 가지 강한 귀납 편향이 있어요. 지역성, 그리고 이동 불변성이에요.

이 편향 덕분에 적은 데이터로도 잘 학습돼요. 하지만 한계도 있어요.

이제 그림 오른쪽을 보세요. 빗 방식이에요. 224곱하기224 이미지를 16곱하기16 패치로 잘라요.

잘린 패치 196개를 선형 투영으로 768차원 벡터로 바꿔요. 마치 엔엘피에서 단어를 임베딩하는 것과 같아요.

여기에 씨엘에스 토큰과 포지셔널 임베딩을 더한 뒤, 트랜스포머 인코더 12개 층을 통과시켜요.

셀프 어텐션 덕분에, 첫 번째 층부터 이미지 전체를 한눈에 봐요. 수용 영역이 처음부터 글로벌이에요.

그림 가운데 핵심 차이 박스를 보세요. 씨엔엔은 귀납 편향이 강해서 소량 데이터에 유리해요.

반면 빗은 귀납 편향이 거의 없어요. 그래서 대량의 데이터가 필요해요.

하지만 제이에프티 300엠이나 이미지넷 21케이처럼 대규모 데이터로 학습하면, 씨엔엔을 확실히 넘어서요.

이미지넷 21케이 사전학습 시 탑원 정확도 88.55퍼센트를 달성했어요.

핵심은 스케일링이에요. 데이터와 모델을 키우면 성능이 계속 좋아지는 구조. 이것이 빗 시대의 시작이에요.

지금부터 빗이 어떻게 이미지를 패치로 나누고, 트랜스포머로 처리하는지 차근차근 살펴볼게요.

이 과정을 이해하면, 왜 빗이 컴퓨터 비전의 판도를 바꿨는지 명확해질 거예요.

자, 그럼 패치 임베딩부터 시작해 볼까요?

씨엔엔과 빗의 가장 큰 차이, 귀납 편향과 스케일링 법칙을 꼭 기억해 주세요.

💬 강의 Q&A

0:00

0:48

🎓 강의 스크립트

선생님: 중요한 질문 하나 할게요. 빗이 이미지를 16곱하기16 패치로 나누는 이유가 뭘까요?

학생: 트랜스포머는 시퀀스 입력을 받으니까, 이미지를 작은 조각으로 나눠서 시퀀스로 만들려는 건가요?

선생님: 정확해요! 트랜스포머는 토큰 시퀀스를 입력으로 받잖아요. 이미지 전체를 한 토큰으로 넣으면 계산량이 폭발하니까, 16곱하기16 패치로 나눠서 196개의 시각적 토큰을 만드는 거예요.

학생: 아, 그래서 논문 제목이 "16곱하기16 Words"인 거군요!

선생님: 맞아요. 그리고 패치 크기를 바꾸면 토큰 수가 달라져요. 작은 패치는 토큰이 많아져서 정확도는 올라가지만, 계산량이 제곱으로 늘어나요. 이 트레이드오프도 기억해 두세요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

트랜스포머 시험attention 수식 정리self-attention 원리트랜스포머 과제

비전공/입문자

트랜스포머 쉽게attention 직관트랜스포머란

취준생

트랜스포머 면접attention 구현NLP 엔지니어 준비

직장인

트랜스포머 실무LLM 파인튜닝

대학원생/연구자

attention mechanism 논문efficient transformer 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

비전 트랜스포머(ViT) — 패치로 이미지 읽기

합성곱을 자기 주의(self-attention)로 대체하여 분류를 위해 이미지 패치에 트랜스포머 아키텍처를 적용합니다.

1 / 15

ViT란? CNN 없이 Transformer로 이미지 분류하기

Vision Transformer(ViT)는 2020년 Google Brain이 발표한 논문 "An Image is Worth 16×16 Words"에서 제안된 모델입니다.

핵심 아이디어:

- CNN을 전혀 사용하지 않고 순수 Transformer만으로 이미지 분류

- 이미지를 고정 크기 패치(16×16)로 자르고, 각 패치를 "단어"처럼 취급

- NLP에서 검증된 Transformer 아키텍처를 그대로 비전에 적용

왜 혁명적인가?

- 2012년 AlexNet 이후 이미지 분류는 CNN의 독점 영역이었음

- ViT는 CNN의 귀납적 편향(locality, translation equivariance) 없이도 동작

- 충분한 데이터(JFT-300M)에서 학습하면 CNN을 능가하는 성능

- Transformer의 범용성을 증명 → NLP + Vision 통합의 시작

논문 제목이 말하는 것:

\text{"An Image is Worth 16×16 Words"}

→ 하나의 이미지는 16×16 크기의 "단어" 196개로 표현할 수 있다!

이후 DeiT, Swin Transformer, BEiT 등 수많은 Vision Transformer 변형이 등장했습니다.

0:00

2:27

🎓 강의 스크립트

안녕하세요, 비전 트랜스포머, 줄여서 빗을 소개할게요.

2020년에 구글 브레인이 발표한 논문이에요. 제목이 "An Image is Worth 16 times 16 Words"예요.

핵심 아이디어는 놀라울 정도로 단순해요. 씨엔엔을 아예 쓰지 않고, 순수 트랜스포머만으로 이미지를 분류하는 거예요.

그림 왼쪽을 보세요. 전통 씨엔엔은 3곱하기3 합성곱을 반복해서, 지역 정보를 점진적으로 넓혀가요.

수용 영역이 처음엔 아주 작다가, 레이어를 쌓을수록 커지는 구조예요.

씨엔엔에는 두 가지 강한 귀납 편향이 있어요. 지역성, 그리고 이동 불변성이에요.

이 편향 덕분에 적은 데이터로도 잘 학습돼요. 하지만 한계도 있어요.

이제 그림 오른쪽을 보세요. 빗 방식이에요. 224곱하기224 이미지를 16곱하기16 패치로 잘라요.

잘린 패치 196개를 선형 투영으로 768차원 벡터로 바꿔요. 마치 엔엘피에서 단어를 임베딩하는 것과 같아요.

여기에 씨엘에스 토큰과 포지셔널 임베딩을 더한 뒤, 트랜스포머 인코더 12개 층을 통과시켜요.

셀프 어텐션 덕분에, 첫 번째 층부터 이미지 전체를 한눈에 봐요. 수용 영역이 처음부터 글로벌이에요.

그림 가운데 핵심 차이 박스를 보세요. 씨엔엔은 귀납 편향이 강해서 소량 데이터에 유리해요.

반면 빗은 귀납 편향이 거의 없어요. 그래서 대량의 데이터가 필요해요.

하지만 제이에프티 300엠이나 이미지넷 21케이처럼 대규모 데이터로 학습하면, 씨엔엔을 확실히 넘어서요.

이미지넷 21케이 사전학습 시 탑원 정확도 88.55퍼센트를 달성했어요.

핵심은 스케일링이에요. 데이터와 모델을 키우면 성능이 계속 좋아지는 구조. 이것이 빗 시대의 시작이에요.

지금부터 빗이 어떻게 이미지를 패치로 나누고, 트랜스포머로 처리하는지 차근차근 살펴볼게요.

이 과정을 이해하면, 왜 빗이 컴퓨터 비전의 판도를 바꿨는지 명확해질 거예요.

자, 그럼 패치 임베딩부터 시작해 볼까요?

씨엔엔과 빗의 가장 큰 차이, 귀납 편향과 스케일링 법칙을 꼭 기억해 주세요.

💬 강의 Q&A

0:00

0:48

🎓 강의 스크립트

선생님: 중요한 질문 하나 할게요. 빗이 이미지를 16곱하기16 패치로 나누는 이유가 뭘까요?

학생: 트랜스포머는 시퀀스 입력을 받으니까, 이미지를 작은 조각으로 나눠서 시퀀스로 만들려는 건가요?

학생: 아, 그래서 논문 제목이 "16곱하기16 Words"인 거군요!