셀프 어텐션 메커니즘 — 모든 것에 주목하기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

셀프 어텐션 메커니즘 — 모든 것에 주목하기

스케일드 닷-프로덕트 자기 어텐션을 처음부터 구현합니다.

1 / 19

Cross-Attention에서 Self-Attention으로

왜 Cross-Attention에서 Self-Attention으로이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

Cross-Attention은 인코더-디코더 사이의 참조입니다. 번역할 때 디코더가 인코더를 봅니다.

Self-Attention은 같은 시퀀스 내부에서 모든 위치가 서로를 참조합니다.

Q, K, V가 전부 같은 입력에서 나옵니다 — 이것이 "Self"의 의미입니다.

왜 중요한가? 어텐션 메커니즘은 원래 번역 모델의 Cross-Attention(인코더→디코더)에서 시작했습니다. Self-Attention은 이 아이디어를 확장하여 "같은 시퀀스 내 토큰끼리" 관계를 계산합니다. 이 전환이 혁명적인 이유는, RNN 없이도 시퀀스 내 모든 위치 쌍의 관계를 직접 모델링할 수 있게 되었기 때문입니다. RNN은 10 토큰 떨어진 단어의 관계를 파악하려면 10번의 순차 계산이 필요하지만, Self-Attention은 단 1번의 연산으로 직접 연결합니다.

0:00

2:03

🎓 강의 스크립트

여러분, 셀프 어텐션을 이해하려면 먼저 크로스 어텐션의 한계부터 봐야 합니다.

그림 왼쪽을 보세요. 크로스 어텐션은 기계 번역에서 인코더의 소스 문장과 디코더의 타겟 문장, 두 개의 다른 시퀀스를 연결했습니다.

쿼리는 디코더에서, 키와 밸류는 인코더에서 가져오는 구조입니다.

하지만 한 가지 큰 문제가 있었어요.

같은 문장 안에서 단어들끼리의 관계는 어떻게 파악할까요?

예를 들어 "The cat sat on the mat because it was tired"에서 it이 무엇을 가리키는지, 같은 문장 안에서 알아내야 합니다.

크로스 어텐션으로는 이게 불가능합니다. 소스와 타겟이 같은 문장이니까요.

이제 오른쪽 셀프 어텐션을 보세요.

셀프 어텐션은 쿼리, 키, 밸류를 모두 같은 시퀀스에서 만듭니다.

한 문장의 모든 토큰이 다른 모든 토큰과 직접 관계를 계산합니다.

오른쪽 아래 어텐션 점수 행렬을 보세요. 4 곱하기 4 그리드입니다.

it이라는 토큰이 cat에 0.42라는 높은 점수를 주고 있습니다.

중간에 7개의 토큰이 있어도, 셀프 어텐션은 단 한 번의 행렬곱으로 이 관계를 파악합니다.

알엔엔이라면 7단계를 순차적으로 거쳐야 하지만, 셀프 어텐션은 오 원의 경로 길이를 가집니다.

이것이 2017년 "Attention is All You Need" 논문의 핵심 아이디어입니다.

왼쪽의 크로스 어텐션 수식과 오른쪽 셀프 어텐션 수식을 비교해보세요.

크로스는 Attn에 쿼리 디코더, 키 인코더, 밸류 인코더를 넣지만.

셀프는 Attn에 쿼리 셀프, 키 셀프, 밸류 셀프를 넣습니다. 전부 같은 출처입니다.

이 간단한 변경이 자연어 처리의 패러다임을 완전히 바꿨습니다.

다음 블록에서 구체적인 예시로 셀프 어텐션이 어떻게 대명사를 해석하는지 살펴봅시다.

💬 강의 Q&A

0:00

0:36

🎓 강의 스크립트

선생님: 크로스 어텐션과 셀프 어텐션의 가장 큰 차이가 뭘까요?

학생: 크로스 어텐션은 쿼리가 한 시퀀스에서 오고 키와 밸류가 다른 시퀀스에서 오는데, 셀프 어텐션은 전부 같은 시퀀스에서 나오는 거 아닌가요?

선생님: 정확해요. 그래서 셀프 어텐션은 같은 문장 안에서 단어들 사이의 관계를 파악할 수 있습니다.

학생: 그러면 크로스 어텐션은 아예 안 쓰나요?

선생님: 아닙니다. 번역처럼 두 시퀀스를 연결해야 할 때는 여전히 크로스 어텐션을 씁니다. 트랜스포머 디코더에 둘 다 있어요.