어텐션 기반 Seq2Seq — 번역기의 원리

시퀀스-투-시퀀스 작업을 위한 Bahdanau 어텐션을 가진 인코더-디코더 아키텍처를 구축합니다.

1 / 19

가변 길이 입출력 문제

번역을 생각해봅시다. "나는 학생이다"는 3 토큰, "I am a student"는 4 토큰입니다.

입력과 출력의 길이가 다릅니다. 이게 핵심 문제예요.

왜 기존 모델로 안 되는가:

- MLP: 고정 크기 입력 → 고정 크기 출력. 3단어 입력만 받게 만들면 5단어 문장은 처리 불가

- CNN: 필터 크기 고정, 출력 크기 고정. 가변 길이 시퀀스 생성 어려움

- RNN: 가변 길이 입력은 처리 가능! 하지만 출력도 가변 길이여야 함

필요한 것:

- 입력 시퀀스 길이: m (3, 10, 100 모두 가능)

- 출력 시퀀스 길이: n (m과 다를 수 있음)

- m \neq n인 상황을 자연스럽게 처리하는 구조

응용 분야:

- 기계 번역: 한국어 → 영어 (길이 다름)

- 요약: 긴 문서 → 짧은 요약

- 대화: 질문 → 답변 (길이 예측 불가)

- 음성 인식: 음성 프레임 → 텍스트 토큰

이 문제를 해결한 것이 Seq2Seq (Sequence-to-Sequence) 구조입니다.

왜 중요한가? 기존 신경망은 고정 크기 입력을 고정 크기 출력으로 매핑합니다. 그러나 기계 번역에서 "I love you"(3단어)는 "Je t'aime"(2단어)로, "Where is the nearest hospital?"(5단어)는 "Où est l'hôpital le plus proche?"(6단어)로 번역됩니다. 입력과 출력의 길이가 다르고 예측 불가능합니다. Seq2Seq는 인코더가 입력을 고정 길이 벡터로 압축하고, 디코더가 이를 기반으로 가변 길이 출력을 생성하여 이 문제를 해결합니다. 이 아이디어가 기계 번역, 요약, 대화 시스템 등 모든 시퀀스 변환 태스크의 기반이 됩니다.

0:00

1:31

🎓 강의 스크립트

번역이라는 과제를 한번 생각해 봅시다.

한국어 "나는 학생이다"를 영어로 바꾸면 "아이 앰 어 스튜던트"가 됩니다.

입력은 세 토큰인데 출력은 네 토큰이에요.

이처럼 입력과 출력의 길이가 다른 것이 핵심 문제입니다.

왼쪽 그림을 보시면, 기존 모델들이 왜 이 문제를 못 푸는지 정리했습니다.

엠엘피는 고정 크기 입력과 고정 크기 출력만 처리할 수 있어요.

세 단어 입력으로 설계하면 다섯 단어 문장은 아예 처리가 안 됩니다.

씨엔엔도 필터 크기가 고정이라 가변 길이 시퀀스 생성이 어렵습니다.

알엔엔은 가변 길이 입력을 처리할 수 있다는 큰 장점이 있어요.

하지만 출력도 가변 길이여야 한다는 문제가 남습니다.

그래서 등장한 것이 바로 인코더 디코더, 시퀀스 투 시퀀스 아키텍처입니다.

하단 파란 박스를 보세요.

인코더 알엔엔이 입력을 하나의 벡터로 압축합니다.

그리고 디코더 알엔엔이 이 벡터에서 출력을 한 단어씩 생성합니다.

2014년 서스케버 등이 이 방식을 처음 제안했어요.

입력 엠개 토큰을 고정 벡터로 만들고, 여기서 엔개 토큰을 생성하는 거죠.

엠과 엔이 달라도 전혀 문제없는 구조입니다.

이건 정말 획기적인 아이디어였습니다.

하지만 여기에도 심각한 문제가 숨어 있었어요.

다음 블록에서 그 병목 문제를 자세히 알아보겠습니다.

💬 강의 Q&A

0:00

0:34

🎓 강의 스크립트

선생님: 엠엘피나 씨엔엔이 번역 문제를 못 푸는 가장 핵심적인 이유는 뭘까요?

학생: 입력과 출력의 길이가 미리 정해져 있어서요. 세 단어 입력만 받게 만들면 다섯 단어는 처리 자체가 안 되잖아요.

선생님: 맞아요. 그렇다면 알엔엔은 왜 완벽한 해결책이 아닌 거죠?

학생: 알엔엔은 입력 길이는 자유롭지만, 출력 길이도 가변이어야 하는 건 해결 못 하니까요.

선생님: 정확합니다. 그래서 인코더와 디코더를 분리하는 시퀀스 투 시퀀스 구조가 필요했던 거예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

어텐션 기반 Seq2Seq — 번역기의 원리

시퀀스-투-시퀀스 작업을 위한 Bahdanau 어텐션을 가진 인코더-디코더 아키텍처를 구축합니다.

1 / 19

가변 길이 입출력 문제

번역을 생각해봅시다. "나는 학생이다"는 3 토큰, "I am a student"는 4 토큰입니다.

입력과 출력의 길이가 다릅니다. 이게 핵심 문제예요.

왜 기존 모델로 안 되는가:

- MLP: 고정 크기 입력 → 고정 크기 출력. 3단어 입력만 받게 만들면 5단어 문장은 처리 불가

- CNN: 필터 크기 고정, 출력 크기 고정. 가변 길이 시퀀스 생성 어려움

- RNN: 가변 길이 입력은 처리 가능! 하지만 출력도 가변 길이여야 함

필요한 것:

- 입력 시퀀스 길이: m (3, 10, 100 모두 가능)

- 출력 시퀀스 길이: n (m과 다를 수 있음)

- m \neq n인 상황을 자연스럽게 처리하는 구조

응용 분야:

- 기계 번역: 한국어 → 영어 (길이 다름)

- 요약: 긴 문서 → 짧은 요약

- 대화: 질문 → 답변 (길이 예측 불가)

- 음성 인식: 음성 프레임 → 텍스트 토큰

이 문제를 해결한 것이 Seq2Seq (Sequence-to-Sequence) 구조입니다.

0:00

1:31

🎓 강의 스크립트

번역이라는 과제를 한번 생각해 봅시다.

한국어 "나는 학생이다"를 영어로 바꾸면 "아이 앰 어 스튜던트"가 됩니다.

입력은 세 토큰인데 출력은 네 토큰이에요.

이처럼 입력과 출력의 길이가 다른 것이 핵심 문제입니다.

왼쪽 그림을 보시면, 기존 모델들이 왜 이 문제를 못 푸는지 정리했습니다.

엠엘피는 고정 크기 입력과 고정 크기 출력만 처리할 수 있어요.

세 단어 입력으로 설계하면 다섯 단어 문장은 아예 처리가 안 됩니다.

씨엔엔도 필터 크기가 고정이라 가변 길이 시퀀스 생성이 어렵습니다.

알엔엔은 가변 길이 입력을 처리할 수 있다는 큰 장점이 있어요.

하지만 출력도 가변 길이여야 한다는 문제가 남습니다.

그래서 등장한 것이 바로 인코더 디코더, 시퀀스 투 시퀀스 아키텍처입니다.

하단 파란 박스를 보세요.

인코더 알엔엔이 입력을 하나의 벡터로 압축합니다.

그리고 디코더 알엔엔이 이 벡터에서 출력을 한 단어씩 생성합니다.

2014년 서스케버 등이 이 방식을 처음 제안했어요.

입력 엠개 토큰을 고정 벡터로 만들고, 여기서 엔개 토큰을 생성하는 거죠.

엠과 엔이 달라도 전혀 문제없는 구조입니다.

이건 정말 획기적인 아이디어였습니다.

하지만 여기에도 심각한 문제가 숨어 있었어요.

다음 블록에서 그 병목 문제를 자세히 알아보겠습니다.

💬 강의 Q&A

0:00

0:34

🎓 강의 스크립트

선생님: 엠엘피나 씨엔엔이 번역 문제를 못 푸는 가장 핵심적인 이유는 뭘까요?

학생: 입력과 출력의 길이가 미리 정해져 있어서요. 세 단어 입력만 받게 만들면 다섯 단어는 처리 자체가 안 되잖아요.

선생님: 맞아요. 그렇다면 알엔엔은 왜 완벽한 해결책이 아닌 거죠?

학생: 알엔엔은 입력 길이는 자유롭지만, 출력 길이도 가변이어야 하는 건 해결 못 하니까요.

선생님: 정확합니다. 그래서 인코더와 디코더를 분리하는 시퀀스 투 시퀀스 구조가 필요했던 거예요.