LSTM과 GRU 게이트 — 장기 기억의 메커니즘

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

LSTM과 GRU 게이트 — 장기 기억의 메커니즘

LSTM과 GRU의 망각(forget), 입력(input), 출력(output) 게이트를 포함한 게이트 메커니즘을 이해합니다.

1 / 18

RNN의 한계 복습 → LSTM의 등장

왜 RNN의 한계 복습 → LSTM의 등장이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

LSTM 셀 구조: 입력 게이트, 망각 게이트, 출력 게이트 (Guillaume Chevalier, CC BY-SA 4.0, Wikimedia Commons)

RNN은 은닉 상태 h 하나로 기억과 처리를 동시에 했습니다. W_{hh}가 반복 곱해지며 그래디언트가 소실됩니다.

LSTM(Long Short-Term Memory)은 1997년 Hochreiter & Schmidhuber가 제안했습니다:

- 셀 상태 C: 장기 기억 전용 경로 (덧셈 기반 → 그래디언트 보존)

- 은닉 상태 h: 단기 출력

- 3개 게이트: Forget, Input, Output — 무엇을 기억/삭제/출력할지 학습

왜 중요한가? LSTM과 GRU의 선택은 실무에서 중요한 엔지니어링 결정입니다. LSTM은 파라미터가 많아(게이트 3개) 복잡한 장기 의존성에 강하지만, GRU는 적은 파라미터로(게이트 2개) 더 빠르게 수렴합니다. 경험적으로, 매우 긴 시퀀스(>500 토큰)에서는 LSTM이, 데이터가 적거나 시퀀스가 짧은 경우에는 GRU가 유리합니다. 다만 현재는 Transformer가 대부분의 시퀀스 태스크에서 둘 모두를 대체하고 있으며, LSTM/GRU는 메모리 제한 환경이나 스트리밍 응용에서 여전히 가치가 있습니다.

0:00

1:58

🎓 강의 스크립트

여러분, 바닐라 알엔엔의 가장 큰 문제를 기억하시나요?

긴 시퀀스에서 그래디언트가 영에 수렴하는 기울기 소실 문제였어요.

그림 왼쪽 빨간 영역을 보세요. 알엔엔 셀이 반복 연결되어 있죠.

수학적으로 W_hh가 반복 곱해지면서 고유값이 1보다 작으면 지수적으로 줄어요.

0.9를 50번 곱하면 0.005밖에 안 남아요. 사실상 학습이 불가능하죠.

이제 오른쪽 초록 영역을 보세요. 엘에스티엠의 해결책이에요.

엘에스티엠은 셀 상태라는 덧셈 고속도로를 만들었어요.

위쪽 초록 선이 셀 스테이트 고속도로예요. 정보가 쭉 흘러가죠.

각 셀에는 f, i, o, c 틸다 네 개의 게이트가 있어요.

포겟 게이트가 0.99면 기울기가 거의 그대로 전파돼요.

50 스텝 뒤에도 0.61이나 남아요. 알엔엔의 0.005와 비교해 보세요.

가운데 파란 상자를 보면 핵심 차이가 정리되어 있어요.

알엔엔은 곱셈 반복이라 소실되고, 엘에스티엠은 덧셈이라 보존돼요.

수식으로 보면 C_t = f 곱하기 C_{t-1} 더하기 i 곱하기 c 틸다예요.

덧셈의 미분이 1이라서 그래디언트가 직통으로 흐르는 거예요.

하단 타임라인을 보세요. 1997년 호흐라이터가 엘에스티엠을 발명했어요.

2000년에 포겟 게이트가 추가되고, 2002년에 피프홀 연결이 나왔어요.

2014년 조경현 교수가 지알유를 제안해서 게이트를 두 개로 줄였어요.

2015년 시퀀스 투 시퀀스로 기계번역 혁명이 일어났고요.

2024년에는 엑스엘에스티엠이 나와서 엘에스티엠이 다시 부활했어요.

이번 레슨에서 이 모든 구조를 하나하나 파헤쳐 볼 거예요!

💬 강의 Q&A

0:00

0:28

🎓 강의 스크립트

선생님: 바닐라 알엔엔의 기울기 소실이 왜 발생하죠?

학생: W_hh가 반복 곱해지면서 고유값이 1 미만이면 지수적으로 감소해요.

선생님: 엘에스티엠이 이걸 어떻게 해결하나요?

학생: 셀 상태를 덧셈으로 전달해서 그래디언트가 직통으로 흐르게 해요!

선생님: 맞아요! 덧셈의 미분이 1이라서 가능한 거예요. 포겟 게이트 값이 1에 가까우면 그래디언트가 거의 손실 없이 전파되죠.