이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 딥러닝(Deep Learning) — 인공 신경망의 세계 → 순환 신경망 및 시퀀스 모델 — 순서가 있는 데이터 다루기 → RNN 기초
LSTM과 GRU의 망각(forget), 입력(input), 출력(output) 게이트를 포함한 게이트 메커니즘을 이해합니다.
여러분, 바닐라 알엔엔의 가장 큰 문제를 기억하시나요?
긴 시퀀스에서 그래디언트가 영에 수렴하는 기울기 소실 문제였어요.
그림 왼쪽 빨간 영역을 보세요. 알엔엔 셀이 반복 연결되어 있죠.
수학적으로 W_hh가 반복 곱해지면서 고유값이 1보다 작으면 지수적으로 줄어요.
0.9를 50번 곱하면 0.005밖에 안 남아요. 사실상 학습이 불가능하죠.
이제 오른쪽 초록 영역을 보세요. 엘에스티엠의 해결책이에요.
엘에스티엠은 셀 상태라는 덧셈 고속도로를 만들었어요.
위쪽 초록 선이 셀 스테이트 고속도로예요. 정보가 쭉 흘러가죠.
각 셀에는 f, i, o, c 틸다 네 개의 게이트가 있어요.
포겟 게이트가 0.99면 기울기가 거의 그대로 전파돼요.
50 스텝 뒤에도 0.61이나 남아요. 알엔엔의 0.005와 비교해 보세요.
가운데 파란 상자를 보면 핵심 차이가 정리되어 있어요.
알엔엔은 곱셈 반복이라 소실되고, 엘에스티엠은 덧셈이라 보존돼요.
수식으로 보면 C_t = f 곱하기 C_{t-1} 더하기 i 곱하기 c 틸다예요.
덧셈의 미분이 1이라서 그래디언트가 직통으로 흐르는 거예요.
하단 타임라인을 보세요. 1997년 호흐라이터가 엘에스티엠을 발명했어요.
2000년에 포겟 게이트가 추가되고, 2002년에 피프홀 연결이 나왔어요.
2014년 조경현 교수가 지알유를 제안해서 게이트를 두 개로 줄였어요.
2015년 시퀀스 투 시퀀스로 기계번역 혁명이 일어났고요.
2024년에는 엑스엘에스티엠이 나와서 엘에스티엠이 다시 부활했어요.
이번 레슨에서 이 모든 구조를 하나하나 파헤쳐 볼 거예요!
선생님: 바닐라 알엔엔의 기울기 소실이 왜 발생하죠?
학생: W_hh가 반복 곱해지면서 고유값이 1 미만이면 지수적으로 감소해요.
선생님: 엘에스티엠이 이걸 어떻게 해결하나요?
학생: 셀 상태를 덧셈으로 전달해서 그래디언트가 직통으로 흐르게 해요!
선생님: 맞아요! 덧셈의 미분이 1이라서 가능한 거예요. 포겟 게이트 값이 1에 가까우면 그래디언트가 거의 손실 없이 전파되죠.