그래디언트 클리핑과 학습률 스케줄 — 폭발과 소실 방지

폭발하는 그래디언트(exploding gradient)를 방지하고 학습률 스케줄링 전략을 구현합니다.

1 / 17

그래디언트 폭발 문제: 왜 학습이 갑자기 터지는가

그래디언트 폭발이란?

역전파(backpropagation) 과정에서 체인룰에 의해 그래디언트가 레이어를 거슬러 올라갑니다. 각 레이어에서 가중치 행렬 W를 곱하게 되는데, 이 행렬의 최대 고유값(λ_max)이 1보다 크면 그래디언트 크기가 기하급수적으로 증가합니다.

왜 RNN에서 특히 심각한가?

RNN은 시퀀스 길이 T만큼 동일한 가중치 행렬을 반복 적용합니다. λ_max = 1.5인 행렬을 100번 곱하면 약 4×10¹⁷으로 폭발합니다. CNN이나 일반 MLP와 달리, RNN의 "깊이"는 입력 시퀀스 길이에 비례하므로 통제가 어렵습니다.

폭발 vs 소실: 동전의 양면

- λ_max > 1: 그래디언트 폭발 → loss가 NaN, 가중치가 inf

- λ_max < 1: 그래디언트 소실 → 초기 레이어 학습 불가, loss 정체

- λ_max \approx 1: 안정적 학습 (이상적이지만 달성 어려움)

실전에서의 증상

- loss가 갑자기 NaN 또는 inf로 점프

- 가중치 값이 1e+10 이상으로 발산

- 학습 곡선이 갑자기 수직 상승 후 무한대

- gradient norm이 1000 이상으로 급등

해결 접근법

그래디언트 폭발을 방지하는 가장 직접적인 방법이 Gradient Clipping입니다. 그래디언트의 노름이 임계값을 초과하면 크기를 줄여서 안전한 범위로 제한합니다. LSTM/GRU의 게이트 메커니즘도 이 문제를 완화하지만, 클리핑은 아키텍처와 무관하게 적용할 수 있는 범용적 해법입니다.

0:00

2:05

🎓 강의 스크립트

딥러닝 학습 도중 loss가 갑자기 NaN으로 변해본 적 있나요?

이게 바로 그래디언트 폭발이에요.

그림 왼쪽을 보세요. 정상적인 그래디언트 흐름에서는 레이어를 거슬러 올라갈수록 값이 점차 줄어들어요.

체인룰에 의해 각 레이어에서 가중치 행렬을 곱하는데, 고유값이 1보다 작으면 안정적으로 감소하죠.

레이어 5에서 1.0이던 그래디언트가 레이어 1에서는 0.25 정도로 줄어들어요.

이제 오른쪽 빨간 영역을 보세요.

고유값이 1.5로 1보다 크면 상황이 완전히 달라져요.

레이어 5에서 1.0이던 그래디언트가 레이어 4에서 5, 레이어 3에서 26으로 폭발적으로 커지죠.

레이어 1에 도달하면 무려 759배까지 증폭돼요. 이게 그래디언트 폭발이에요.

가운데 수식 박스를 보면, 이 폭발의 원인이 명확해요.

역전파의 체인룰은 가중치 행렬을 연속으로 곱하는 구조예요.

고유값 1.5를 10번 곱하면 57.7배, 100번 곱하면 4곱하기 10의 17승이에요.

특히 알엔엔에서 치명적인데, 시퀀스 길이가 곧 네트워크 깊이이기 때문이에요.

문장 길이가 100이면 같은 가중치 행렬을 100번 곱하는 셈이죠.

실전에서 이 문제가 발생하면 loss가 갑자기 NaN으로 바뀌거나 가중치가 무한대로 발산해요.

그래디언트 노름이 천 이상으로 치솟으면 학습이 완전히 망가진 거예요.

반대로 고유값이 1보다 작으면 그래디언트 소실이 발생해요.

초기 레이어가 거의 학습되지 않아서 loss가 정체 상태에 빠지죠.

LSTM이나 GRU의 게이트 메커니즘이 소실 문제를 완화하지만, 폭발은 여전히 발생할 수 있어요.

그래서 가장 직접적인 해결책이 바로 그래디언트 클리핑이에요.

그래디언트의 크기를 안전한 범위로 제한해서 폭발을 막는 거예요.

다음 슬라이드에서 클리핑이 정확히 어떻게 동작하는지 알아볼게요.

💬 강의 Q&A

0:00

0:38

🎓 강의 스크립트

선생님: 그래디언트 폭발이 알엔엔에서 특히 심한 이유가 뭘까요?

학생: 시퀀스 길이가 곧 네트워크 깊이라서 같은 가중치 행렬을 T번 곱하니까요.

선생님: 맞아요! 고유값이 1.5인 행렬을 100번 곱하면 대략 얼마나 커지나요?

학생: 1.5의 100승이니까 약 4곱하기 10의 17승이요. 천문학적이에요.

선생님: 그렇죠. 그런데 고유값이 정확히 1이면 문제가 없을까요?

학생: 이론적으론 안정적이지만, 실제로는 학습 중 가중치가 계속 변하니까 고유값도 변해서 완벽히 유지하기 어려워요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

그래디언트 클리핑과 학습률 스케줄 — 폭발과 소실 방지

폭발하는 그래디언트(exploding gradient)를 방지하고 학습률 스케줄링 전략을 구현합니다.

1 / 17

그래디언트 폭발 문제: 왜 학습이 갑자기 터지는가

그래디언트 폭발이란?

왜 RNN에서 특히 심각한가?

폭발 vs 소실: 동전의 양면

- λ_max > 1: 그래디언트 폭발 → loss가 NaN, 가중치가 inf

- λ_max < 1: 그래디언트 소실 → 초기 레이어 학습 불가, loss 정체

- λ_max \approx 1: 안정적 학습 (이상적이지만 달성 어려움)

실전에서의 증상

- loss가 갑자기 NaN 또는 inf로 점프

- 가중치 값이 1e+10 이상으로 발산

- 학습 곡선이 갑자기 수직 상승 후 무한대

- gradient norm이 1000 이상으로 급등

해결 접근법

0:00

2:05

🎓 강의 스크립트

딥러닝 학습 도중 loss가 갑자기 NaN으로 변해본 적 있나요?

이게 바로 그래디언트 폭발이에요.

그림 왼쪽을 보세요. 정상적인 그래디언트 흐름에서는 레이어를 거슬러 올라갈수록 값이 점차 줄어들어요.

체인룰에 의해 각 레이어에서 가중치 행렬을 곱하는데, 고유값이 1보다 작으면 안정적으로 감소하죠.

레이어 5에서 1.0이던 그래디언트가 레이어 1에서는 0.25 정도로 줄어들어요.

이제 오른쪽 빨간 영역을 보세요.

고유값이 1.5로 1보다 크면 상황이 완전히 달라져요.

레이어 5에서 1.0이던 그래디언트가 레이어 4에서 5, 레이어 3에서 26으로 폭발적으로 커지죠.

레이어 1에 도달하면 무려 759배까지 증폭돼요. 이게 그래디언트 폭발이에요.

가운데 수식 박스를 보면, 이 폭발의 원인이 명확해요.

역전파의 체인룰은 가중치 행렬을 연속으로 곱하는 구조예요.

고유값 1.5를 10번 곱하면 57.7배, 100번 곱하면 4곱하기 10의 17승이에요.

특히 알엔엔에서 치명적인데, 시퀀스 길이가 곧 네트워크 깊이이기 때문이에요.

문장 길이가 100이면 같은 가중치 행렬을 100번 곱하는 셈이죠.

실전에서 이 문제가 발생하면 loss가 갑자기 NaN으로 바뀌거나 가중치가 무한대로 발산해요.

그래디언트 노름이 천 이상으로 치솟으면 학습이 완전히 망가진 거예요.

반대로 고유값이 1보다 작으면 그래디언트 소실이 발생해요.

초기 레이어가 거의 학습되지 않아서 loss가 정체 상태에 빠지죠.

LSTM이나 GRU의 게이트 메커니즘이 소실 문제를 완화하지만, 폭발은 여전히 발생할 수 있어요.

그래서 가장 직접적인 해결책이 바로 그래디언트 클리핑이에요.

그래디언트의 크기를 안전한 범위로 제한해서 폭발을 막는 거예요.

다음 슬라이드에서 클리핑이 정확히 어떻게 동작하는지 알아볼게요.

💬 강의 Q&A

0:00

0:38

🎓 강의 스크립트

선생님: 그래디언트 폭발이 알엔엔에서 특히 심한 이유가 뭘까요?

학생: 시퀀스 길이가 곧 네트워크 깊이라서 같은 가중치 행렬을 T번 곱하니까요.

선생님: 맞아요! 고유값이 1.5인 행렬을 100번 곱하면 대략 얼마나 커지나요?

학생: 1.5의 100승이니까 약 4곱하기 10의 17승이요. 천문학적이에요.

선생님: 그렇죠. 그런데 고유값이 정확히 1이면 문제가 없을까요?

학생: 이론적으론 안정적이지만, 실제로는 학습 중 가중치가 계속 변하니까 고유값도 변해서 완벽히 유지하기 어려워요.