Adam과 AdamW 옵티마이저 — 적응형 학습률의 힘

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

Adam과 AdamW 옵티마이저 — 적응형 학습률의 힘

현대적인 옵티마이저의 모멘텀(momentum), 적응적 학습률, 가중치 감쇠(weight decay)를 이해합니다.

1 / 17

SGD의 문제점 3가지: 진동, 고정 학습률, 희소 특징

왜 SGD의 문제점 3가지: 진동, 고정 학습률, 희소 특징이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

SGD(확률적 경사 하강법)는 가장 기본적인 옵티마이저입니다:

\theta_{t+1} = \theta_t - \eta \cdot g_t

하지만 실전에서 3가지 심각한 문제가 있습니다.

문제 1: 진동(Oscillation)

- 경사가 급한 방향으로 왔다 갔다 진동

- 경사가 완만한 방향(실제 최적점 방향)으로는 매우 느리게 이동

- 수렴까지 스텝 수가 크게 늘어남

문제 2: 학습률 고정

- 모든 파라미터에 같은 학습률 η를 적용

- 어떤 파라미터는 η가 너무 크고, 어떤 파라미터는 너무 작음

- 학습 초기와 후기에 같은 η → 초기엔 느리고 후기엔 불안정

문제 3: 희소 특징 무시

- NLP에서 대부분의 그래디언트는 0, 가끔 큰 값이 옴

- SGD는 자주 나타나는 특징과 드물게 나타나는 특징을 구분 못함

- 드문 단어의 임베딩이 거의 업데이트 안 됨

이 3가지를 해결하는 과정이 Momentum → RMSProp → Adam입니다.

왜 중요한가? SGD는 모든 파라미터에 동일한 학습률을 적용합니다. 그런데 자주 등장하는 특징의 그래디언트는 크고, 드물게 등장하는 특징의 그래디언트는 작습니다. NLP에서 "the"의 임베딩은 매 배치마다 업데이트되지만, "serendipity"는 거의 업데이트되지 않습니다. 고정 학습률은 이 불균형을 해결할 수 없어, 자주 등장하는 특징은 진동하고 드문 특징은 학습이 느려집니다. 이것이 적응적 학습률 옵티마이저가 필요한 근본 이유이며, Adam은 이 문제를 1차 모멘텀과 2차 모멘텀의 조합으로 해결합니다.

0:00

2:08

🎓 강의 스크립트

여러분, 딥러닝 모델을 훈련할 때 가장 기본이 되는 에스지디부터 시작해볼게요.

에스지디는 확률적 경사 하강법인데요, 미니배치에서 그래디언트를 구해서 파라미터를 업데이트하는 방식이에요.

수식으로 보면 세타를 세타 빼기 에타 곱하기 그래디언트로 업데이트하는 단순한 구조죠.

그런데 이 단순한 방식에 심각한 문제 세 가지가 있어요.

그림 왼쪽을 보세요. 첫 번째 문제는 진동이에요. 영어로 오실레이션이라고 하죠.

손실 함수가 좁고 긴 골짜기 모양일 때 그래디언트가 최적점이 아니라 벽 방향을 가리켜요.

그래서 주황색 점선처럼 지그재그로 움직이면서 500스텝 넘게 걸리는 거예요.

그림 가운데를 보세요. 두 번째 문제는 고정 러닝레이트예요.

파라미터 세타원의 그래디언트가 50이고 세타투의 그래디언트가 0.001이라고 해볼게요.

같은 에타 0.01을 쓰면 업데이트 크기가 5만 배나 차이가 나요.

에타를 키우면 세타원이 발산하고 줄이면 세타투가 학습이 안 되는 딜레마에 빠지죠.

그림 오른쪽을 보면 세 번째 문제가 보여요. 희소 특징 무시예요.

엔엘피에서 10만 단어 중 배치에 128개만 나오면 대부분의 단어 임베딩은 업데이트가 안 돼요.

더 라는 단어는 매 배치마다 나오지만 세렌디피티 같은 희귀 단어는 거의 안 나와요.

에스지디는 모든 단어에 같은 에타를 적용하니까 희소 단어의 학습이 부족한 거예요.

해결책은 적응형 러닝레이트예요. 자주 나오는 파라미터는 에타를 줄이고 드문 파라미터는 키우는 거죠.

이 아이디어가 아다그래드, 알엠에스프롭을 거쳐 아담까지 발전하게 돼요.

하단 파란 박스를 보세요. 이 세 문제를 동시에 해결하는 게 바로 아담 옵티마이저예요.

다음 슬라이드에서 그 첫 번째 재료인 모멘텀부터 자세히 살펴볼게요.

모멘텀이 어떻게 진동을 줄이는지 직관적으로 이해해봐요.

💬 강의 Q&A

0:00

0:41

🎓 강의 스크립트

선생님: 에스지디의 세 가지 문제점을 말해볼 수 있어요?

학생: 진동, 고정 러닝레이트, 희소 특징 무시요!

선생님: 정확해요! 진동이 왜 발생하는지 직관적으로 설명해볼래요?

학생: 손실 함수가 좁고 긴 골짜기 모양이면 기울기가 최적점 방향이 아니라 벽 방향을 가리키니까요.

선생님: 완벽해요. 고정 러닝레이트의 딜레마는 뭔가요?

학생: 키우면 큰 그래디언트 파라미터가 발산하고 줄이면 작은 그래디언트 파라미터가 학습 안 돼요.

선생님: 그래서 파라미터마다 다른 러닝레이트가 필요한 거예요. 이게 적응형 옵티마이저의 핵심이죠.