이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 미적분과 최적화
바닐라 SGD부터 Adam까지 — 옵티마이저 진화와 학습 다이나믹스
θ* = argmin_θ $L(\theta)$ — L을 최소화하는 θ 찾기안녕하세요, 오늘은 경사하강법을 깊이 이해해볼 거예요.
머신러닝은 결국 최적화 문제라는 것부터 시작합시다.
그림 왼쪽을 보세요. 등고선 지도처럼 생긴 손실 함수가 보이죠?
빨간 점들이 경사하강법의 경로예요. 바깥에서 중심으로 향하고 있어요.
중심의 녹색 점이 최적해 세타 스타예요. 손실이 가장 작은 지점이죠.
가운데 주황색 박스를 보세요. 핵심 공식이 있어요.
세타에서 학습률 에타 곱하기 그래디언트를 빼는 거예요. 이게 전부예요.
그래디언트는 손실이 가장 빠르게 증가하는 방향을 알려줘요.
그러니까 반대 방향으로 가면 가장 빠르게 손실을 줄일 수 있는 거죠.
오른쪽 박스를 보면 왜 경사하강법인지 세 가지 이유가 나와요.
첫째, 전수조사는 불가능해요. GPT-3만 해도 1,750억 개 파라미터예요.
둘째, 비선형 함수는 해석적 해가 없어요. 공식으로 못 풀어요.
셋째, 경사하강법은 파라미터 수에 비례하는 연산량이면 돼요.
보라색 박스를 보세요. 볼록함수에서 학습률이 1/L 이하면 수렴이 보장돼요.
볼록함수는 O(1/t), 강볼록은 지수적으로 빠르게 수렴해요.
결국 경사하강법은 현재 위치에서 가장 가파른 내리막으로 한 걸음씩 걷는 거예요.
단순하지만 수학적 보장이 있고, GPU 병렬화에 최적이라 현대 딥러닝의 심장이 된 거죠.
다음 슬라이드에서 이 기본 아이디어가 어떻게 SGD로 발전했는지 볼게요.
지금 핵심만 기억하세요. 그래디언트의 반대 방향, 학습률만큼 이동. 이 두 가지예요.
이 단순한 규칙이 어떻게 수억 개 파라미터를 학습시키는지 계속 알아볼게요.
학생: 그래디언트가 영인 지점이 항상 최솟값인가요?
선생님: 아주 좋은 질문이에요! 그래디언트가 영인 정지점에는 세 종류가 있어요.
선생님: 극소값, 극대값, 그리고 안장점이에요. 딥러닝에서는 안장점이 훨씬 흔해요.
선생님: 뒤에서 안장점 탈출 전략을 자세히 다룰 거예요.
학생: 학습률 에타를 어떻게 정하나요? 너무 크거나 작으면 어떻게 되나요?
선생님: 너무 크면 최적해를 지나쳐서 발산하고, 너무 작으면 수렴이 너무 느려요.
선생님: 보통 0.001이나 0.01로 시작해서 학습률 스케줄러로 조절해요. 이것도 뒤에서 배울 거예요.