경사하강법 깊이 이해 — 최적화의 핵심 엔진

바닐라 SGD부터 Adam까지 — 옵티마이저 진화와 학습 다이나믹스

1 / 16

왜 최적화가 ML에 필수인가?

머신러닝은 결국 최적화 문제입니다. "최적의 파라미터를 찾아라" — 이것이 학습의 전부입니다.

ML = 최적화:

- 모델: f(x; θ) — 파라미터 θ로 정의된 함수

- 손실: L(θ) — θ가 얼마나 나쁜지 측정

- 학습: θ* = argmin_θ $L(\theta)$ — L을 최소화하는 θ 찾기

왜 경사하강법인가?

- 파라미터가 수억 개 → 모든 조합을 시도하는 것은 불가능

- 2차 방정식처럼 공식으로 풀 수 없음 (비선형, 비볼록)

- 그래디언트가 "어디로 가면 좋아지는지" 알려줌

- 조금씩 좋은 방향으로 이동 → 반복적 최적화

경사하강법의 역사:

- 1847년 Cauchy가 처음 제안

- 1960~80년대: 역전파와 결합하여 신경망 학습

- 2012년~: GPU + SGD로 딥러닝 혁명

- 2014년~: Adam 등 적응적 방법으로 학습 안정화

이 레슨에서 배울 것:

기본 SGD부터 Adam까지, 옵티마이저의 진화를 이해하고, 각각 언제 왜 사용하는지 배웁니다.

0:00

1:59

🎓 강의 스크립트

안녕하세요, 오늘은 경사하강법을 깊이 이해해볼 거예요.

머신러닝은 결국 최적화 문제라는 것부터 시작합시다.

그림 왼쪽을 보세요. 등고선 지도처럼 생긴 손실 함수가 보이죠?

빨간 점들이 경사하강법의 경로예요. 바깥에서 중심으로 향하고 있어요.

중심의 녹색 점이 최적해 세타 스타예요. 손실이 가장 작은 지점이죠.

가운데 주황색 박스를 보세요. 핵심 공식이 있어요.

세타에서 학습률 에타 곱하기 그래디언트를 빼는 거예요. 이게 전부예요.

그래디언트는 손실이 가장 빠르게 증가하는 방향을 알려줘요.

그러니까 반대 방향으로 가면 가장 빠르게 손실을 줄일 수 있는 거죠.

오른쪽 박스를 보면 왜 경사하강법인지 세 가지 이유가 나와요.

첫째, 전수조사는 불가능해요. GPT-3만 해도 1,750억 개 파라미터예요.

둘째, 비선형 함수는 해석적 해가 없어요. 공식으로 못 풀어요.

셋째, 경사하강법은 파라미터 수에 비례하는 연산량이면 돼요.

보라색 박스를 보세요. 볼록함수에서 학습률이 1/L 이하면 수렴이 보장돼요.

볼록함수는 O(1/t), 강볼록은 지수적으로 빠르게 수렴해요.

결국 경사하강법은 현재 위치에서 가장 가파른 내리막으로 한 걸음씩 걷는 거예요.

단순하지만 수학적 보장이 있고, GPU 병렬화에 최적이라 현대 딥러닝의 심장이 된 거죠.

다음 슬라이드에서 이 기본 아이디어가 어떻게 SGD로 발전했는지 볼게요.

지금 핵심만 기억하세요. 그래디언트의 반대 방향, 학습률만큼 이동. 이 두 가지예요.

이 단순한 규칙이 어떻게 수억 개 파라미터를 학습시키는지 계속 알아볼게요.

💬 강의 Q&A

0:00

0:43

🎓 강의 스크립트

학생: 그래디언트가 영인 지점이 항상 최솟값인가요?

선생님: 아주 좋은 질문이에요! 그래디언트가 영인 정지점에는 세 종류가 있어요.

선생님: 극소값, 극대값, 그리고 안장점이에요. 딥러닝에서는 안장점이 훨씬 흔해요.

선생님: 뒤에서 안장점 탈출 전략을 자세히 다룰 거예요.

학생: 학습률 에타를 어떻게 정하나요? 너무 크거나 작으면 어떻게 되나요?

선생님: 너무 크면 최적해를 지나쳐서 발산하고, 너무 작으면 수렴이 너무 느려요.

선생님: 보통 0.001이나 0.01로 시작해서 학습률 스케줄러로 조절해요. 이것도 뒤에서 배울 거예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

선형대수 기말고유값 시험확률통계 정리AI 수학 과제

비전공/입문자

선형대수 쉽게머신러닝 수학AI에 필요한 수학

취준생

데이터 사이언스 수학ML 수학 면접

직장인

실무에 필요한 수학

대학원생/연구자

convex optimization정보 이론 논문

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

경사하강법 깊이 이해 — 최적화의 핵심 엔진

바닐라 SGD부터 Adam까지 — 옵티마이저 진화와 학습 다이나믹스

1 / 16

왜 최적화가 ML에 필수인가?

머신러닝은 결국 최적화 문제입니다. "최적의 파라미터를 찾아라" — 이것이 학습의 전부입니다.

ML = 최적화:

- 모델: f(x; θ) — 파라미터 θ로 정의된 함수

- 손실: L(θ) — θ가 얼마나 나쁜지 측정

- 학습: θ* = argmin_θ $L(\theta)$ — L을 최소화하는 θ 찾기

왜 경사하강법인가?

- 파라미터가 수억 개 → 모든 조합을 시도하는 것은 불가능

- 2차 방정식처럼 공식으로 풀 수 없음 (비선형, 비볼록)

- 그래디언트가 "어디로 가면 좋아지는지" 알려줌

- 조금씩 좋은 방향으로 이동 → 반복적 최적화

경사하강법의 역사:

- 1847년 Cauchy가 처음 제안

- 1960~80년대: 역전파와 결합하여 신경망 학습

- 2012년~: GPU + SGD로 딥러닝 혁명

- 2014년~: Adam 등 적응적 방법으로 학습 안정화

이 레슨에서 배울 것:

기본 SGD부터 Adam까지, 옵티마이저의 진화를 이해하고, 각각 언제 왜 사용하는지 배웁니다.

0:00

1:59

🎓 강의 스크립트

안녕하세요, 오늘은 경사하강법을 깊이 이해해볼 거예요.

머신러닝은 결국 최적화 문제라는 것부터 시작합시다.

그림 왼쪽을 보세요. 등고선 지도처럼 생긴 손실 함수가 보이죠?

빨간 점들이 경사하강법의 경로예요. 바깥에서 중심으로 향하고 있어요.

중심의 녹색 점이 최적해 세타 스타예요. 손실이 가장 작은 지점이죠.

가운데 주황색 박스를 보세요. 핵심 공식이 있어요.

세타에서 학습률 에타 곱하기 그래디언트를 빼는 거예요. 이게 전부예요.

그래디언트는 손실이 가장 빠르게 증가하는 방향을 알려줘요.

그러니까 반대 방향으로 가면 가장 빠르게 손실을 줄일 수 있는 거죠.

오른쪽 박스를 보면 왜 경사하강법인지 세 가지 이유가 나와요.

첫째, 전수조사는 불가능해요. GPT-3만 해도 1,750억 개 파라미터예요.

둘째, 비선형 함수는 해석적 해가 없어요. 공식으로 못 풀어요.

셋째, 경사하강법은 파라미터 수에 비례하는 연산량이면 돼요.

보라색 박스를 보세요. 볼록함수에서 학습률이 1/L 이하면 수렴이 보장돼요.

볼록함수는 O(1/t), 강볼록은 지수적으로 빠르게 수렴해요.

결국 경사하강법은 현재 위치에서 가장 가파른 내리막으로 한 걸음씩 걷는 거예요.

단순하지만 수학적 보장이 있고, GPU 병렬화에 최적이라 현대 딥러닝의 심장이 된 거죠.

다음 슬라이드에서 이 기본 아이디어가 어떻게 SGD로 발전했는지 볼게요.

지금 핵심만 기억하세요. 그래디언트의 반대 방향, 학습률만큼 이동. 이 두 가지예요.

이 단순한 규칙이 어떻게 수억 개 파라미터를 학습시키는지 계속 알아볼게요.

💬 강의 Q&A

0:00

0:43

🎓 강의 스크립트

학생: 그래디언트가 영인 지점이 항상 최솟값인가요?

선생님: 아주 좋은 질문이에요! 그래디언트가 영인 정지점에는 세 종류가 있어요.

선생님: 극소값, 극대값, 그리고 안장점이에요. 딥러닝에서는 안장점이 훨씬 흔해요.

선생님: 뒤에서 안장점 탈출 전략을 자세히 다룰 거예요.

학생: 학습률 에타를 어떻게 정하나요? 너무 크거나 작으면 어떻게 되나요?

선생님: 너무 크면 최적해를 지나쳐서 발산하고, 너무 작으면 수렴이 너무 느려요.

선생님: 보통 0.001이나 0.01로 시작해서 학습률 스케줄러로 조절해요. 이것도 뒤에서 배울 거예요.