경사 하강법 이해 — 산을 내려가듯 최적화하기

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

경사 하강법 이해 — 산을 내려가듯 최적화하기

경사하강법이 손실 함수(loss function)를 반복적으로 최소화하여 신경망 매개변수를 최적화하는 방법을 학습합니다.

1 / 16

최적화란 무엇인가

왜 최적화란 무엇인가이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

머신러닝 모델 학습의 핵심은 최적화(Optimization)입니다.

모델에는 수천~수십억 개의 파라미터(θ)가 있습니다.

이 파라미터를 조정하여 모델의 예측이 정답에 가까워지도록 만드는 과정이 학습입니다.

손실 함수(Loss Function) L(θ):

- 모델 예측과 실제 정답 사이의 차이를 숫자로 측정

- 손실이 클수록 예측이 부정확, 작을수록 정확

- 학습 = 이 손실 함수를 최소화하는 파라미터 θ*를 찾는 것

$\theta^* = \arg\min_\theta L(\theta)$

왜 한 번에 풀 수 없는가?

- 선형 회귀: \theta = (X^TX)^{-1}X^Ty (닫힌 형태 해 존재)

- 신경망: 비선형 활성화 함수 → 닫힌 형태 없음

- 파라미터가 수백만~수십억 개 → 해석적 풀이 불가능

- 따라서 반복적(iterative) 최적화가 필요 → 경사 하강법!

일상 비유:

눈을 감고 산에서 가장 낮은 계곡을 찾으려 합니다.

발밑의 경사만 느끼며 가파른 쪽으로 한 걸음씩 내려갑니다.

이것이 경사 하강법의 핵심 아이디어입니다.

왜 중요한가? 수백만 개의 파라미터를 가진 모델에서 손실을 줄이는 방향을 어떻게 찾을까요? 그래디언트(기울기)는 다변수 함수에서 가장 가파르게 증가하는 방향을 가리킵니다. 그 반대 방향으로 이동하면 국소적으로 손실이 가장 빠르게 감소합니다. 이것은 수학적으로 증명된 최적 방향이며, 랜덤 탐색보다 기하급수적으로 효율적입니다. 경사 하강법이 없었다면 현대 딥러닝은 불가능했을 것입니다.

0:00

1:32

🎓 강의 스크립트

오늘은 경사 하강법을 배울 거예요.

머신러닝에서 가장 핵심적인 최적화 알고리즘이에요.

모델에는 파라미터가 있어요. 수천 개에서 수조 개까지 다양해요.

이 파라미터를 잘 조정해서 예측을 정확하게 만드는 과정이 학습이에요.

슬라이드 왼쪽을 보세요. 파라미터 세타가 있어요.

리니어 모델은 2개, 레즈넷은 2천5백만 개나 돼요.

가운데 주황색 박스를 보세요. 손실 함수예요.

예측값과 실제값의 차이를 숫자 하나로 요약해주죠.

엠에스이, 크로스엔트로피 같은 함수가 대표적이에요.

오른쪽 초록 박스를 보면, 최적화 알고리즘이 나와 있어요.

경사 하강법, 모멘텀, 아담까지 오늘 이 세 가지를 깊이 다뤄볼 거예요.

아래쪽 학습 루프를 보세요. 네 단계로 구성돼 있어요.

첫째 포워드, 예측값을 계산해요.

둘째 로스 계산, 오차를 측정해요.

셋째 백워드, 기울기를 계산해요.

넷째 업데이트, 파라미터를 갱신해요.

이 네 단계가 수렴할 때까지 에폭마다 반복돼요.

보라색 점선 화살표를 보면, 4단계에서 1단계로 돌아가는 루프가 보이죠?

경사 하강법은 세 번째와 네 번째 단계를 효율적으로 수행하는 핵심이에요.

이번 레슨에서 이 알고리즘을 완전히 마스터해봐요.

💬 강의 Q&A

0:00

0:29

🎓 강의 스크립트

선생님: 최적화에서 우리가 줄이려는 것은 정확히 무엇일까요?

학생: 손실 함수의 값이요. 예측과 실제의 차이를 나타내니까요.

선생님: 맞아요! 그러면 파라미터를 왜 직접 계산하지 않고 반복적으로 조정할까요?

학생: 복잡한 모델에서는 정답을 한 번에 구하는 공식이 없으니까요.

선생님: 정확해요. 비선형 모델은 닫힌 형태 해가 없어서 반복 최적화가 필수예요.