이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 미적분과 최적화
AI에서 그래디언트가 왜 중요한지, 도함수, 연쇄 법칙, 계산 그래프, 자동 미분
AI 모델 학습의 핵심 질문은 "수억 개의 파라미터를 어떤 방향으로 얼마나 바꿔야 하는가?"입니다.
그림 오른쪽 위 초록 박스를 보세요. 이 질문에 대한 답이 바로 그래디언트예요.
왼쪽의 등고선 그림을 보면, 손실 곡면 위에서 빨간 동심원이 손실 값의 높낮이를 나타내요.
가운데가 가장 낮은 곳, 즉 글로벌 미니멈이에요. 우리가 도달하고 싶은 목표 지점이죠.
주황색 화살표가 그래디언트의 반대 방향, 마이너스 나블라 L을 따라 이동하는 모습이에요.
스텝 1에서 스텝 3까지, 점점 최소점에 가까워지는 게 보이시죠?
신경망은 수백만에서 수천억 개의 파라미터를 동시에 조정해야 합니다.
GPT-3만 해도 1,750억 개의 파라미터가 있어요. 이걸 무작위로 바꿔서는 절대 학습이 안 돼요.
오른쪽 파란 박스를 보세요. 첫 번째 이유는 방향 제시예요.
그래디언트 벡터 ∇L은 각 파라미터가 손실을 줄이려면 어느 쪽으로 가야 하는지 정확히 알려줍니다.
빨간 박스를 보면, 두 번째는 크기 제시예요. 그래디언트가 큰 파라미터일수록 손실에 민감해요.
작은 값을 가진 파라미터는 상대적으로 덜 중요하다는 신호를 줍니다.
보라색 박스의 세 번째 이유는 효율성이에요. 역전파 한 번이면 모든 파라미터의 그래디언트를 구해요.
만약 하나씩 수치적으로 계산하면, 파라미터 수만큼 순전파를 반복해야 하거든요.
시안 박스의 네 번째 이유는 확장성입니다. 수천억 파라미터에서도 작동하는 건 그래디언트 기반 방법뿐이에요.
등고선에서 각 타원은 같은 손실 값을 가진 점들의 집합이에요.
그래디언트는 항상 등고선에 수직으로 향해요. 가장 가파른 오르막 방향이니까요.
우리는 손실을 줄이고 싶으니 그 반대 방향, 마이너스 그래디언트 방향으로 이동합니다.
이것이 경사하강법, 그래디언트 디센트의 핵심 아이디어예요.
하단 요약을 보면, 그래디언트 없이는 고차원 파라미터 공간에서 최적해를 찾을 수 없어요.
현대 딥러닝의 아담, SGD, 아담W 같은 모든 옵티마이저가 그래디언트를 기반으로 합니다.
이번 레슨에서 그래디언트의 수학적 직관부터 실전 활용까지 하나씩 파헤쳐 볼게요.
선생님: 신경망에서 그래디언트가 왜 필수적인지 핵심 이유를 말해볼까요?
학생: 수억 개의 파라미터를 동시에 어떤 방향으로 바꿔야 하는지 알려주는 유일한 방법이기 때문이에요.
선생님: 맞아요. 그래디언트 없이 랜덤 탐색을 하면 왜 안 될까요?
학생: 차원이 너무 높아서 무작위로는 좋은 방향을 찾을 확률이 거의 0에 가까워요.
선생님: 정확해요. 1750억 차원에서 랜덤 방향은 대부분 손실을 줄이지 못해요. 그래디언트는 수학적으로 최적 방향을 보장하죠.