이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 비지도학습 & 평가 — 정답 없이 구조 찾기 → 평가 & 튜닝
그리드 서치, 랜덤 서치, 베이지안 방법을 사용하여 최적의 하이퍼파라미터를 찾는 체계적인 접근법을 학습합니다.
하이퍼파라미터 튜닝이 왜 중요한지부터 알아볼게요.
그림 왼쪽을 보세요. 파라미터는 모델이 학습으로 스스로 알아내는 값이에요.
가중치 W와 편향 b가 대표적이에요. 역전파로 매 배치마다 자동으로 갱신돼요.
오른쪽을 보세요. 하이퍼파라미터는 사람이 학습 전에 미리 정하는 값이에요.
러닝 레이트, 배치 사이즈, 맥스 뎁스 같은 거예요. 이걸 어떻게 정하느냐에 따라 성능이 크게 달라져요.
하단 히트맵을 보세요. 러닝 레이트와 맥스 뎁스 조합에 따른 정확도예요.
러닝 레이트 0.01, 맥스 뎁스 5일 때 0.93으로 가장 높아요. 초록색이 진할수록 성능이 좋은 거예요.
반면 러닝 레이트 0.1이면 0.65까지 떨어져요. 빨간색 영역이죠.
같은 모델인데 하이퍼파라미터만 바꿔도 정확도가 28%포인트나 차이 나요.
오른쪽 바 차트를 보세요. 기본값 0.78에서 그리드 서치로 0.89, 베이지안 옵티마이제이션으로 0.93까지 올라가요.
그래서 자동 튜닝이 필수예요. 수동으로 시행착오를 반복하면 비효율적이고 재현도 안 돼요.
하이퍼파라미터 3개에 후보 10개씩이면 천 가지 조합이에요.
각 조합마다 5폴드 크로스 밸리데이션을 하면 5천 번 학습해야 해요.
이걸 사람이 하나하나 해볼 수는 없죠. 그래서 자동화 방법이 연구된 거예요.
2012년 Bergstra와 Bengio 논문에서 자동 튜닝이 10에서 20퍼센트 성능 향상을 가져온다고 보고했어요.
이번 레슨에서 그리드 서치, 랜덤 서치, 베이지안 옵티마이제이션을 순서대로 배울 거예요.
각 방법의 원리와 장단점, 그리고 실전에서 어떻게 쓰는지 알아볼게요.
먼저 가장 단순한 그리드 서치부터 시작해볼게요.
그리드 서치를 이해하면 왜 더 똑똑한 방법이 필요한지 자연스럽게 느끼게 될 거예요.
자, 그럼 다음 슬라이드로 넘어가볼까요.
선생님: 자, 여기서 중요한 질문 하나 해볼게요. 러닝 레이트를 너무 크게 설정하면 어떤 일이 벌어질까요?
학생: 음, 경사 하강법에서 스텝이 너무 커져서 최적점을 지나쳐버리지 않을까요? 발산할 수도 있을 것 같아요.
선생님: 정확해요! 최적점 근처에서 왔다 갔다 진동하거나, 심하면 로스가 발산해요. 반대로 너무 작으면 수렴이 너무 느리고 로컬 미니멈에 갇힐 수도 있어요.
학생: 그러면 적절한 값을 찾는 게 정말 중요한 거네요. 그걸 자동으로 해주는 게 하이퍼파라미터 튜닝이고요.
선생님: 맞아요. 사실 실무에서 모델 아키텍처보다 하이퍼파라미터 튜닝이 성능에 더 큰 영향을 주는 경우도 많아요. 그래서 체계적인 탐색 방법이 필수인 거예요.