이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 미적분과 최적화
MSE, Cross-Entropy, Focal Loss, 대조 손실, 손실 함수 설계 원칙
여러분, 오늘은 모든 딥러닝 학습의 출발점인 손실 함수를 깊이 있게 다뤄볼 거예요.
옵티마이저가 "어떻게" 최적화할지 결정한다면, 손실 함수는 "무엇을" 최적화할지를 결정합니다.
그림 왼쪽을 보세요. 모델이 입력 x에 대해 예측값 2.8을 출력했는데, 실제값은 3.5예요.
이 오차 0.7을 어떤 함수로 측정하느냐에 따라 학습 방향이 완전히 바뀝니다.
가운데 주황색 영역을 보시면, 같은 오차 0.7에 대해 MSE는 0.49, MAE는 0.7을 손실로 계산해요.
더 중요한 것은 그래디언트 차이예요. MSE는 마이너스 1.4, MAE는 마이너스 1의 그래디언트를 줍니다.
MSE는 오차가 클수록 그래디언트도 커져서 큰 오류를 빠르게 교정하지만, 이상치에 과민반응해요.
반면 MAE는 항상 일정한 크기의 그래디언트를 제공해서 이상치에 흔들리지 않아요.
오른쪽의 옵티마이저 박스를 보세요. 옵티마이저는 받은 그래디언트를 가지고 파라미터를 업데이트할 뿐이에요.
즉, 손실 함수가 잘못된 신호를 보내면, 아무리 좋은 옵티마이저라도 잘못된 방향으로 갑니다.
이것을 비유하면, 손실 함수는 시험 문제이고 옵티마이저는 공부 방법이에요.
하단 그림에서 왼쪽 빨간 박스를 보시면, 암기형 시험을 내면 학생은 단순 암기만 합니다.
가운데 초록 박스처럼 이해형 시험을 내면 학생은 개념을 깊이 이해하고 응용할 수 있게 돼요.
마찬가지로, 좋은 손실 함수는 모델에게 올바른 학습 목표를 제시하는 거예요.
오른쪽 보라색 박스에 정리된 5가지가 손실 함수가 결정하는 핵심 요소들이에요.
큰 오류 벌점 강도, 이상치 강건성, 클래스 불균형 대응, 분포 매칭, 그리고 유사성 정의까지요.
실제로 같은 ResNet 모델에 MSE를 쓰면 이상치에 과적합하고, Huber를 쓰면 강건한 예측을 해요.
손실 함수 하나를 바꾸는 것만으로 모델 성능이 10퍼센트 이상 바뀌는 사례도 흔합니다.
그래서 오늘 수업에서는 MSE부터 시작해서, Cross-Entropy, Focal Loss, Contrastive Loss까지 체계적으로 살펴볼 거예요.
각 손실 함수가 "왜" 그런 형태인지, 어떤 문제에 적합한지를 수학적으로 이해하는 것이 이번 수업의 핵심 목표입니다.
학생: 선생님, 손실 함수가 왜 이렇게 중요한 건가요? 모델 아키텍처를 바꾸는 게 더 효과적이지 않나요?
선생님: 정말 좋은 질문이에요! 모델이 자동차라면, 손실 함수는 내비게이션의 목적지에 해당해요.
선생님: 아무리 좋은 자동차라도 목적지가 잘못 설정되면 엉뚱한 곳에 도착하겠죠?
선생님: 실제로 같은 ResNet 모델에 MSE를 쓰면 이상치에 취약한데, Huber Loss로 바꾸기만 해도 강건한 예측이 가능해요.
학생: 그러면 손실 함수를 잘 설계하면 모델을 바꾸지 않아도 성능이 올라갈 수 있다는 건가요?
선생님: 맞아요! 2017년 Focal Loss 논문이 대표적인데, 모델은 그대로 두고 손실 함수만 바꿔서 객체 검출 성능을 크게 올렸어요.
선생님: 그래서 실무에서도 모델 아키텍처 못지않게 손실 함수 선택에 공을 들이는 거예요.