ResNet과 스킵 연결 — 깊은 네트워크의 비밀

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

ResNet과 스킵 연결 — 깊은 네트워크의 비밀

잔차 블록(residual block)을 구현하고 스킵 연결이 매우 깊은 네트워크의 훈련을 가능하게 하는 방법을 이해합니다.

1 / 18

깊은 네트워크의 역설: Degradation Problem

왜 깊은 네트워크의 역설: Degradation Problem이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

Degradation Problem의 핵심:

- 56층 네트워크가 20층보다 학습 에러도, 테스트 에러도 더 높음

- 이것은 오버피팅이 아님 — 학습 에러 자체가 높기 때문

- 이론적으로 56층은 20층의 해를 포함해야 함 (추가 층이 identity를 학습하면 됨)

- 하지만 실제로 SGD는 이 identity 매핑을 학습하지 못함

- 이 문제를 해결하기 위해 F(x) + x 구조, 즉 스킵 커넥션이 제안됨

왜 중요한가? 2015년 ImageNet 대회에서 ResNet은 152층으로 인간 수준(top-5 에러 3.57%)을 처음으로 달성했습니다. 이전까지 VGG(19층), GoogLeNet(22층)이 한계였던 것과 비교하면 혁명적입니다. ResNet이 증명한 것은 "깊이가 곧 성능"이라는 원칙이며, 스킵 연결이라는 단순한 아이디어가 이를 가능하게 했습니다. 이후 거의 모든 딥러닝 아키텍처가 잔차 연결을 기본 구성요소로 채택하게 됩니다.

0:00

1:41

🎓 강의 스크립트

레즈넷을 이해하려면 먼저 깊은 네트워크의 역설을 알아야 해요.

직관적으로 생각하면 네트워크가 깊을수록 더 복잡한 패턴을 학습할 수 있어요.

그래서 층을 더 쌓으면 성능이 더 좋아질 거라 예상하죠.

하지만 2015년, He et al.이 충격적인 실험 결과를 발표했어요.

왼쪽 그래프를 보세요. 씨파텐 훈련 에러 그래프예요.

파란 선이 20층, 빨간 선이 56층 네트워크의 훈련 에러예요.

56층이 20층보다 훈련 에러가 2.7퍼센트나 더 높아요.

이건 과적합이 아니에요. 훈련 에러도 더 높으니까요.

오른쪽 테스트 에러 그래프에서도 같은 패턴이 보여요.

이 갭이 바로 데그레데이션 프라블럼이에요.

과적합이라면 훈련 에러는 낮고 테스트만 높아야 해요.

하지만 여기선 둘 다 높아요. 즉 최적화 자체가 실패한 거예요.

깊은 네트워크가 얕은 네트워크의 해조차 찾지 못하고 있어요.

이론적으로 56층은 20층의 해를 복제하고 나머지를 항등으로 두면 되잖아요.

하지만 SGD가 이 해를 찾지 못하는 거예요.

이것이 데그레데이션 프라블럼의 핵심이에요.

다음 슬라이드에서 이 문제의 해결책, 스킵 커넥션을 알아볼게요.

하단 빨간 박스의 결론을 보세요. 과적합이 아니라 훈련 에러 자체가 높다는 점이 핵심이에요.

이 발견이 레즈넷 탄생의 직접적 동기가 되었어요.

깊이만으로는 성능이 보장되지 않는다는 사실, 꼭 기억하세요.

💬 강의 Q&A

0:00

0:41

🎓 강의 스크립트

선생님: 여기서 질문이 있을 수 있어요.

학생: 56층이 20층보다 나쁘다면, 왜 굳이 깊은 네트워크를 만들려고 하나요?

선생님: 좋은 질문이에요! 이론적으로 깊은 네트워크는 더 복잡한 함수를 표현할 수 있어요. 문제는 표현 능력이 아니라 최적화에 있었어요.

선생님: 즉 깊은 네트워크가 더 좋은 해를 가질 수 있지만 SGD로는 그 해를 못 찾는 거예요.

학생: 그러면 배니싱 그레이디언트 문제와 같은 건가요?

선생님: 관련은 있지만 다릅니다. 배치 노말라이제이션으로 배니싱은 해결했는데도 데그레데이션은 여전했어요. 근본 원인이 다른 거예요.