왜 스케일링 딜레마가 중요한가? CNN 성능을 높이려면 모델을 키워야 합니다. 하지만 깊이·너비·해상도 중 하나만 키우면 금방 포화됩니다. 이 딜레마를 이해해야 EfficientNet의 해법이 왜 혁신적인지 알 수 있습니다.
</div>
세 가지 스케일링 축의 포화 현상을 정량적으로 살펴봅시다.
깊이(Depth) 스케일링은 ResNet이 대표적입니다. ResNet-18에서 152까지 층을 늘리면 정확도가 올라가지만, 152층을 넘어서면 vanishing gradient와 학습 불안정으로 오히려 성능이 떨어집니다. ResNet-1202는 ResNet-110보다 나빴습니다.
너비(Width) 스케일링은 각 층의 채널 수를 늘리는 전략입니다. WideResNet이 이 접근법을 사용했는데, 채널이 2배가 되면 파라미터는 4배(채널²에 비례)가 됩니다. 메모리와 연산 비용이 급증하면서 효율이 떨어집니다.
해상도(Resolution) 스케일링은 입력 이미지 크기를 키우는 방법입니다. 224×224에서 480×480으로 올리면 FLOPs가 약 4.6배 증가하지만, 정확도 향상은 1-2%에 불과합니다.
핵심 통찰: 세 축 모두 개별적으로는 빠르게 수확체감(diminishing returns)에 도달합니다. Tan & Le(2019)의 실험에서 단일 스케일링은 80% 정확도 근처에서 포화되었지만, 세 축을 함께 키우면 87%까지 도달했습니다.