볼록 최적화와 제약 — 제한 속의 최적해

볼록 집합과 함수, 라그랑주 승수법, KKT 조건, 쌍대 문제, ML에서의 볼록 완화

1 / 16

왜 볼록성이 중요한가?

볼록 최적화(Convex Optimization)는 머신러닝과 딥러닝의 수학적 토대입니다.

왜 볼록성(convexity)이 중요할까요? 비볼록 문제에서는 지역 극소값(local minimum), 안장점(saddle point), 고원(plateau)이 존재하여 전역 최적해를 찾는 것이 NP-hard입니다. 반면 볼록 문제에서는 모든 지역 극소가 곧 전역 극소이므로, 경사하강법(GD)이 반드시 최적해에 수렴합니다.

볼록 최적화의 역사적 이정표:

- 1947: Dantzig의 심플렉스법 → 선형 프로그래밍 해결

- 1951: Kuhn-Tucker 조건 발표 → 비선형 제약 최적화 기초

- 1964: Karmarkar 내점법(interior-point) 제안

- 1996: Boyd & Vandenberghe의 이론 정립 → "Convex Optimization" 교과서

- 2004: SVM, LASSO 등 ML에서 볼록 최적화 활용 급증

- 2014: ADMM(교대방향승수법) 대규모 분산 최적화 표준으로 부상

핵심 통찰: 딥러닝의 손실함수는 비볼록이지만, 개별 레이어의 부분문제(SVM, 릿지 회귀, 커널 PCA 등)는 볼록 문제로 환원 가능합니다. 볼록 최적화를 이해해야 비볼록 문제의 완화(relaxation)와 근사(approximation) 전략을 세울 수 있습니다.

0:00

1:48

🎓 강의 스크립트

볼록 최적화는 머신러닝에서 "풀 수 있는" 최적화의 핵심이에요.

왜 볼록성이 이토록 중요한지, 그림을 보면서 이해해 볼게요.

왼쪽 그래프를 보세요. 비볼록 함수에요.

울퉁불퉁한 곡선에 지역 극소값이 세 개나 있어요.

경사하강법을 돌리면, 시작점에 따라 다른 극소에 빠져요.

안장점까지 있어서 그래디언트가 0인데도 최솟값이 아닌 지점이 존재해요.

전역 최소를 찾으려면 결국 모든 곳을 탐색해야 하고, 이건 NP-hard예요.

이제 오른쪽 볼록 함수를 보세요. 매끈한 그릇 모양이에요.

극소값이 딱 하나! 어디서 시작하든 경사하강이 여기로 수렴해요.

수렴 속도도 보장돼요. 일반 볼록은 O(1/t), 강볼록은 기하급수적이에요.

하단 비교 상자를 보면, 비볼록은 NP-hard에 초기값 의존적이에요.

볼록은 다항 시간에 유일해, 초기값과 무관하게 최적해를 줘요.

역사적으로 1947년 단치히의 심플렉스법부터 시작됐어요.

1951년 쿤-터커 조건, 2004년 SVM과 라쏘에서 전성기를 맞이했죠.

딥러닝 손실은 비볼록이지만, 부분문제를 볼록으로 환원하는 게 핵심 전략이에요.

볼록 최적화를 알아야 비볼록 문제도 다룰 수 있어요.

다음 슬라이드에서 볼록 집합과 볼록 함수의 정의를 배워볼게요.

정의를 정확히 알아야 어떤 문제가 볼록인지 판별할 수 있어요.

지금 본 직관을 수식으로 형식화하는 과정이에요.

이 레슨이 끝나면 SVM, 라쏘 같은 문제가 왜 잘 풀리는지 이해하게 될 거예요.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

학생: 볼록이면 무조건 전역 최솟값을 찾을 수 있는 건가요?

선생님: 네! 볼록 함수에서 그래디언트가 0인 점은 반드시 전역 최솟값이에요.

선생님: 일반 볼록은 오 분의 일 티 속도로, 강볼록이면 기하급수적으로 빠르게 수렴해요.

학생: 딥러닝 손실함수는 비볼록인데, 왜 경사하강법이 잘 작동하나요?

선생님: 고차원에서는 지역 극소가 전역 극소와 비슷한 값을 가지는 경우가 많아요.

선생님: 또 배치 정규화, 드롭아웃 같은 기법이 손실 지형을 매끄럽게 만들어 주거든요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

선형대수 기말고유값 시험확률통계 정리AI 수학 과제

비전공/입문자

선형대수 쉽게머신러닝 수학AI에 필요한 수학

취준생

데이터 사이언스 수학ML 수학 면접

직장인

실무에 필요한 수학

대학원생/연구자

convex optimization정보 이론 논문

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

볼록 최적화와 제약 — 제한 속의 최적해

볼록 집합과 함수, 라그랑주 승수법, KKT 조건, 쌍대 문제, ML에서의 볼록 완화

1 / 16

왜 볼록성이 중요한가?

볼록 최적화(Convex Optimization)는 머신러닝과 딥러닝의 수학적 토대입니다.

볼록 최적화의 역사적 이정표:

- 1947: Dantzig의 심플렉스법 → 선형 프로그래밍 해결

- 1951: Kuhn-Tucker 조건 발표 → 비선형 제약 최적화 기초

- 1964: Karmarkar 내점법(interior-point) 제안

- 1996: Boyd & Vandenberghe의 이론 정립 → "Convex Optimization" 교과서

- 2004: SVM, LASSO 등 ML에서 볼록 최적화 활용 급증

- 2014: ADMM(교대방향승수법) 대규모 분산 최적화 표준으로 부상

0:00

1:48

🎓 강의 스크립트

볼록 최적화는 머신러닝에서 "풀 수 있는" 최적화의 핵심이에요.

왜 볼록성이 이토록 중요한지, 그림을 보면서 이해해 볼게요.

왼쪽 그래프를 보세요. 비볼록 함수에요.

울퉁불퉁한 곡선에 지역 극소값이 세 개나 있어요.

경사하강법을 돌리면, 시작점에 따라 다른 극소에 빠져요.

안장점까지 있어서 그래디언트가 0인데도 최솟값이 아닌 지점이 존재해요.

전역 최소를 찾으려면 결국 모든 곳을 탐색해야 하고, 이건 NP-hard예요.

이제 오른쪽 볼록 함수를 보세요. 매끈한 그릇 모양이에요.

극소값이 딱 하나! 어디서 시작하든 경사하강이 여기로 수렴해요.

수렴 속도도 보장돼요. 일반 볼록은 O(1/t), 강볼록은 기하급수적이에요.

하단 비교 상자를 보면, 비볼록은 NP-hard에 초기값 의존적이에요.

볼록은 다항 시간에 유일해, 초기값과 무관하게 최적해를 줘요.

역사적으로 1947년 단치히의 심플렉스법부터 시작됐어요.

1951년 쿤-터커 조건, 2004년 SVM과 라쏘에서 전성기를 맞이했죠.

딥러닝 손실은 비볼록이지만, 부분문제를 볼록으로 환원하는 게 핵심 전략이에요.

볼록 최적화를 알아야 비볼록 문제도 다룰 수 있어요.

다음 슬라이드에서 볼록 집합과 볼록 함수의 정의를 배워볼게요.

정의를 정확히 알아야 어떤 문제가 볼록인지 판별할 수 있어요.

지금 본 직관을 수식으로 형식화하는 과정이에요.

이 레슨이 끝나면 SVM, 라쏘 같은 문제가 왜 잘 풀리는지 이해하게 될 거예요.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

학생: 볼록이면 무조건 전역 최솟값을 찾을 수 있는 건가요?

선생님: 네! 볼록 함수에서 그래디언트가 0인 점은 반드시 전역 최솟값이에요.

선생님: 일반 볼록은 오 분의 일 티 속도로, 강볼록이면 기하급수적으로 빠르게 수렴해요.

학생: 딥러닝 손실함수는 비볼록인데, 왜 경사하강법이 잘 작동하나요?

선생님: 고차원에서는 지역 극소가 전역 극소와 비슷한 값을 가지는 경우가 많아요.

선생님: 또 배치 정규화, 드롭아웃 같은 기법이 손실 지형을 매끄럽게 만들어 주거든요.