SVM 분류 — 마진을 최대화하는 경계

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

머신러닝 기말고사회귀분석 정리분류 알고리즘 비교머신러닝 과제

비전공/입문자

머신러닝이란머신러닝 입문머신러닝 독학 로드맵AI 기초

취준생

머신러닝 면접 질문데이터 사이언티스트 준비ML 엔지니어 포트폴리오

직장인

머신러닝 실무 적용업무 자동화 ML비전공자 머신러닝

대학원생/연구자

ML 알고리즘 비교 논문classical ML 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

SVM 분류 — 마진을 최대화하는 경계

서포트 벡터 머신(Support Vector Machine)이 클래스 간 마진을 최대화하여 최적의 결정 경계를 찾는 방법을 이해합니다.

1 / 15

SVM이란? — Maximum Margin Classifier와 서포트 벡터

왜 SVM이란? — Maximum Margin Classifier와 서포트 벡터이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

SVM(Support Vector Machine)은 두 클래스를 나누는 최적의 결정 경계를 찾는 분류 알고리즘입니다.

핵심 아이디어: 마진 최대화(Maximum Margin)

두 클래스를 나누는 초평면(hyperplane)은 무한히 많습니다. SVM은 그 중에서 마진이 가장 넓은 초평면을 선택합니다.

마진(Margin)이란?

결정 경계와 가장 가까운 데이터 포인트 사이의 거리 × 2입니다. 마진이 넓을수록 새로운 데이터에 대한 일반화(generalization) 성능이 좋아집니다.

서포트 벡터(Support Vector)란?

결정 경계에 가장 가까운 데이터 포인트들입니다. 이 점들만이 결정 경계를 결정합니다.

- 서포트 벡터가 아닌 나머지 데이터를 아무리 추가/제거해도 경계는 변하지 않습니다

- "Support Vector Machine"이라는 이름이 여기서 유래합니다

수학적 직관:

- 초평면: $w \cdot x + b = 0$

- 클래스 +1: $w \cdot x + b \geq +1$

- 클래스 -1: $w \cdot x + b \leq -1$

- 마진 폭: $\frac{2}{\|w\|}$

- 마진을 최대화하려면 \|w\|를 최소화해야 합니다

왜 마진이 중요한가?

통계적 학습 이론(VC 이론)에 따르면 마진이 넓을수록 모델의 일반화 오차 상한이 낮아집니다. 단순히 경험적인 것이 아니라 이론적으로 보장된 성질입니다.

왜 중요한가? SVM의 결정 경계는 마진 경계에 위치한 소수의 데이터 포인트(서포트 벡터)에 의해서만 결정됩니다. 나머지 수천, 수만 개의 데이터는 결정 경계에 영향을 주지 않습니다. 이는 두 가지 실용적 장점을 제공합니다. 첫째, 예측 시 서포트 벡터와의 커널 계산만 하면 되므로 효율적입니다. 둘째, 모델이 가장 "어려운" 경계 사례에 집중하므로, 새로운 데이터에 대해 강건한 예측을 합니다. 이 희소성(sparsity)이 SVM의 메모리 효율성과 일반화 성능의 비결입니다.

0:00

1:48

🎓 강의 스크립트

에스브이엠, 서포트 벡터 머신은 두 클래스를 가장 넓은 마진으로 분리하는 분류기예요.

그림 왼쪽을 보세요. 좁은 마진의 결정 경계가 보여요.

경계가 데이터에 너무 가까워서 새로운 데이터가 조금만 달라도 오분류될 수 있어요.

마진 폭이 약 영 점 삼밖에 안 돼요. 이건 위험한 경계예요.

이제 가운데를 보세요. 최적의 넓은 마진 경계가 있어요.

마진 폭이 이 점 일로 왼쪽보다 일곱 배나 넓어요.

주황색 원으로 표시된 점들이 서포트 벡터예요.

서포트 벡터는 마진 경계에 가장 가까운 점들로, 이 점들만이 결정 경계를 결정해요.

나머지 데이터를 전부 제거해도 경계는 변하지 않아요. 놀랍죠?

오른쪽 상자를 보면 핵심 개념이 정리되어 있어요.

결정 초평면의 수식은 더블유 점 엑스 플러스 비 이퀄 영이에요.

마진은 이 분의 더블유 노름으로 계산해요. 이걸 최대화하는 거예요.

에스브이엠은 볼록 최적화 문제라서 전역 최적해가 보장돼요.

신경망처럼 지역 최소값에 빠질 걱정이 없다는 뜻이에요.

블라디미르 바프닉이 천구백육십삼년에 처음 제안하고, 천구백구십오년에 커널 버전을 완성했어요.

비유하면 두 그룹 사이에 가장 넓은 도로를 까는 것과 같아요.

도로가 넓을수록 새로운 차가 와도 차선을 벗어날 확률이 줄어들죠.

이 넓은 도로 아이디어가 에스브이엠의 핵심 동기예요.

하단의 결론을 보세요. 에스브이엠은 가장 넓은 도로를 찾아 일반화 성능을 극대화해요.

이제 왜 넓은 마진이 수학적으로 더 좋은지 자세히 살펴볼게요.

💬 강의 Q&A

0:00

0:27

🎓 강의 스크립트

선생님: 에스브이엠에서 서포트 벡터를 제거하면 결정 경계가 어떻게 될까요?

학생: 음, 서포트 벡터가 경계를 결정하니까 경계 자체가 바뀌겠죠?

선생님: 맞아요! 반대로 서포트 벡터가 아닌 점을 제거하면요?

학생: 그 점들은 경계 결정에 참여하지 않으니까 아무 변화가 없을 거예요.

선생님: 정확해요. 이게 에스브이엠의 희소성이라는 중요한 성질이에요.