특징 선택 기법 — 의미 있는 변수만 고르기

필터, 래퍼, 임베디드 방법을 탐구하여 모델에 가장 관련성 높은 특성을 선택합니다.

1 / 15

특징 선택이란? — 차원 축소와의 차이, 해석력 보존

특징 선택이란?

- 특징 선택(Feature Selection)(Guyon & Elisseeff, 2003)은 머신러닝 모델에 입력할 변수 중에서 예측에 실제로 도움이 되는 변수만 골라내는 과정이다.

- 데이터셋에 수십~수백 개의 열(column)이 있을 때, 모든 변수를 그대로 사용하면 학습 시간이 길어지고 과적합 위험이 커진다.

왜 중요한가

- 불필요한 변수(노이즈)가 포함되면 모델이 훈련 데이터의 우연한 패턴까지 외워 테스트 성능이 떨어진다.

특징 선택 vs PCA: 핵심 차이

- 특징 선택은 차원 축소(Dimensionality Reduction)의 한 종류이지만, PCA와 달리 원래 변수를 그대로 유지한다는 점이 핵심 차이다.

- PCA: 기존 변수를 선형 결합하여 새로운 축을 만들기 때문에, 결과 변수의 의미를 사람이 해석하기 어렵다.

- 특징 선택: "나이", "소득", "BMI" 같은 원래 이름이 살아 있어 해석력(interpretability)이 보존된다.

- 의료 진단이나 금융 심사처럼 모델의 판단 근거를 설명해야 하는 분야에서 특징 선택이 필수인 이유가 바로 이것이다.

특징 선택 vs PCA 흐름 비교

- 아래 다이어그램은 전체 변수 집합에서 특징 선택과 PCA가 각각 어떻게 변수를 줄이는지 비교한 흐름을 보여 준다.

- 특징 선택은 부분집합을 고르고, PCA는 변환된 새 축으로 사영(projection)하는 차이를 확인할 수 있다.

특징 선택의 이론적 기반은 Guyon과 Elisseeff의 포괄적 리뷰에서 체계적으로 정리되었다 (Guyon et al., 2003).

0:00

2:06

🎓 강의 스크립트

머신러닝에서 피처가 100개 있다고 해봐요.

전부 다 쓸 필요가 있을까요? 대부분은 노이즈이거나 중복이에요.

그래서 피처 셀렉션이 필요합니다. 의미 있는 변수만 고르는 거예요.

왼쪽 그림을 보세요. 피처 셀렉션은 원본 피처 중에서 골라내는 방식이에요.

x1, x2, x3 같은 원래 이름 그대로 남아요.

의료 데이터에서 "혈압"이 중요하다고 말할 수 있죠. 해석이 직관적이에요.

오른쪽 그림을 보세요. PCA 같은 차원 축소는 다른 접근이에요.

모든 피처를 선형 결합해서 새로운 축을 만들어요. PC1, PC2처럼요.

PC1이 0.5 곱하기 키 더하기 0.3 곱하기 몸무게... 이게 무슨 의미인지 해석이 어려워요.

오른쪽 비교 테이블을 보세요. 해석력에서 큰 차이가 나요.

피처 셀렉션은 해석력이 높고, PCA는 낮아요.

정보 손실 방식도 달라요. 피처 셀렉션은 제거만 하고, PCA는 압축을 해요.

의료나 금융에서는 "왜 이 환자가 고위험인가" 설명해야 해요.

그래서 해석 가능한 피처 셀렉션을 선호합니다.

반면 이미지나 자연어 처리에서는 차원만 줄이면 되니까 PCA를 많이 써요.

다중공선성도 중요한 차이예요. PCA는 자동으로 해결하지만 피처 셀렉션은 별도로 처리해야 해요.

하단 결론을 보세요. "어떤 피처가 중요한지 알아야 하면" 피처 셀렉션이에요.

"차원만 줄이면 되면" PCA나 티에스엔이 같은 차원 축소를 쓰는 거예요.

실전에서는 두 방법을 결합하기도 해요. 먼저 선택 후 축소하는 파이프라인이죠.

오늘은 피처 셀렉션의 세 가지 방법인 필터, 래퍼, 임베디드를 깊이 배울 거예요.

각각의 장단점과 언제 어떤 방법을 쓸지까지 완전히 이해하게 될 거예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

머신러닝 기말고사회귀분석 정리분류 알고리즘 비교머신러닝 과제

비전공/입문자

머신러닝이란머신러닝 입문머신러닝 독학 로드맵AI 기초

취준생

머신러닝 면접 질문데이터 사이언티스트 준비ML 엔지니어 포트폴리오

직장인

머신러닝 실무 적용업무 자동화 ML비전공자 머신러닝

대학원생/연구자

ML 알고리즘 비교 논문classical ML 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비