이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 비지도학습 & 평가 — 정답 없이 구조 찾기 → 차원 축소(Dimensionality Reduction)
필터, 래퍼, 임베디드 방법을 탐구하여 모델에 가장 관련성 높은 특성을 선택합니다.
머신러닝에서 피처가 100개 있다고 해봐요.
전부 다 쓸 필요가 있을까요? 대부분은 노이즈이거나 중복이에요.
그래서 피처 셀렉션이 필요합니다. 의미 있는 변수만 고르는 거예요.
왼쪽 그림을 보세요. 피처 셀렉션은 원본 피처 중에서 골라내는 방식이에요.
x1, x2, x3 같은 원래 이름 그대로 남아요.
의료 데이터에서 "혈압"이 중요하다고 말할 수 있죠. 해석이 직관적이에요.
오른쪽 그림을 보세요. PCA 같은 차원 축소는 다른 접근이에요.
모든 피처를 선형 결합해서 새로운 축을 만들어요. PC1, PC2처럼요.
PC1이 0.5 곱하기 키 더하기 0.3 곱하기 몸무게... 이게 무슨 의미인지 해석이 어려워요.
오른쪽 비교 테이블을 보세요. 해석력에서 큰 차이가 나요.
피처 셀렉션은 해석력이 높고, PCA는 낮아요.
정보 손실 방식도 달라요. 피처 셀렉션은 제거만 하고, PCA는 압축을 해요.
의료나 금융에서는 "왜 이 환자가 고위험인가" 설명해야 해요.
그래서 해석 가능한 피처 셀렉션을 선호합니다.
반면 이미지나 자연어 처리에서는 차원만 줄이면 되니까 PCA를 많이 써요.
다중공선성도 중요한 차이예요. PCA는 자동으로 해결하지만 피처 셀렉션은 별도로 처리해야 해요.
하단 결론을 보세요. "어떤 피처가 중요한지 알아야 하면" 피처 셀렉션이에요.
"차원만 줄이면 되면" PCA나 티에스엔이 같은 차원 축소를 쓰는 거예요.
실전에서는 두 방법을 결합하기도 해요. 먼저 선택 후 축소하는 파이프라인이죠.
오늘은 피처 셀렉션의 세 가지 방법인 필터, 래퍼, 임베디드를 깊이 배울 거예요.
각각의 장단점과 언제 어떤 방법을 쓸지까지 완전히 이해하게 될 거예요.
선생님: 피처 셀렉션과 PCA의 가장 큰 차이가 뭘까요?
학생: PCA는 새로운 축을 만들고, 피처 셀렉션은 원래 피처를 유지하는 거 아닌가요?
선생님: 정확해요! 그래서 해석력이 필요한 의료나 금융에서는 피처 셀렉션을 선호합니다.
학생: 그러면 피처 셀렉션과 PCA를 같이 쓸 수도 있나요?
선생님: 좋은 질문이에요! 라쏘로 선택 후 남은 피처에 PCA를 적용하는 파이프라인이 실전에서 자주 쓰여요.