이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 고급 지도학습 방법 — 앙상블과 최적화 → 앙상블 & 부스팅
스태킹과 블렌딩이 메타 학습기를 통해 다양한 기본 모델을 결합하여 더 강력한 예측을 만드는 방법을 학습합니다.
스태킹은 앙상블 기법 중에서 가장 강력한 방법이에요.
기본 아이디어를 그림으로 보면 이해가 쉬워요.
왼쪽에 입력 데이터가 있고, 이 데이터가 여러 모델에 동시에 들어가요.
랜덤 포레스트, 에스브이엠, 엑스지부스트, 로지스틱 회귀 이렇게 네 개의 베이스 모델이 각자 예측해요.
각 모델이 서로 다른 관점에서 데이터를 보기 때문에 서로 다른 실수를 해요.
가운데 파란 박스를 보세요. 메타 특성이라고 적혀 있죠.
각 모델의 예측값 영점 팔이, 영점 칠일, 영점 구영, 영점 육오가 새로운 입력이 되는 거예요.
이 메타 특성이 오른쪽의 메타 러너로 들어가요.
메타 러너는 보통 로지스틱 회귀처럼 단순한 모델이에요.
메타 러너가 하는 일은 어떤 모델의 예측을 얼마나 신뢰할지 학습하는 거예요.
하단의 두 박스를 비교해 보세요.
보팅은 네 예측값을 단순 평균해서 영점 칠칠을 얻어요.
반면 스태킹은 메타 러너가 학습한 가중치로 결합해서 영점 팔팔을 달성해요.
엑스지부스트가 더 정확한데 보팅은 이를 무시하지만, 스태킹은 자동으로 더 높은 가중치를 줘요.
실제로 캐글 상위 솔루션의 팔십 퍼센트 이상이 스태킹 앙상블을 사용해요.
울퍼트가 천구백구십이년에 제안한 스택드 제너럴리제이션이 시초예요.
왜 이렇게 효과적이냐면, 각 모델이 잘하는 영역이 다르기 때문이에요.
어떤 데이터에서는 랜덤 포레스트가, 다른 데이터에서는 에스브이엠이 더 정확하거든요.
메타 러너는 이 패턴을 학습해서 상황별로 최적의 조합을 찾아내요.
단순 보팅보다 스태킹이 더 나은 이유가 바로 이 학습 기반 결합이에요.
선생님: 스태킹과 보팅의 핵심 차이가 뭘까요?
학생: 보팅은 모든 모델을 동등하게 평균하고, 스태킹은 메타 러너가 가중치를 학습하는 거 아닌가요?
선생님: 정확해요. 보팅은 동등 가중치, 스태킹은 데이터에서 최적 가중치를 학습해요.
학생: 그러면 항상 스태킹이 보팅보다 좋은 건가요?
선생님: 데이터가 충분하고 모델이 다양하면 그렇죠. 하지만 데이터가 적으면 메타러너가 과적합될 수 있어서 보팅이 더 안전할 수도 있어요.