이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 고급 지도학습 방법 — 앙상블과 최적화 → 앙상블 & 부스팅
랜덤 포레스트가 배깅과 특성 무작위화를 통해 여러 결정 트리를 결합하는 방법을 학습합니다.
오늘 배울 랜덤 포레스트는 여러 결정 트리를 모아서 하나의 강력한 모델을 만드는 앙상블 기법이에요.
그림 왼쪽을 보세요. 원본 데이터에서 부트스트랩 복원 추출로 여러 샘플을 만들어요.
복원 추출이란 같은 데이터가 여러 번 뽑힐 수 있다는 뜻이에요.
가운데를 보면 각 부트스트랩 샘플로 트리를 하나씩 학습해요.
여기서 핵심이 있어요. 각 트리가 분할할 때 전체 특성이 아니라 루트 피 개만 랜덤으로 골라요.
이 특성 랜덤 선택이 트리들을 서로 다르게 만드는 핵심 비밀이에요.
오른쪽을 보면 이 다양한 트리들의 예측을 모아서 최종 답을 내요.
분류 문제라면 다수결 투표, 회귀라면 평균을 사용해요.
하단 왼쪽 공식을 보세요. 앙상블 분산은 로 시그마 제곱 더하기 일 빼기 로 곱하기 시그마 제곱 나누기 비예요.
여기서 로는 트리 간 상관관계인데 이걸 줄이는 게 랜덤 포레스트의 핵심 전략이에요.
하단 오른쪽 장점 박스를 보면 과적합에 강하고 특성 중요도를 자동 제공해요.
결측값이나 이상치에도 견고하고 트리가 독립이라 병렬화가 완벽해요.
맨 아래 파란 박스를 보세요. 랜덤의 첫 번째 의미는 데이터 복원 추출이에요.
빨간 박스는 두 번째 랜덤이에요. 각 분할에서 루트 피 개 특성만 고려하는 거예요.
이 두 가지 랜덤성이 합쳐져서 트리 간 상관관계 로를 효과적으로 줄여요.
결과적으로 편향은 거의 유지하면서 분산만 크게 줄이는 기법이에요.
레오 브레이만이 2001년에 제안했고 오늘날 기준선 모델의 표준이에요.
정형 데이터에서 딥러닝 없이도 92퍼센트 이상의 정확도를 자주 달성해요.
하이퍼파라미터 튜닝도 거의 필요 없어서 실무에서 가장 먼저 시도하는 모델이에요.
면접에서 랜덤 포레스트를 설명하라고 하면 배깅 플러스 특성 랜덤 선택이라고 답하면 됩니다.
선생님: 랜덤 포레스트에서 "랜덤"이 의미하는 두 가지를 말해볼까요?
학생: 하나는 부트스트랩 복원 추출로 데이터를 랜덤하게 뽑는 거고요.
학생: 두 번째는 각 분할에서 루트 피 개 특성만 랜덤으로 선택하는 거예요.
선생님: 맞아요. 이 두 가지 랜덤성이 트리 간 상관관계를 줄여서 앙상블 분산을 효과적으로 감소시켜요.
학생: 그러면 랜덤 특성 선택 없이 배깅만 하면 왜 덜 효과적인가요?
선생님: 좋은 질문이에요. 배깅만 하면 모든 트리가 같은 강한 특성을 사용해서 트리들이 비슷해지거든요. 상관관계 로가 높아서 분산 감소 효과가 제한되는 거예요.