랜덤 포레스트 — 나무들의 지혜

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

머신러닝 기말고사회귀분석 정리분류 알고리즘 비교머신러닝 과제

비전공/입문자

머신러닝이란머신러닝 입문머신러닝 독학 로드맵AI 기초

취준생

머신러닝 면접 질문데이터 사이언티스트 준비ML 엔지니어 포트폴리오

직장인

머신러닝 실무 적용업무 자동화 ML비전공자 머신러닝

대학원생/연구자

ML 알고리즘 비교 논문classical ML 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

랜덤 포레스트 — 나무들의 지혜

랜덤 포레스트가 배깅과 특성 무작위화를 통해 여러 결정 트리를 결합하는 방법을 학습합니다.

1 / 15

랜덤 포레스트란? — Bagging + 특성 랜덤 선택

왜 랜덤 포레스트란? — Bagging + 특성 랜덤 선택이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

랜덤 포레스트(Random Forest)는 여러 결정 트리를 동시에 학습시키고, 결과를 종합하는 앙상블(Ensemble) 기법입니다.

핵심 아이디어:

한 명의 전문가보다 여러 명의 의견을 모으는 게 더 정확하다는 "군중의 지혜(Wisdom of Crowds)"에 기반합니다.

두 가지 핵심 랜덤성:

1. Bagging (Bootstrap Aggregating): 전체 데이터에서 복원 추출로 각 트리마다 다른 훈련 데이터를 만듭니다

2. Feature Randomness: 매 분할(split)마다 전체 특성 중 일부만 랜덤으로 선택해서 후보로 사용합니다

왜 두 가지 랜덤이 모두 필요한가?

- Bagging만 하면? 강한 특성이 매번 루트에 선택됨 → 트리끼리 너무 비슷해짐

- 특성 랜덤까지 추가하면? 트리마다 다른 관점으로 데이터를 봄 → 다양성 확보

최종 예측 방식:

- 분류(Classification): 다수결 투표 (Majority Voting)

- 회귀(Regression): 모든 트리 예측값의 평균 (Mean)

기본 설정:

- 분류 시 후보 특성 수: \sqrt{}p (p = 전체 특성 수)

- 회귀 시 후보 특성 수: p / 3

0:00

2:03

🎓 강의 스크립트

오늘 배울 랜덤 포레스트는 여러 결정 트리를 모아서 하나의 강력한 모델을 만드는 앙상블 기법이에요.

그림 왼쪽을 보세요. 원본 데이터에서 부트스트랩 복원 추출로 여러 샘플을 만들어요.

복원 추출이란 같은 데이터가 여러 번 뽑힐 수 있다는 뜻이에요.

가운데를 보면 각 부트스트랩 샘플로 트리를 하나씩 학습해요.

여기서 핵심이 있어요. 각 트리가 분할할 때 전체 특성이 아니라 루트 피 개만 랜덤으로 골라요.

이 특성 랜덤 선택이 트리들을 서로 다르게 만드는 핵심 비밀이에요.

오른쪽을 보면 이 다양한 트리들의 예측을 모아서 최종 답을 내요.

분류 문제라면 다수결 투표, 회귀라면 평균을 사용해요.

하단 왼쪽 공식을 보세요. 앙상블 분산은 로 시그마 제곱 더하기 일 빼기 로 곱하기 시그마 제곱 나누기 비예요.

여기서 로는 트리 간 상관관계인데 이걸 줄이는 게 랜덤 포레스트의 핵심 전략이에요.

하단 오른쪽 장점 박스를 보면 과적합에 강하고 특성 중요도를 자동 제공해요.

결측값이나 이상치에도 견고하고 트리가 독립이라 병렬화가 완벽해요.

맨 아래 파란 박스를 보세요. 랜덤의 첫 번째 의미는 데이터 복원 추출이에요.

빨간 박스는 두 번째 랜덤이에요. 각 분할에서 루트 피 개 특성만 고려하는 거예요.

이 두 가지 랜덤성이 합쳐져서 트리 간 상관관계 로를 효과적으로 줄여요.

결과적으로 편향은 거의 유지하면서 분산만 크게 줄이는 기법이에요.

레오 브레이만이 2001년에 제안했고 오늘날 기준선 모델의 표준이에요.

정형 데이터에서 딥러닝 없이도 92퍼센트 이상의 정확도를 자주 달성해요.

하이퍼파라미터 튜닝도 거의 필요 없어서 실무에서 가장 먼저 시도하는 모델이에요.

면접에서 랜덤 포레스트를 설명하라고 하면 배깅 플러스 특성 랜덤 선택이라고 답하면 됩니다.

💬 강의 Q&A

0:00

0:42

🎓 강의 스크립트

선생님: 랜덤 포레스트에서 "랜덤"이 의미하는 두 가지를 말해볼까요?

학생: 하나는 부트스트랩 복원 추출로 데이터를 랜덤하게 뽑는 거고요.

학생: 두 번째는 각 분할에서 루트 피 개 특성만 랜덤으로 선택하는 거예요.

선생님: 맞아요. 이 두 가지 랜덤성이 트리 간 상관관계를 줄여서 앙상블 분산을 효과적으로 감소시켜요.

학생: 그러면 랜덤 특성 선택 없이 배깅만 하면 왜 덜 효과적인가요?

선생님: 좋은 질문이에요. 배깅만 하면 모든 트리가 같은 강한 특성을 사용해서 트리들이 비슷해지거든요. 상관관계 로가 높아서 분산 감소 효과가 제한되는 거예요.