결정 트리 회귀 및 가지치기 — 과적합 없는 예측

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

머신러닝 기말고사회귀분석 정리분류 알고리즘 비교머신러닝 과제

비전공/입문자

머신러닝이란머신러닝 입문머신러닝 독학 로드맵AI 기초

취준생

머신러닝 면접 질문데이터 사이언티스트 준비ML 엔지니어 포트폴리오

직장인

머신러닝 실무 적용업무 자동화 ML비전공자 머신러닝

대학원생/연구자

ML 알고리즘 비교 논문classical ML 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

결정 트리 회귀 및 가지치기 — 과적합 없는 예측

결정 트리를 회귀 작업에 적용하고 비용 복잡도 가지치기(cost-complexity pruning)를 사용하여 과적합을 제어합니다.

1 / 15

결정 트리 회귀 — 분류 트리와의 차이

왜 결정 트리 회귀 — 분류 트리와의 차이이(가) 필요한가? 실무에서 이 개념 없이는 문제를 해결할 수 없습니다. 핵심 동기와 배경을 먼저 이해합시다.

</div>

결정 트리는 분류(classification)뿐 아니라 회귀(regression)에도 사용됩니다. 겉보기엔 같은 트리 구조지만, 내부 동작이 다릅니다.

분류 트리 vs 회귀 트리:

| 항목 | 분류 트리 | 회귀 트리 |

|------|-----------|-----------|

| 리프 출력 | 클래스 레이블 (다수결) | 평균값 (해당 영역 샘플의 평균) |

| 분할 기준 | Gini 불순도 / 엔트로피 | MSE (평균제곱오차) 감소 |

| 예측 형태 | 이산적 범주 | 연속적 숫자 |

| 평가 지표 | 정확도, F1-score | MSE, MAE, R² |

회귀 트리의 예측 과정:

1. 루트 노드에서 시작 → 특성값과 임계값 비교

2. 조건에 따라 왼쪽/오른쪽 자식으로 이동

3. 리프 노드에 도달하면 해당 영역에 속한 훈련 샘플들의 평균값을 반환

직관적 이해:

집 가격 예측을 생각해보세요. "면적 > 100m²?" → "방 개수 > 3?" 같은 질문으로 공간을 나누고, 각 영역의 평균 가격을 예측값으로 사용합니다. 결과적으로 계단 함수(step function) 형태의 예측이 됩니다.

왜 중요한가? 분류 트리는 지니 불순도나 엔트로피로 "순수한" 노드를 만들지만, 회귀 문제에서 "순수함"은 예측값 주변의 분산이 작다는 뜻입니다. MSE를 분할 기준으로 사용하면, 각 분할이 자식 노드의 분산을 최대한 줄이는 방향으로 선택됩니다. 이것은 분류에서의 정보 이득(information gain)과 수학적으로 동치인 개념입니다. 분산이 줄어든다는 것은 같은 리프에 속한 데이터가 비슷한 목표값을 가진다는 의미이므로, 리프의 평균값이 좋은 예측이 됩니다.

0:00

2:05

🎓 강의 스크립트

결정 트리 회귀는 트리 구조를 사용해서 연속적인 수치를 예측하는 모델이에요.

그림 왼쪽의 분류 트리를 먼저 보세요. 리프 노드에 클래스 A, 클래스 B라고 적혀 있죠.

분류 트리는 다수결 투표로 리프의 클래스를 결정해요. 8 대 10이면 A를 선택하는 거예요.

이제 오른쪽의 회귀 트리를 보세요. 리프 노드에 23.4, 31.7 같은 숫자가 적혀 있어요.

회귀 트리는 리프에 속한 데이터의 평균값을 예측으로 출력해요.

분할 기준도 다릅니다. 분류 트리는 지니 불순도나 엔트로피를 사용해요.

반면 회귀 트리는 엠에스이, 즉 평균 제곱 오차를 기준으로 분할해요.

노드의 MSE는 그 노드 안의 데이터들이 평균으로부터 얼마나 흩어져 있는지를 측정해요.

MSE가 작은 노드는 데이터가 비슷하다는 뜻이에요. 순수한 노드인 거죠.

그림 아래쪽 비교 박스를 보면, 평가 지표도 완전히 달라요.

분류는 정확도와 에프원 스코어를 쓰지만, 회귀는 MSE와 MAE, 알스퀘어를 써요.

왜 회귀 트리에서 지니 불순도 대신 MSE를 쓸까요?

지니는 클래스 비율을 측정하는 지표예요. 연속값에는 적용할 방법이 없어요.

MSE는 연속값의 분산을 직접 측정하니까, 회귀에 자연스럽게 맞는 거예요.

결국 분류 트리와 회귀 트리는 같은 트리 구조이지만, 목적과 내부 동작이 다릅니다.

분류는 투표, 회귀는 평균. 이 핵심 차이를 반드시 기억하세요.

MAE를 기준으로 쓰면 중앙값 기반 분할이 되어 이상치에 더 강건해져요.

스크립트에서 criterion 파라미터를 absolute_error로 바꾸면 MAE를 사용할 수 있어요.

하지만 MAE는 미분이 0에서 불연속이라 최적화가 까다로워요.

실전에서는 대부분 기본값인 squared_error, 즉 MSE를 사용합니다.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

선생님: 회귀 트리에서 리프 노드의 예측값은 어떻게 결정될까요?

학생: 해당 리프에 속한 훈련 데이터의 평균값이요. 투표가 아니라 평균으로 결정되니까 연속값이 나오는 거죠.

선생님: 맞아요. 그렇다면 왜 지니 불순도 대신 MSE를 분할 기준으로 사용할까요?

학생: 지니는 클래스 비율을 측정하는 건데, 연속값에는 클래스가 없으니 적용할 수 없어서요.

선생님: 정확해요. MSE는 연속값의 분산을 직접 측정하니까 회귀 문제에 자연스럽게 맞는 거예요.