결정 트리 분류기 — 질문으로 분류하기

결정 트리가 지니 불순도(Gini impurity)와 정보 이득(information gain)을 사용하여 데이터를 분할하는 방법을 이해합니다.

1 / 16

결정 트리란? — 질문으로 데이터를 분류하는 직관적 모델

결정 트리(Decision Tree)는 예/아니오 질문을 반복해서 데이터를 분류하는 지도학습 모델입니다.

핵심 아이디어:

스무고개 게임과 동일합니다. "이 동물은 다리가 4개인가?" → Yes → "짖는가?" → Yes → 개!

데이터에서도 똑같이, 특성(feature)에 대한 질문을 반복해서 정답 클래스에 도달합니다.

왜 결정 트리인가:

- 직관적 해석: 왜 그런 판단을 했는지 질문 경로를 따라가면 바로 이해됨

- 전처리 불필요: 스케일링, 정규화 없이 원본 데이터 그대로 사용

- 비선형 관계 포착: 선형 모델이 놓치는 복잡한 패턴도 잡아냄

- 수치형 + 범주형 혼합: 두 타입 모두 자연스럽게 처리

분류 vs 회귀:

- 분류 트리: 리프 노드에서 클래스 레이블 출력 (다수결 투표)

- 회귀 트리: 리프 노드에서 평균값 출력

이 레슨에서는 분류 트리에 집중합니다.

실생활 활용:

- 대출 심사: 소득 > 5000만? → 신용등급 > B? → 승인/거절

- 의료 진단: 체온 > 38도? → 기침 있음? → 독감 의심

- 고객 이탈 예측: 최근 구매 > 30일? → 불만 접수? → 이탈 위험

0:00

1:56

🎓 강의 스크립트

결정 트리는 머신러닝에서 가장 직관적인 분류 알고리즘이에요.

사람이 일상에서 판단하는 방식을 그대로 모델로 만든 거예요.

예를 들어 이메일이 스팸인지 판단할 때, "무료" 단어가 있는지 먼저 확인하죠.

있으면 링크가 많은지 확인하고, 없으면 발신자가 알려진 사람인지 확인해요.

이렇게 질문을 연쇄적으로 던져서 데이터를 분류하는 게 결정 트리예요.

그림 왼쪽을 보세요. 이메일 스팸 분류의 트리 구조가 보여요.

맨 위가 루트 노드예요. 첫 번째 질문을 던지는 곳이에요.

중간에 있는 건 내부 노드예요. 추가 질문으로 데이터를 더 세분화해요.

맨 아래가 리프 노드예요. 최종 분류 결과가 여기에 있어요.

아래 표를 보면 에스브이엠이나 케이엔엔과 비교했을 때, 결정 트리의 해석력이 압도적이에요.

오른쪽 패널을 보세요. 네 가지 핵심 특성이 정리되어 있어요.

비모수적 모델이라서 데이터 분포를 가정할 필요가 없어요.

선형 회귀처럼 정규분포를 가정하지 않아도 된다는 뜻이에요.

재귀적으로 특성 공간을 이진 분할하는 방식이에요.

탐욕 알고리즘이라 각 단계에서 최선의 분할만 선택해요.

분류와 회귀 모두 가능해요. 분류 트리, 회귀 트리로 나뉘어요.

아래 역사 타임라인을 보면, 카트 알고리즘이 1984년에 나왔어요.

아이디쓰리는 1986년, 씨포인트파이브는 1993년에 나왔어요.

2001년에 랜덤 포레스트가 나오면서 앙상블의 시대가 열렸어요.

지금은 단독으로 쓰기보다는 랜덤 포레스트나 그래디언트 부스팅의 기본 구성요소로 많이 써요.

결정 트리를 완벽히 이해하면 앙상블 학습의 기초가 탄탄해져요.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

선생님: 결정 트리가 해석 가능하다는 게 구체적으로 뭘 의미할까요?

학생: 트리의 각 분할 규칙을 따라가면 왜 그런 예측이 나왔는지 정확히 알 수 있어요.

학생: 이프 덴 규칙으로 변환할 수 있어서 비전문가도 이해할 수 있거든요.

선생님: 맞아요. 그럼 딥러닝보다 항상 좋은 건 아닐까요?

학생: 해석력은 좋지만, 단일 트리는 복잡한 패턴을 잡으려면 과적합되잖아요.

선생님: 그래서 여러 트리를 합치는 랜덤 포레스트가 나온 거예요. 해석력은 줄지만 성능이 크게 올라가죠.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

머신러닝 기말고사회귀분석 정리분류 알고리즘 비교머신러닝 과제

비전공/입문자

머신러닝이란머신러닝 입문머신러닝 독학 로드맵AI 기초

취준생

머신러닝 면접 질문데이터 사이언티스트 준비ML 엔지니어 포트폴리오

직장인

머신러닝 실무 적용업무 자동화 ML비전공자 머신러닝

대학원생/연구자

ML 알고리즘 비교 논문classical ML 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

결정 트리 분류기 — 질문으로 분류하기

결정 트리가 지니 불순도(Gini impurity)와 정보 이득(information gain)을 사용하여 데이터를 분할하는 방법을 이해합니다.

1 / 16

결정 트리란? — 질문으로 데이터를 분류하는 직관적 모델

결정 트리(Decision Tree)는 예/아니오 질문을 반복해서 데이터를 분류하는 지도학습 모델입니다.

핵심 아이디어:

스무고개 게임과 동일합니다. "이 동물은 다리가 4개인가?" → Yes → "짖는가?" → Yes → 개!

데이터에서도 똑같이, 특성(feature)에 대한 질문을 반복해서 정답 클래스에 도달합니다.

왜 결정 트리인가:

- 직관적 해석: 왜 그런 판단을 했는지 질문 경로를 따라가면 바로 이해됨

- 전처리 불필요: 스케일링, 정규화 없이 원본 데이터 그대로 사용

- 비선형 관계 포착: 선형 모델이 놓치는 복잡한 패턴도 잡아냄

- 수치형 + 범주형 혼합: 두 타입 모두 자연스럽게 처리

분류 vs 회귀:

- 분류 트리: 리프 노드에서 클래스 레이블 출력 (다수결 투표)

- 회귀 트리: 리프 노드에서 평균값 출력

이 레슨에서는 분류 트리에 집중합니다.

실생활 활용:

- 대출 심사: 소득 > 5000만? → 신용등급 > B? → 승인/거절

- 의료 진단: 체온 > 38도? → 기침 있음? → 독감 의심

- 고객 이탈 예측: 최근 구매 > 30일? → 불만 접수? → 이탈 위험

0:00

1:56

🎓 강의 스크립트

결정 트리는 머신러닝에서 가장 직관적인 분류 알고리즘이에요.

사람이 일상에서 판단하는 방식을 그대로 모델로 만든 거예요.

예를 들어 이메일이 스팸인지 판단할 때, "무료" 단어가 있는지 먼저 확인하죠.

있으면 링크가 많은지 확인하고, 없으면 발신자가 알려진 사람인지 확인해요.

이렇게 질문을 연쇄적으로 던져서 데이터를 분류하는 게 결정 트리예요.

그림 왼쪽을 보세요. 이메일 스팸 분류의 트리 구조가 보여요.

맨 위가 루트 노드예요. 첫 번째 질문을 던지는 곳이에요.

중간에 있는 건 내부 노드예요. 추가 질문으로 데이터를 더 세분화해요.

맨 아래가 리프 노드예요. 최종 분류 결과가 여기에 있어요.

아래 표를 보면 에스브이엠이나 케이엔엔과 비교했을 때, 결정 트리의 해석력이 압도적이에요.

오른쪽 패널을 보세요. 네 가지 핵심 특성이 정리되어 있어요.

비모수적 모델이라서 데이터 분포를 가정할 필요가 없어요.

선형 회귀처럼 정규분포를 가정하지 않아도 된다는 뜻이에요.

재귀적으로 특성 공간을 이진 분할하는 방식이에요.

탐욕 알고리즘이라 각 단계에서 최선의 분할만 선택해요.

분류와 회귀 모두 가능해요. 분류 트리, 회귀 트리로 나뉘어요.

아래 역사 타임라인을 보면, 카트 알고리즘이 1984년에 나왔어요.

아이디쓰리는 1986년, 씨포인트파이브는 1993년에 나왔어요.

2001년에 랜덤 포레스트가 나오면서 앙상블의 시대가 열렸어요.

지금은 단독으로 쓰기보다는 랜덤 포레스트나 그래디언트 부스팅의 기본 구성요소로 많이 써요.

결정 트리를 완벽히 이해하면 앙상블 학습의 기초가 탄탄해져요.

💬 강의 Q&A

0:00

0:35

🎓 강의 스크립트

선생님: 결정 트리가 해석 가능하다는 게 구체적으로 뭘 의미할까요?

학생: 트리의 각 분할 규칙을 따라가면 왜 그런 예측이 나왔는지 정확히 알 수 있어요.

학생: 이프 덴 규칙으로 변환할 수 있어서 비전문가도 이해할 수 있거든요.

선생님: 맞아요. 그럼 딥러닝보다 항상 좋은 건 아닐까요?

학생: 해석력은 좋지만, 단일 트리는 복잡한 패턴을 잡으려면 과적합되잖아요.

선생님: 그래서 여러 트리를 합치는 랜덤 포레스트가 나온 거예요. 해석력은 줄지만 성능이 크게 올라가죠.