이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 머신러닝 — 데이터에서 지식을 추출하다 → 지도학습 기초 — 데이터에서 패턴 배우기 → 트리 기반 모델
결정 트리가 지니 불순도(Gini impurity)와 정보 이득(information gain)을 사용하여 데이터를 분할하는 방법을 이해합니다.
결정 트리는 머신러닝에서 가장 직관적인 분류 알고리즘이에요.
사람이 일상에서 판단하는 방식을 그대로 모델로 만든 거예요.
예를 들어 이메일이 스팸인지 판단할 때, "무료" 단어가 있는지 먼저 확인하죠.
있으면 링크가 많은지 확인하고, 없으면 발신자가 알려진 사람인지 확인해요.
이렇게 질문을 연쇄적으로 던져서 데이터를 분류하는 게 결정 트리예요.
그림 왼쪽을 보세요. 이메일 스팸 분류의 트리 구조가 보여요.
맨 위가 루트 노드예요. 첫 번째 질문을 던지는 곳이에요.
중간에 있는 건 내부 노드예요. 추가 질문으로 데이터를 더 세분화해요.
맨 아래가 리프 노드예요. 최종 분류 결과가 여기에 있어요.
아래 표를 보면 에스브이엠이나 케이엔엔과 비교했을 때, 결정 트리의 해석력이 압도적이에요.
오른쪽 패널을 보세요. 네 가지 핵심 특성이 정리되어 있어요.
비모수적 모델이라서 데이터 분포를 가정할 필요가 없어요.
선형 회귀처럼 정규분포를 가정하지 않아도 된다는 뜻이에요.
재귀적으로 특성 공간을 이진 분할하는 방식이에요.
탐욕 알고리즘이라 각 단계에서 최선의 분할만 선택해요.
분류와 회귀 모두 가능해요. 분류 트리, 회귀 트리로 나뉘어요.
아래 역사 타임라인을 보면, 카트 알고리즘이 1984년에 나왔어요.
아이디쓰리는 1986년, 씨포인트파이브는 1993년에 나왔어요.
2001년에 랜덤 포레스트가 나오면서 앙상블의 시대가 열렸어요.
지금은 단독으로 쓰기보다는 랜덤 포레스트나 그래디언트 부스팅의 기본 구성요소로 많이 써요.
결정 트리를 완벽히 이해하면 앙상블 학습의 기초가 탄탄해져요.
선생님: 결정 트리가 해석 가능하다는 게 구체적으로 뭘 의미할까요?
학생: 트리의 각 분할 규칙을 따라가면 왜 그런 예측이 나왔는지 정확히 알 수 있어요.
학생: 이프 덴 규칙으로 변환할 수 있어서 비전문가도 이해할 수 있거든요.
선생님: 맞아요. 그럼 딥러닝보다 항상 좋은 건 아닐까요?
학생: 해석력은 좋지만, 단일 트리는 복잡한 패턴을 잡으려면 과적합되잖아요.
선생님: 그래서 여러 트리를 합치는 랜덤 포레스트가 나온 거예요. 해석력은 줄지만 성능이 크게 올라가죠.