[머신러닝] 6. 의사결정나무 1
의사결정나무
의사결정나무 모델 개요
- 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/분류 모델을 나무의 형태로 만드는 것
모델은 거꾸로 해 놓은 나무의 형태
- 뿌리마디는 맨 위에 하나만 존재함
- 중간마디는 아직 끝나지 않은 마디
- 끝마디는 말 그대로 더이상 분지가 존재 하지 않는 마디
이러한 관계를 x와 y의 관계를 표현한 것이 밑에 있는 그림
끝마디, n = 12, n=10, n=13, n=14, n=11 다섯개의 부분집합으로 분할되어있음
A 와 B는 같은 형식의 다른 표현이라고 할 수 있다.
-
A는 변수가 3개까지만 있을 때만 가능함
-
B의 표현방법은 변수의 개수가 5개이건 100개 이건 1000개이건 2차원 공간의 나무의 차원으로 표현이 되기 때문에 항상 가능함.
예측나무 모델 (Regression Tree)
- 처음에 기준을 X1은 t1기준으로 나눔
- X2는 t2기준으로 나눔
- X1을 t3기준으로 나눔
- X2를 t4기준으로 나눔 -> 네모 박스로 나눈 것은 5개 = R1, R2, R3, R4, R5로 나눈 것도 5개 동등하다.
(위 화살표에서 R5에서 나온, 모르는 Y값을 예측하는 방법은 평균으로 예측하는 것이 가장 좋다.)
3개가 동일한 것이라고 생각하면 됨
- 함수
- 공간상에 나타내긴 하였으나 2차원 혹은 3차원 까지만 표현이 가능함
- 차원에 상관없이 표현이 가능함
- CM : 회귀나무모델로부터 예측학 Rm 부분의 예측값
Cm값은 각 분할에 속해 있는 y값들의 평균으로 예측했을 때 오류가 최소가 됨
위에 오른쪽에 나온 것처럼 한번씩 다 해본 다음에 분할 변수와 분할 점을 결정한다.
만약에 X2 ≥ 5 가 최소가 되었다면 J=2, S=5가 됨