[머신러닝] 6. 의사결정나무 1

의사결정나무

의사결정나무 모델 개요

image

모델은 거꾸로 해 놓은 나무의 형태

이러한 관계를 x와 y의 관계를 표현한 것이 밑에 있는 그림

image

끝마디, n = 12, n=10, n=13, n=14, n=11 다섯개의 부분집합으로 분할되어있음

image

A 와 B는 같은 형식의 다른 표현이라고 할 수 있다.

예측나무 모델 (Regression Tree)

image

  1. 처음에 기준을 X1은 t1기준으로 나눔
  2. X2는 t2기준으로 나눔
  3. X1을 t3기준으로 나눔
  4. X2를 t4기준으로 나눔 -> 네모 박스로 나눈 것은 5개 = R1, R2, R3, R4, R5로 나눈 것도 5개 동등하다.

(위 화살표에서 R5에서 나온, 모르는 Y값을 예측하는 방법은 평균으로 예측하는 것이 가장 좋다.)

image

3개가 동일한 것이라고 생각하면 됨

  1. 함수
  2. 공간상에 나타내긴 하였으나 2차원 혹은 3차원 까지만 표현이 가능함
  3. 차원에 상관없이 표현이 가능함

image

image

Cm값은 각 분할에 속해 있는 y값들의 평균으로 예측했을 때 오류가 최소가 됨

image

위에 오른쪽에 나온 것처럼 한번씩 다 해본 다음에 분할 변수와 분할 점을 결정한다.

만약에 X2 ≥ 5 가 최소가 되었다면 J=2, S=5가 됨