[머신러닝] 7. 의사결정나무 2

의사결정나무

분류나무 모델

: 범주형 형태의 데이터

image

image

image

Indicator 함수는 I(A)함수는 이진 함수이다. 1이나 0이 나오는 함수 (A는 조건이다.)

K() 함수는 해당 끝노드에 들어가 있는 여러가지 범주 해당하는 데이터들의 비율중에서 가장 큰 확률을 가지고 있을 범주가 K

image

분류 모델에서의 비용함수

image

모든 예측모델에는 비용함수가 존재함. 비교적 직관적으로 정의가 가능함. 왜냐하면 실제 Y값이 존재하기 때문에…

(실제데이터 -모델에서의 예측값)^2의 값을 하였는데

  1. Misclassification rate : 매칭되지 않는 것을 최소화 하고 싶은 것

  2. Gini Index : 확률로 만든 비용함수

  3. Cross-entropy : 확률로 만든 비용함수

x축은 p의 값이 됨 ( 0~1의 범주를 갖고 있음 )

image

마지막 j =2는 x2 를 기준으로 분할하여서…

언제 불순도가 가장 낮아질까? 즉 j와 s를 잘 선택하여야 함

image

위의 큰 대괄호가 비용함수, 계속해서 분지를 찾아 낼 수 있음.

분할법칙

불순도의 식이 비용함수이다

예시

image

(오분률율이 제일 작을 때의 j,s 를 찾는 것)

image

Information Gain (

image

information gain은 정보를 얻는 것이다.

entropy는 혼잡도, 무질서도이다.

어떤 변수가 entropy를 크게 감소시켰다면 그 변수는 중요한 변수일 것이다.

S는 우리가 갖고 있는 총 데이터라고 생각하면 됨

image

나무의 최종노드 개수를 늘리면 과적합 위험이 발생하는데, 이러한 단점을 보완하기 위해서 나온 것이 랜덤 포레스트이다.

랜덤 포레스트는 말 그대로 숲인데 여러 개의 나무를 만들어서, 여러개의 나무를 만들어서 나온 결과를 요약을 해서 최종결과를 내는 모델이라고 보면 됨

의사결정나무 모델에서 두 가지를 정리하였다.

예측나무모델은 y가 연속형일때, 분류나무모델은 y가 범주형일 때의 경우이다.