로지스틱 회귀모델
로직스틱 회귀모델 발생배경
선형회귀모델에서는 수치형 변수가 Y값에 있었고
Y값에 범주형 변수가 오게 될 경우에는 조금 다른 방법으로 접근해야 할 필요성이 생겼다.
왜냐하면 기존의 선형회귀모델에서는 오차항이 정규분포를 따른다든가 하는 몇 가지 제약조건이 전제되야하는데
범주형 데이터에서는 제약조건에 부합하지 않는 경우도 종종 발생하기 때문이다.
- 로지스틱 회귀모델 사용
- 새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측하게 한다. (범주예측)
- 범주예측에는
- 제품이 불량인지 양품인지
- 고객이 이탈고객인지 잔류고객인지
- 카드 거래가 정상인지 사기인지
- 내원 고객이 질병이 있는지 없는지 등과 같이 결과값이 범주로 되어 있는 경우이다.
이론적인 배경에 대해 설명해보면
로직스틱 회귀모델의 형태
- 출력변수가 연속형이 아닌 이진범주형 질병유무? 아래와 같이 질병유무 데이터의 Y값이 0과 1의 범주형 변수로 주어질 경우
- 두 변수 사이의 관계식은 선형?
위 raw data를 범주에 맞게 정리해 보면 위와 같은 표를 구할 수 있다. 이를 도식화하면 아래의 그래프로 표시된다.
이는 선형으로 표시할 수 있지만 더 정확하게 표기한다면 약간의 S자 형태의 유선형을 띄고 있는 그래프라고 볼 수 있다.
이러한 모양을 나타낼 수 있는 함수식은 아래와 같다.
위의 수식을 로지스틱(Logistic) 함수 또는 시그모이드(Sigmoid) 함수라 부른다.
- 로지스틱 함수에서 Y값은 0과 1 사이의 값을 가지게 된다. (x값은 -∞, ∞ 값)
- 로지스틱 함수는 인풋 값에 대해 단조증가/단조감소 하게 된다.
- 단조증가란 지속적으로 증가하는 경우를 말한다. (x₁<x₂면 반드시 f(x₁)<f(x₂))
- 로지스틱 함수는 미분 결과를 아래와 같은 함수로 표현 가능한데, 이는 Gradient Descent Method에서 유용하게 사용한다. (위 그래프의 식을 미분을 하면 결국 로지스틱 함수의 곱으로 표현됨)
그래서 이를 정리하여 로지스틱 함수를 만들 수 있다.
파이는 x값이 주어졌을 경우 y가 1일 확률 , 그 때 E(y)의 확률값은 0~1의 확률값이다.
입력변수가 1개일 때의 로지스틱 회귀모델을 가리켜 단순로지스틱 회귀모델이라 부른다.
관측치 x가 범주 1에 속할 확률과 같다.
파라미터를 해석하는 방법이 중요한데 beta1은 선형회귀모델에서는 단순하고 직관적이었으나
로지스틱 회귀모델의 경우에는 비선형의 형태를 띄고 있으므로 직관적이지 못하다.
따라서 이를 보완하기 위해 승산(Odd) 이라는 개념을 도입하게 되었다.
승산(Odds)
승산이란, 성공 확률을 p로 정의할 때 실패 대비 성공 확률 비율을 가리킨다.
Odds는 범주 0에 속할 확률 대비 범주 1에 속할 확률을 가리킨다.
구해진 Odds에 Log를 취하면 아래와 같이 수식이 정리된다.
로짓변환은 2개의 변환이 있는 것 1. Odds 2. Odds에 로그를 취한 것
이런 변환을 로짓 변환(Logit Transform)이라 한다.
log(Odds)가 선형회귀분석과 동일한 레벨의 직관성을 띈다고 할 수는 없지만 이전의 로지스틱 함수에 비해서는 굉장히 직관적이기 때문에 유용하게 활용할 수 있게 된다.
위의 그래프에서 성공 확률이 0.5가 되면 log(Odds)의 값은 Odds=0.5/(1-0.5)=1이므로 log1이 되고 이는 0과 같아진다.
반면 성공확률이 1이 되면 log(Odds)의 값은 Odds = 1/(1-1) = infinite이므로 무한대가 된다.
또한 성공 확률이 0이 되면 log(Odds)의 값은 dds = 0/(1-0) = 0이므로 -infinite로 수렴하게 된다.
다중 로직스틱 회귀모델
첫번째 파이함수가 로지스틱함수
거기에 Odds를 취하고 로그를 취하면 로짓변환이 되어 로짓분석을 하게 됨
비선형에서 선형변환이 되어 베타의 설명이 쉬워지기 때문임
파라미터 추정
위에 ㅠ 이렇게 생긴 기호는 product 기호로 곱하기 기호라고 생각하면 된다.
곱하기는 더하기로 표현하면 편하다
로그를 취하면 더하기로 표현할 수 있으므로 한번 취해본다.
로그 likelihood 함수를 만들어 보았다. 맨 마지막에 있는 식이라고 볼 수 있다.
로지스틱 회귀모델 - 결과 및 해석
승산 비율 (Odds Ratio)
Coefficient(로지스틱 회귀계수, 추정된 파라미터 값)
- 해당 변수가 1단위 증가할 때 Log Odds의 변화량
- 양수이면 성공확률과 양의 상관관계, 음수이면 성공확률과 음의 상관관계
Std. Error(추정 파라미터의 표준편차):
- 추정 파라미터의 신뢰구간 (구간추정)을 구축할 때 사용
p-value
- 해당 변수가 통계적으로 유의미한지 여부를 알려주는 지표
- 해당 파라미터 값이 0인지 여부를 통계적으로 판단(가설 검정)
Odds(Odds Ratio)
- 나머지 입력변수는 모두 고정시킨 상태에서 한 변수를 1단위 증가시켰을 때 변화하는 Odds(성공확률)의 비율
- ex.) Experience = 1.058 -> 경험이 1년 더 많으면 대출 확률이 1.058배 증가