[파이썬] statsmodels에서 다중공선성

다중공선성(multicollinearity)은 회귀 분석에서 중요한 이슈 중 하나입니다. 다중공선성은 독립 변수 간에 강한 선형 관계가 있는 경우 발생합니다. 이는 회귀 모델의 결과를 왜곡하고 독립 변수의 중요도를 제대로 평가하는데 어려움을 줄 수 있습니다. statsmodels는 파이썬에서 회귀 분석을 수행하는 데 도움이 되는 라이브러리입니다. 이번 블로그 포스트에서는 statsmodels에서 다중공선성을 처리하는 방법을 알아보겠습니다.

다중공선성의 확인

여러 독립 변수 간에 강한 선형 관계가 있는지 확인하는 것은 매우 중요합니다. statsmodels의 variance_inflation_factor 함수를 사용하여 다중공선성을 확인할 수 있습니다. 이 함수는 각 독립 변수의 VIF 값을 계산합니다. VIF 값이 1보다 크면 다중공선성이 발생한 것으로 간주됩니다.

다음은 statsmodels를 사용하여 VIF 값을 계산하는 예시 코드입니다.

import pandas as pd
import statsmodels.api as sm

# 독립 변수와 종속 변수 데이터를 불러옵니다.
data = pd.read_csv('data.csv')
X = data[['x1', 'x2', 'x3']]
y = data['y']

# 상수항을 추가합니다.
X = sm.add_constant(X)

# OLS 모델을 만들고 적합시킵니다.
model = sm.OLS(y, X)
results = model.fit()

# VIF 값을 계산합니다.
vif = pd.DataFrame()
vif["Variable"] = X.columns
vif["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

다중공선성 해결 방법

다중공선성을 해결하는 몇 가지 일반적인 방법이 있습니다. 다음은 몇 가지 방법의 예시입니다.

1. 변수 선택

VIF 값이 큰 변수를 제거하여 다중공선성을 해소할 수 있습니다. 큰 VIF 값을 가진 변수는 모델에 중요한 영향을 미치지 않을 수 있습니다.

# VIF 값이 큰 변수를 확인합니다.
high_vif_variables = vif[vif['VIF'] > 5]['Variable']

# VIF 값이 큰 변수를 제외한 독립 변수로 회귀 분석을 수행합니다.
X_selected = X.drop(high_vif_variables, axis=1)
model_selected = sm.OLS(y, X_selected)
results_selected = model_selected.fit()

2. 변수 변환

다중공선성을 해소하기 위해 변수를 변환하는 것도 효과적일 수 있습니다. 예를 들어, 변수들 간의 비선형 관계가 있는 경우 로그 변환, 제곱근 변환 등을 통해 선형 관계로 변환할 수 있습니다.

# 변수를 로그 변환합니다.
X_log = np.log(X)

# 로그 변환한 변수로 회귀 분석을 수행합니다.
model_log = sm.OLS(y, X_log)
results_log = model_log.fit()

3. 변수 조합

다중공선성을 해결하기 위해 변수 조합을 추가하는 것도 한 가지 방법입니다. 변수들의 조합을 사용하여 새로운 독립 변수를 만들어 모델에 추가할 수 있습니다.

# 변수들의 조합을 추가합니다.
X_interactions = sm.add_constant(X.copy())
X_interactions['x1:x2'] = X['x1'] * X['x2']

# 변수 조합을 추가한 모델에 대한 회귀 분석을 수행합니다.
model_interactions = sm.OLS(y, X_interactions)
results_interactions = model_interactions.fit()

요약

다중공선성은 회귀 분석에서 자주 발생하는 문제 중 하나입니다. statsmodels를 사용하여 다중공선성을 확인하고 해결하는 방법을 알아보았습니다. 변수 선택, 변수 변환, 변수 조합 등 다중공선성을 해소하는 여러 가지 방법 중에 적합한 방법을 선택하여 모델을 개선할 수 있습니다. statsmodels를 활용하여 다중공선성을 다룰 때 각 방법의 장단점을 고려해보는 것이 중요합니다.