[파이썬] `catboost`에서의 피처 선택

07 Sep 2023

catboost

머신 러닝 모델을 개발할 때, 피처 (데이터의 속성) 선택은 중요한 단계입니다. 피처 선택은 모델의 성능을 향상시키고 과적합을 방지하기 위해 필요합니다. catboost는 피처 선택을 위한 다양한 기능을 제공하여 모델 개발자가 최적의 피처 세트를 선택할 수 있도록 도와줍니다.

1. 필요한 라이브러리 설치

pip를 사용하여 catboost 패키지를 설치합니다:

pip install catboost

2. 데이터셋 로드

먼저, catboost에서 피처 선택을 수행할 데이터셋을 로드합니다. 예를 들어, 다음과 같이 pandas를 사용하여 CSV 파일로부터 데이터를 로드할 수 있습니다:

import pandas as pd

# 데이터셋 로드
data = pd.read_csv('dataset.csv')

# 피처와 타겟 분리
X = data.drop('target', axis=1)
y = data['target']

3. `catboost`의 피처 선택 기능 사용

catboost는 피처 선택을 위한 다양한 기능을 제공합니다. 여기에서는 가장 널리 사용되는 두 가지 방법을 살펴보겠습니다: 설명 변수 중요도 및 모델 기반 피처 선택.

3.1. 설명 변수 중요도

설명 변수 중요도는 각 피처의 중요도를 평가하는 방법입니다. CatBoostClassifier 모델을 훈련시키고 get_feature_importance 함수를 사용하여 피처 중요도를 추출할 수 있습니다:

from catboost import CatBoostClassifier

# CatBoostClassifier 모델 훈련
model = CatBoostClassifier()
model.fit(X, y)

# 피처 중요도 추출
feature_importance = model.get_feature_importance()

3.2. 모델 기반 피처 선택

모델 기반 피처 선택은 모델 훈련 후 피처의 중요도를 기반으로 선택하는 방법입니다. CatBoostClassifier 모델을 사용하여 훈련한 후, get_feature_importance 함수를 사용하여 중요도가 낮은 피처들을 제외한 새로운 데이터셋을 생성할 수 있습니다:

from catboost import CatBoostClassifier

# CatBoostClassifier 모델 훈련
model = CatBoostClassifier()
model.fit(X, y)

# 피처 선택
selected_features = X.columns[model.get_feature_importance() > threshold]
new_X = X[selected_features]

4. 피처 선택 결과 평가

마지막으로, 피처 선택 결과를 평가해야 합니다. 피처 선택 전/후로 모델의 성능을 비교하여 향상된 성능을 확인할 수 있습니다. 예를 들어, 교차 검증을 사용하여 모델의 성능을 평가할 수 있습니다:

from sklearn.model_selection import cross_val_score
from catboost import CatBoostClassifier

# 피처 선택 전의 모델 훈련과 평가
model_before = CatBoostClassifier()
scores_before = cross_val_score(model_before, X, y, cv=5)

# 피처 선택 후의 모델 훈련과 평가
model_after = CatBoostClassifier()
scores_after = cross_val_score(model_after, new_X, y, cv=5)

# 성능 결과 비교
print(f"피처 선택 전 평균 정확도: {scores_before.mean()}")
print(f"피처 선택 후 평균 정확도: {scores_after.mean()}")

결론

catboost는 피처 선택에 유용한 기능들을 제공하여 모델 개발자가 최적의 피처 세트를 선택할 수 있도록 도와줍니다. 설명 변수 중요도 및 모델 기반 피처 선택을 사용하여 데이터셋의 특성을 파악하고 과적합을 방지하는데 도움이 됩니다. 피처 선택 결과를 평가하여 모델의 성능이 향상되었는지 확인하는 것도 중요한 과정입니다.