[파이썬] lightgbm 분류 문제의 평가 지표 설정

07 Sep 2023

lightgbm

LightGBM은 매우 강력한 그래디언트 부스팅 알고리즘으로, 분류 문제에 대해 우수한 성능을 보여줍니다. 분류 문제를 해결할 때, 적절한 평가 지표를 선택하는 것은 매우 중요합니다. 이 블로그 포스트에서는 LightGBM을 사용하여 분류 문제에 대한 평가 지표를 설정하는 방법을 알아보겠습니다.

LightGBM 분류 평가 지표

LightGBM은 분류 문제에 대해 다양한 평가 지표를 제공합니다. 가장 기본적인 평가 지표는 분류 정확도(accuracy)입니다. 그러나 정확도는 모델의 성능을 평가하는 데에 제한적입니다. 특히 클래스 불균형 문제가 있는 경우, 정확도를 사용하면 모델 성능을 정확히 평가하기 어렵습니다.

따라서 클래스 불균형 문제가 있는 경우에는 다른 평가 지표를 사용하는 것이 좋습니다. LightGBM은 다음과 같은 평가 지표를 제공합니다:

Binary Classification(이진 분류):
- 이진 분류에서는 일반적으로 로그 손실(log loss) 또는 Brier 점수(Brier score)를 사용합니다. LightGBM에서는 binary_logloss와 binary 평가 지표를 사용할 수 있습니다.
Multiclass Classification(다중 분류):
- 다중 분류에서는 일반적으로 다중 분류 손실(multiclass loss)을 사용합니다. LightGBM에서는 multiclass 평가 지표를 사용할 수 있습니다. 또한, softmax나 ovr 옵션을 사용하여 다중 분류를 처리할 수 있습니다.
Ranking(순위):
- 랭킹 문제에서는 일반적으로 NDCG(Normalized Discounted Cumulative Gain)나 MAP(Mean Average Precision)과 같은 평가 지표를 사용합니다. LightGBM에서는 ndcg와 map 평가 지표를 사용할 수 있습니다.

LightGBM에서 평가 지표 설정하기

LightGBM에서 평가 지표를 설정하려면 metric 매개변수를 사용하여 평가 지표를 지정해야 합니다. 다음은 LightGBM을 사용하여 분류 문제에 대한 평가 지표를 설정하는 방법의 예시입니다.

# 필요한 라이브러리 가져오기
import lightgbm as lgb
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# 데이터셋 로드
data = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2)

# LightGBM 데이터셋 생성
train_data = lgb.Dataset(X_train, label=y_train)

# LightGBM 모델 훈련
params = {'objective': 'binary', 'metric': 'binary_logloss'}
model = lgb.train(params, train_data)

# 예측 결과 반환
y_pred = model.predict(X_test)

# 예측 결과에서 클래스를 추론하여 평가 지표 계산
y_pred_labels = [1 if pred > 0.5 else 0 for pred in y_pred]
accuracy = sum(y_pred_labels == y_test) / len(y_test)

위 예시에서 metric 매개변수는 binary_logloss로 설정되어 있습니다. 이는 이진 분류 문제에 대한 로그 손실 평가 지표를 사용한다는 의미입니다. 다른 평가 지표를 사용하려면 해당 평가 지표를 metric에 지정하면 됩니다.

이제 LightGBM을 사용하여 분류 문제에 대한 적절한 평가 지표를 설정하는 방법을 알게 되었습니다. 적절한 평가 지표를 선택하여 모델의 성능을 정확하게 평가하고 개선하기 위해 이러한 평가 지표를 활용해 보시기 바랍니다.