[파이썬] lightgbm 데이터 불균형 해결 전략

07 Sep 2023

lightgbm

머신러닝 모델을 구축하기 위해서는 학습 데이터의 불균형한 분포를 고려해야 합니다. 특히, 이진 분류 문제에서는 다수 클래스와 소수 클래스 간의 데이터 불균형이 발생할 수 있습니다. 데이터 불균형은 모델의 성능을 저하시키고, 소수 클래스의 예측 정확도를 낮출 수 있습니다.

이번 포스트에서는 Python의 LightGBM 패키지를 사용하여 데이터 불균형 문제를 해결하는 전략을 알아보겠습니다. LightGBM은 다른 그래디언트 부스팅 모델보다 데이터 불균형 문제에 효과적인 알고리즘을 제공합니다.

언더샘플링과 오버샘플링

데이터 불균형 문제를 해결하는 전략 중 가장 일반적인 방법은 언더샘플링과 오버샘플링입니다. 언더샘플링은 다수 클래스의 데이터 포인트를 제거하여 데이터셋을 균형있게 만드는 방법입니다. 오버샘플링은 소수 클래스의 데이터를 복제하여 데이터셋을 균형있게 만드는 방법입니다.

LightGBM은 scale_pos_weight 파라미터를 사용하여 언더샘플링과 오버샘플링을 지원합니다. 이 파라미터는 다수 클래스와 소수 클래스를 정확히 샘플링하는 비율을 정의합니다. 기본값은 1로, 소수 클래스의 분포에 맞춰 다수 클래스를 언더샘플링합니다.

언더샘플링 예제

import lightgbm as lgb
from imblearn.under_sampling import RandomUnderSampler

# LightGBM 데이터 로딩
X_train, y_train = load_data('train.csv')

# 언더샘플링 수행
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X_train, y_train)

# LightGBM 모델 학습
lgb_train = lgb.Dataset(X_resampled, y_resampled)
params = {'num_leaves': 31, 'objective': 'binary'}
model = lgb.train(params, lgb_train)

오버샘플링 예제

import lightgbm as lgb
from imblearn.over_sampling import RandomOverSampler

# LightGBM 데이터 로딩
X_train, y_train = load_data('train.csv')

# 오버샘플링 수행
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X_train, y_train)

# LightGBM 모델 학습
lgb_train = lgb.Dataset(X_resampled, y_resampled)
params = {'num_leaves': 31, 'objective': 'binary'}
model = lgb.train(params, lgb_train)

언더샘플링과 오버샘플링은 모두 다수 클래스와 소수 클래스의 데이터를 조정하여 데이터셋을 균형있게 만들어줍니다. 어떤 전략이 더 효과적인지는 데이터에 따라 다를 수 있으므로, 여러 실험을 통해 최적의 전략을 찾아야 합니다.

결론

데이터 불균형 문제는 머신러닝 모델의 성능을 저하시킬 수 있습니다. LightGBM은 언더샘플링과 오버샘플링을 통해 데이터 불균형을 해결하는 다양한 전략을 제공합니다. 이를 통해 더 정확하고 안정적인 예측 모델을 구축할 수 있습니다.

성능을 향상시키기 위해 데이터 전처리에 더 많은 시간과 노력을 투자해보세요.