[파이썬] lightgbm 조기 종료 기능 활용

07 Sep 2023

lightgbm

LightGBM은 기계 학습 알고리즘 중 하나로, 빠른 속도와 뛰어난 예측 성능으로 인기를 얻고 있습니다. 이러한 LightGBM 모델을 더욱 향상시키기 위해 조기 종료 기능을 활용할 수 있습니다. 조기 종료는 모델의 학습을 일찍 멈춰서 과적합을 방지하고 효율적인 학습을 도와줍니다.

조기 종료 작동 원리

조기 종료는 모델이 일정한 성능 향상을 보이지 않을 때 학습을 멈추는 기능입니다. 이를 위해 LightGBM은 검증 데이터셋을 사용하여 모델의 성능을 모니터링합니다. 모델은 일정한 주기마다 검증 데이터셋에 대한 성능 지표를 계산하고, 이 지표가 이전 주기와 비교하여 향상되지 않으면 학습을 종료합니다.

조기 종료 기능은 매개 변수 early_stopping_rounds와 함께 사용됩니다. 이 매개 변수는 검증 데이터셋에서 성능이 향상되지 않은 최대 주기 수를 의미합니다. early_stopping_rounds 주기가 지난 후에도 성능이 향상되지 않으면 학습이 종료됩니다.

조기 종료 기능 활용 예제

아래는 LightGBM의 조기 종료 기능을 활용하는 예제 코드입니다. Python 프로그래밍 언어를 사용하여 작성되었습니다.

import lightgbm as lgb
import numpy as np
from sklearn.model_selection import train_test_split

# 데이터셋 로드
X, y = load_dataset()

# 학습 및 검증 데이터셋 분리
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# LightGBM 데이터셋으로 변환
train_data = lgb.Dataset(X_train, label=y_train)
val_data = lgb.Dataset(X_val, label=y_val)

# LightGBM 매개 변수 설정
params = {
    'boosting_type': 'gbdt',
    'objective': 'regression',
    'metric': 'rmse',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'early_stopping_rounds': 10,  # 조기 종료 기능 활성화
    'verbose': 0
}

# LightGBM 모델 학습
model = lgb.train(params, train_data, valid_sets=[train_data, val_data])

# 최적의 주기 수
best_iteration = model.best_iteration

# 최종 모델 성능 평가
y_pred = model.predict(X_val)
mse = np.mean((y_val - y_pred) ** 2)
print("Mean Squared Error:", mse)

위의 예제 코드에서는 LightGBM을 사용하여 회귀 모델을 학습합니다. early_stopping_rounds 매개 변수를 10으로 설정하여, 검증 데이터셋의 성능이 10주기 동안 향상되지 않으면 학습이 종료됩니다.

조기 종료 기능을 활용하여 모델을 학습하면 과적합을 방지하고, 학습 시간을 단축할 수 있습니다. 또한 검증 데이터셋을 통해 모델의 성능을 간편하게 평가할 수 있습니다. LightGBM의 조기 종료 기능은 모델 개발에 큰 도움을 줄 수 있습니다.