[파이썬] lightgbm에서의 속도 및 메모리 최적화

07 Sep 2023

lightgbm

LightGBM은 그래디언트 부스팅 프레임워크 중 하나로, 속도와 메모리 사용량 측면에서 매우 효율적입니다. 하지만 여전히 알고리즘의 속도와 메모리 사용량을 최적화하기 위해 몇 가지 방법을 사용할 수 있습니다. 이 글에서는 LightGBM의 속도와 메모리 사용량을 최적화하기 위한 몇 가지 방법을 알아보겠습니다.

1. 데이터 로딩 최적화

LightGBM은 데이터를 메모리에 로딩하여 사용하는데, 데이터를 로딩하는 부분은 전체 알고리즘 실행 시간에 영향을 줄 수 있습니다. 따라서 다음과 같은 방법으로 데이터 로딩을 최적화할 수 있습니다:

데이터의 포맷을 최적화합니다. 예를 들어, 데이터를 numpy 배열이나 pandas DataFrame 형식으로 로딩하는 것보다 메모리 사용량이 적은 포맷(예: CSV)으로 데이터를 저장하고 로딩하는 것이 좋습니다.
데이터를 압축하여 로딩 시간을 줄입니다. 데이터를 압축하여 메모리에 로딩하면 메모리 사용량을 줄일 수 있습니다. LightGBM은 압축된 데이터를 지원하므로, 데이터를 압축하여 사용해보세요.

2. 피처 엔지니어링 최적화

LightGBM은 카테고리형 변수를 처리하는데 효율적입니다. 그러나 불필요한 피처 엔지니어링 작업은 속도와 메모리 사용량에 영향을 줄 수 있습니다. 따라서 다음과 같은 방법으로 피처 엔지니어링을 최적화할 수 있습니다:

불필요한 피처를 제거합니다. 예를 들어, 유의미한 정보를 전달하지 않는 피처는 제거하고, 모델의 성능에 영향을 주지 않는 피처를 줄입니다. 이를 통해 모델 학습 시간을 단축할 수 있습니다.
피처 스케일링을 최적화합니다. LightGBM은 피처 스케일링을 자동으로 수행하지 않기 때문에, 피처 스케일링 작업을 직접 수행해야 합니다. 그러나 적절한 스케일링 방법을 선택하고, 필요한 경우 스케일링 작업을 최적화하여 속도와 메모리 사용량을 줄일 수 있습니다.

3. 모델 학습 최적화

LightGBM은 매우 빠른 학습 속도를 제공합니다. 그러나 모델 학습 속도를 최적화하기 위해 다음과 같은 방법을 고려해 볼 수 있습니다:

학습 데이터를 샘플링합니다. 데이터가 매우 큰 경우, 모든 데이터를 학습하는 것은 비효율적일 수 있습니다. 학습 데이터를 샘플링하여 학습 시간을 단축할 수 있습니다.
Early stopping을 사용합니다. Early stopping은 모델 학습을 조기에 종료시키는 기능으로, 모델이 더이상 성능을 개선하지 못할 경우 학습을 중단시킵니다. 이를 통해 모델 학습 시간을 단축할 수 있습니다.

4. 하이퍼파라미터 튜닝

마지막으로, LightGBM 모델의 성능을 최적화하기 위해 하이퍼파라미터 튜닝을 수행할 수 있습니다. LightGBM은 많은 하이퍼파라미터를 제공하며, 이를 조정하여 모델의 성능을 향상시킬 수 있습니다.

주의해야 할 점은 하이퍼파라미터 튜닝은 많은 시간과 계산 리소스를 필요로 한다는 것입니다. 따라서 신중하게 하이퍼파라미터를 선택하고, 효율적인 튜닝 방법을 사용하여 최적의 하이퍼파라미터를 찾아야 합니다.

import lightgbm as lgb

# LightGBM 데이터셋 로딩
train_data = lgb.Dataset(train_X, label=train_y)

# LightGBM 모델 설정
params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.05,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'verbose': 0
}

# LightGBM 모델 학습
model = lgb.train(params, train_data, num_boost_round=100)

# LightGBM 모델 예측
preds = model.predict(test_X)

위의 예시 코드는 LightGBM을 사용하여 모델을 학습하고 예측하는 간단한 예시입니다. 하이퍼파라미터들을 조정하여 모델의 성능을 향상시킬 수 있습니다.

LightGBM은 빠른 속도와 효율적인 메모리 사용량으로 알려져 있지만, 여전히 알고리즘의 속도와 메모리 사용량을 최적화하기 위해서는 몇 가지 방법을 고려해야 합니다. 위에서 제시한 방법들을 사용하여 LightGBM을 좀 더 효율적으로 사용해 보세요.