[파이썬] xgboost 데이터 스케일링 및 정규화 전략

07 Sep 2023

xgboost

xgboost는 강력한 머신 러닝 알고리즘 중 하나로, 높은 예측 성능과 속도를 제공합니다. 그러나 입력 데이터의 스케일링과 정규화를 적절히 수행하지 않으면 모델의 성능을 향상시키기 어려울 수 있습니다.

이 블로그 포스트에서는 xgboost 모델에 데이터 스케일링과 정규화를 적용하는 방법에 대해 알아보겠습니다.

데이터 스케일링

먼저, 데이터 스케일링은 입력 데이터의 범위를 조정하여 모든 특성이 동일한 스케일을 가지도록 만드는 과정입니다. xgboost에 데이터 스케일링을 적용하는 방법 중 가장 일반적인 방법은 표준화(Standardization)입니다. 표준화는 각 특성의 값에서 평균을 뺀 후 표준 편차로 나누어 스케일을 조정하는 방법입니다.

다음은 파이썬 코드로 표준화를 수행하는 방법입니다:

from sklearn.preprocessing import StandardScaler

# 데이터셋을 로드하고 특성과 레이블로 분리합니다.
X_train, y_train = load_dataset()

# 표준화를 위한 스케일러 객체를 생성합니다.
scaler = StandardScaler()

# 훈련 데이터에 대해 스케일러를 학습하고 적용합니다.
X_train_scaled = scaler.fit_transform(X_train)

# 스케일링된 데이터로 xgboost 모델을 학습합니다.
model = xgboost.train(params, xgboost.DMatrix(X_train_scaled), num_boost_rounds)

데이터 정규화

데이터 정규화는 입력 데이터의 범위를 0과 1 사이로 조정하는 과정입니다. 이는 xgboost 모델에 잘 동작하는 방식 중 하나입니다. 데이터 정규화는 모든 특성 값에 최소값을 뺀 후 특성의 범위로 나누어 수행됩니다.

다음은 파이썬 코드로 데이터 정규화를 수행하는 방법입니다:

from sklearn.preprocessing import MinMaxScaler

# 데이터셋을 로드하고 특성과 레이블로 분리합니다.
X_train, y_train = load_dataset()

# 정규화를 위한 스케일러 객체를 생성합니다.
scaler = MinMaxScaler()

# 훈련 데이터에 대해 스케일러를 학습하고 적용합니다.
X_train_scaled = scaler.fit_transform(X_train)

# 정규화된 데이터로 xgboost 모델을 학습합니다.
model = xgboost.train(params, xgboost.DMatrix(X_train_scaled), num_boost_rounds)

데이터 스케일링 및 정규화 주의사항

스케일링과 정규화를 수행할 때 몇 가지 주의사항이 있습니다:

테스트 데이터에도 동일한 스케일러 또는 정규화 함수를 적용해야 합니다. 훈련 데이터에 학습한 스케일러를 사용하여 테스트 데이터를 변환합니다.
스케일러나 정규화 함수 적용 전에 데이터를 분할해야 합니다. 훈련 데이터와 테스트 데이터를 분리한 후, 각각에 대해 스케일링 또는 정규화를 적용해야 합니다.
특성 선택 또는 차원 축소 기법을 사용할 경우, 스케일링 또는 정규화가 성능에 영향을 미칠 수 있습니다. 따라서 특성 선택이나 차원 축소 전에 스케일링 또는 정규화를 수행하는 것이 좋습니다.

이러한 주의사항을 지켜가며, xgboost 모델에 데이터 스케일링과 정규화를 적용하여 예측 성능을 향상시킬 수 있습니다.