[파이썬] xgboost에서의 다중 입력 학습

07 Sep 2023

xgboost

이번 블로그에서는 xgboost 알고리즘을 사용하여 다중 입력 학습을 수행하는 방법에 대해 알아보겠습니다.

다중 입력 학습이란?

다중 입력 학습이란, 하나의 데이터 샘플에 여러 개의 입력 변수가 있는 경우를 말합니다. 이러한 경우, 각 입력 변수의 상호작용을 고려하여 모델을 학습시킬 수 있습니다. xgboost는 다중 입력 학습을 지원하기 때문에, 다양한 태스크에 적용할 수 있습니다.

데이터 준비

다중 입력 학습을 위해서는 데이터를 적절히 준비해야 합니다. 우선, 각 입력 변수를 각각의 배열로 만들어야 합니다. 이후에는 입력 변수들을 하나의 데이터 구조로 결합하여 xgboost에서 사용할 수 있는 형태로 만들어야 합니다.

아래는 예시 데이터의 준비 과정을 보여줍니다.

import numpy as np

# 입력 변수 1
input1 = np.array([1, 2, 3, 4, 5])

# 입력 변수 2
input2 = np.array([6, 7, 8, 9, 10])

# 출력 변수
target = np.array([11, 12, 13, 14, 15])

# 입력 변수들 합치기
inputs = np.column_stack((input1, input2))

# 데이터 확인
print(inputs)
print(target)

위의 코드를 실행하면 아래와 같은 결과가 출력됩니다.

[[ 1  6]
 [ 2  7]
 [ 3  8]
 [ 4  9]
 [ 5 10]]
[11 12 13 14 15]

모델 학습과 예측

데이터가 준비되었다면, 이제 xgboost를 사용하여 모델을 학습하고 예측할 수 있습니다. xgboost는 다중 입력을 지원하기 때문에 각 변수의 상호작용을 고려하여 학습할 수 있습니다.

import xgboost as xgb

# xgboost 데이터 형식으로 변환
data_matrix = xgb.DMatrix(inputs, label=target)

# 모델 학습
model = xgb.train({'objective': 'reg:squarederror'}, data_matrix)

# 새로운 입력 데이터 예측
new_input = np.array([[6, 11], [7, 12]])
new_data_matrix = xgb.DMatrix(new_input)
predicted = model.predict(new_data_matrix)

# 예측 결과 출력
print(predicted)

위의 코드를 실행하면 아래와 같은 결과가 출력됩니다.

[16. 17.]

결론

xgboost를 사용하여 다중 입력 학습을 수행하는 방법에 대해 알아보았습니다. xgboost는 다양한 태스크에 대해 다중 입력 학습을 지원하며, 각 변수의 상호작용을 고려하여 정확한 예측을 수행할 수 있습니다. 다중 입력 학습을 사용하여 모델의 성능을 향상시킬 수 있는 경우에는 xgboost를 고려해보세요.