[python] 데이터 스케일링(Scaling) 방법

05 Dec 2023

python

데이터 스케일링은 머신 러닝 알고리즘에서 중요한 전처리 단계입니다. 데이터 스케일링은 다양한 변수 간의 크기를 조정하고, 공정한 비교를 가능하게 하여 모델의 성능을 향상시킵니다. 이번 포스트에서는 데이터 스케일링의 중요성과 몇 가지 일반적인 스케일링 방법에 대해 살펴보겠습니다.

왜 데이터 스케일링이 필요한가요?

머신 러닝 알고리즘은 입력 변수의 크기와 범위에 민감합니다. 예를 들어, 선형 회귀 알고리즘은 입력 변수의 크기에 영향을 받아 가중치를 조정합니다. 변수들 간 크기의 차이가 클 경우, 가중치를 조정하는 과정에서 비정상적인 결과를 도출할 수 있습니다.

데이터 스케일링을 통해 변수들 간 크기 차이를 제거하면, 모델이 변수 간 관계를 더 정확하게 파악할 수 있어 모델의 성능을 향상시키는 데 도움이 됩니다.

일반적인 데이터 스케일링 방법

표준화 (Standardization)

표준화는 변수의 평균을 0으로 만들고, 표준 편차를 1로 조정하는 방법입니다. 표준화는 가장 널리 사용되는 스케일링 방법 중 하나입니다. 표준화를 수행하면 변수의 분포를 평균이 0이고 표준 편차가 1인 정규 분포로 변환합니다.

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

정규화 (Normalization)

정규화는 변수의 값을 0과 1 사이의 범위로 조정하는 방법입니다. 정규화는 변수의 상대적인 크기를 고려할 때 주로 사용됩니다. 정규화를 수행하면 변수의 값이 0에서 1 사이로 변환됩니다.

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

로그 변환 (Log Transformation)

로그 변환은 변수의 분포를 변환하여 비대칭성을 줄이는 방법입니다. 로그 변환은 오래된 기법이지만, 정규 분포에 근접하게 만드는 데 유용합니다. 로그 변환은 데이터에 로그 함수를 적용하여 수행됩니다.

import numpy as np
log_transformed_data = np.log(data)

결론

데이터 스케일링은 머신 러닝 알고리즘의 성능 향상을 위해 필수적인 단계입니다. 표준화, 정규화, 로그 변환 등의 방법을 적절히 사용하여 데이터의 스케일을 조정해야합니다. 이를 통해 모델이 변수 간의 관계를 정확하게 파악하여 정확성을 높일 수 있습니다.

참고 문헌: