[python] SciPy를 사용하여 클래스 가중치 지정하기

23 Nov 2023

python

머신러닝 모델을 훈련시킬 때, 클래스 불균형 문제가 발생할 수 있습니다. 클래스 불균형은 각 클래스의 샘플 수가 차이가 나는 경우를 의미합니다. 이러한 문제를 해결하기 위해 클래스 가중치를 지정할 수 있습니다.

SciPy는 파이썬에서 과학적 계산을 수행하는 데 사용되는 라이브러리입니다. SciPy의 mode.mstats 모듈은 클래스 가중치를 계산하는 데 사용될 수 있습니다. 아래의 예제 코드를 통해 클래스 가중치를 지정하는 방법을 알아보겠습니다.

import numpy as np
from scipy import stats

# 클래스 불균형이 있는 훈련 데이터
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 0, 1, 1])

# 각 클래스별 샘플 수 계산
class_counts = np.bincount(y)

# 클래스 가중치 계산
class_weights = 1.0 / class_counts

print("Class Weights:", class_weights)

위의 코드에서는 bincount 함수를 사용하여 각 클래스의 샘플 수를 계산합니다. 그런 다음, 샘플 수를 이용하여 클래스 가중치를 계산합니다. 클래스 가중치는 샘플 수의 역수로 계산되며, 이는 샘플 수가 적은 클래스에 더 높은 가중치를 부여하는 역할을 합니다.

위 코드를 실행하면 다음과 같은 출력을 얻을 수 있습니다:

Class Weights: [0.33333333 0.5]

위 결과에서는 클래스 0에 가중치 0.33, 클래스 1에 가중치 0.5를 부여했음을 나타냅니다.

이제 클래스 가중치를 이용하여 머신러닝 모델을 훈련할 수 있습니다. 클래스 가중치를 사용하면 희소한 클래스에 훨씬 더 중요성을 부여할 수 있으므로 더욱 정확한 예측을 할 수 있습니다.

참고 자료:

SciPy: https://docs.scipy.org/doc/scipy/reference/
SciPy의 Mode.mstats 모듈: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mstats.html