[python] scikit-learn을 사용한 상관 분석
상관 분석은 두 변수 간의 선형 관계를 평가하는 통계적 방법입니다. scikit-learn은 파이썬에서 데이터 분석에 널리 사용되는 라이브러리로, 상관 분석을 수행하는 기능을 제공합니다.
데이터 불러오기
먼저 scikit-learn을 import한 후, 데이터를 불러와야 합니다. 필요한 데이터는 NumPy 배열 형식으로 제공되어야 합니다. 아래는 예시로 사용할 코드입니다.
import numpy as np
# 데이터 불러오기
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
상관 계수 계산하기
다음으로, 상관 계수를 계산해야 합니다. sklearn
패키지의 corrcoef
함수를 사용하여 간편하게 상관 계수를 계산할 수 있습니다. 아래는 예시 코드입니다.
from sklearn import metrics
# 상관 계수 계산하기
corr_matrix = np.corrcoef(data)
# 결과 출력하기
print(corr_matrix)
위 코드에서 corr_matrix
는 상관 계수 행렬을 나타냅니다. 이 행렬은 입력된 데이터의 각 변수들 간의 상관 계수 값을 포함하고 있습니다.
결과 해석하기
상관 계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 강한 양의 선형 관계를 나타내고, -1에 가까울수록 강한 음의 선형 관계를 나타냅니다. 0에 가까울수록 두 변수 간에 선형 관계가 없다고 볼 수 있습니다.
또한, 상관 계수의 값의 절댓값이 클수록 두 변수 간의 선형 관계가 강하다고 볼 수 있습니다.