[python] scikit-learn을 사용한 상관 분석

상관 분석은 두 변수 간의 선형 관계를 평가하는 통계적 방법입니다. scikit-learn은 파이썬에서 데이터 분석에 널리 사용되는 라이브러리로, 상관 분석을 수행하는 기능을 제공합니다.

데이터 불러오기

먼저 scikit-learn을 import한 후, 데이터를 불러와야 합니다. 필요한 데이터는 NumPy 배열 형식으로 제공되어야 합니다. 아래는 예시로 사용할 코드입니다.

import numpy as np

# 데이터 불러오기
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

상관 계수 계산하기

다음으로, 상관 계수를 계산해야 합니다. sklearn 패키지의 corrcoef 함수를 사용하여 간편하게 상관 계수를 계산할 수 있습니다. 아래는 예시 코드입니다.

from sklearn import metrics

# 상관 계수 계산하기
corr_matrix = np.corrcoef(data)

# 결과 출력하기
print(corr_matrix)

위 코드에서 corr_matrix는 상관 계수 행렬을 나타냅니다. 이 행렬은 입력된 데이터의 각 변수들 간의 상관 계수 값을 포함하고 있습니다.

결과 해석하기

상관 계수는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 강한 양의 선형 관계를 나타내고, -1에 가까울수록 강한 음의 선형 관계를 나타냅니다. 0에 가까울수록 두 변수 간에 선형 관계가 없다고 볼 수 있습니다.

또한, 상관 계수의 값의 절댓값이 클수록 두 변수 간의 선형 관계가 강하다고 볼 수 있습니다.

참고 자료