[python] SciPy를 사용하여 피어슨 상관계수 계산하기

피어슨 상관계수는 두 변수 간의 선형 상관관계를 측정하는 통계적 지표입니다. 이는 데이터 분석과 머신러닝에서 많이 사용되며, 변수들 간의 관계를 파악하는 데 도움을 줍니다.

Python에서는 SciPy 패키지의 pearsonr 함수를 사용하여 피어슨 상관계수를 계산할 수 있습니다. 이 함수는 두 개의 1차원 배열을 입력으로 받아서 피어슨 상관계수와 p-value 값을 반환합니다.

아래는 pearsonr 함수를 사용하여 피어슨 상관계수를 계산하는 예제 코드입니다:

import scipy.stats as stats

# 두 변수의 데이터 값
x = [1, 2, 3, 4, 5]
y = [6, 7, 8, 9, 10]

# 피어슨 상관계수 계산
correlation, p_value = stats.pearsonr(x, y)

# 결과 출력
print("피어슨 상관계수:", correlation)
print("p-value:", p_value)

위 코드에서 xy는 각각 두 변수의 데이터 값으로, 이를 stats.pearsonr 함수에 전달하여 계산합니다. 그리고 계산 결과인 피어슨 상관계수와 p-value를 출력합니다.

위 예제 코드를 실행하면 다음과 같은 출력을 얻을 수 있습니다:

피어슨 상관계수: 1.0
p-value: 0.0

피어슨 상관계수는 -1과 1 사이의 값을 가지며, -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계를 나타냅니다. p-value는 피어슨 상관계수의 유의성을 나타내는 값으로, 일반적으로 0.05보다 작을 경우 관련성이 있다고 할 수 있습니다.

더 자세한 내용은 SciPy의 pearsonr 함수 문서를 참고하십시오.