[python] SciPy를 사용하여 피어슨 상관계수 계산하기
피어슨 상관계수는 두 변수 간의 선형 상관관계를 측정하는 통계적 지표입니다. 이는 데이터 분석과 머신러닝에서 많이 사용되며, 변수들 간의 관계를 파악하는 데 도움을 줍니다.
Python에서는 SciPy 패키지의 pearsonr
함수를 사용하여 피어슨 상관계수를 계산할 수 있습니다. 이 함수는 두 개의 1차원 배열을 입력으로 받아서 피어슨 상관계수와 p-value 값을 반환합니다.
아래는 pearsonr
함수를 사용하여 피어슨 상관계수를 계산하는 예제 코드입니다:
import scipy.stats as stats
# 두 변수의 데이터 값
x = [1, 2, 3, 4, 5]
y = [6, 7, 8, 9, 10]
# 피어슨 상관계수 계산
correlation, p_value = stats.pearsonr(x, y)
# 결과 출력
print("피어슨 상관계수:", correlation)
print("p-value:", p_value)
위 코드에서 x
와 y
는 각각 두 변수의 데이터 값으로, 이를 stats.pearsonr
함수에 전달하여 계산합니다. 그리고 계산 결과인 피어슨 상관계수와 p-value를 출력합니다.
위 예제 코드를 실행하면 다음과 같은 출력을 얻을 수 있습니다:
피어슨 상관계수: 1.0
p-value: 0.0
피어슨 상관계수는 -1과 1 사이의 값을 가지며, -1에 가까울수록 음의 상관관계, 1에 가까울수록 양의 상관관계를 나타냅니다. p-value는 피어슨 상관계수의 유의성을 나타내는 값으로, 일반적으로 0.05보다 작을 경우 관련성이 있다고 할 수 있습니다.
더 자세한 내용은 SciPy의 pearsonr 함수 문서를 참고하십시오.