[파이썬] statsmodels에서 시계열 분해

05 Sep 2023

statsmodels

Statsmodels는 파이썬에서 통계 분석을 수행하기 위한 라이브러리입니다. Statsmodels는 다양한 통계 모형을 효과적으로 적용할 수 있으며, 시계열 데이터를 분석하는 데에도 유용하게 사용될 수 있습니다.

시계열 분해는 시계열 데이터의 구성 요소를 추정하는 방법입니다. 일반적으로 시계열 데이터는 추세(Trend), 계절성(Seasonality), 잔차(Residual) 세 가지 구성 요소로 분해됩니다. 추세는 데이터의 장기적인 변동을 나타내며, 계절성은 정해진 주기로 발생하는 주기적인 변동을 의미합니다. 잔차는 추세와 계절성을 제외한 나머지 요소로 남은 변동을 의미합니다.

Statsmodels에서 시계열 분해를 수행하려면 seasonal_decompose 함수를 사용할 수 있습니다. 이 함수는 시계열 데이터를 입력으로 받고, 추세, 계절성, 잔차를 추정하여 반환합니다. 이를 통해 시계열 데이터의 구성 요소를 살펴볼 수 있으며, 각 구성 요소를 개별적으로 분석할 수도 있습니다.

다음은 Statsmodels에서 seasonal_decompose 함수를 사용하여 시계열 데이터를 분해하는 예제 코드입니다:

import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose

# 시계열 데이터 예제
data = pd.read_csv('data.csv', parse_dates=['date'], index_col='date')

# 시계열 분해
result = seasonal_decompose(data, model='additive')

# 분해된 구성 요소 출력
plt.subplot(411)
plt.plot(data, label='Original')
plt.legend(loc='best')
plt.subplot(412)
plt.plot(result.trend, label='Trend')
plt.legend(loc='best')
plt.subplot(413)
plt.plot(result.seasonal,label='Seasonality')
plt.legend(loc='best')
plt.subplot(414)
plt.plot(result.resid, label='Residuals')
plt.legend(loc='best')
plt.tight_layout()
plt.show()

위 코드에서 data는 분석하고자 하는 시계열 데이터이며, model 매개변수를 통해 분해 방법을 지정할 수 있습니다. 위 예제 코드는 가법 모형(additive model)을 사용하여 구성 요소를 분해합니다.

분해된 구성 요소는 result.trend, result.seasonal, result.resid와 같은 속성으로 접근할 수 있습니다. 이를 통해 추세, 계절성, 잔차를 개별적으로 분석하거나, 그래프를 통해 확인할 수 있습니다.

Statsmodels의 seasonal_decompose 함수를 사용하면 시계열 데이터의 구성 요소를 손쉽게 추정할 수 있으며, 이를 통해 시계열 데이터의 특성을 파악하고 통계 분석에 활용할 수 있습니다.