[python] 파이썬 pandas에서 시계열 데이터를 다루는 방법은 무엇인가요?
판다스(pandas)는 파이썬 데이터 분석 라이브러리로, 시계열 데이터를 다루는 데에 매우 유용합니다.
1. 시계열 데이터 생성
먼저, 시계열 데이터를 생성하는 방법을 알아봅시다. DateTimeIndex
를 사용하여 시계열 데이터를 만들 수 있습니다.
import pandas as pd
dates = pd.date_range('20210101', periods=6)
time_series = pd.Series([1, 3, 5, 7, 9, 11], index=dates)
print(time_series)
2. 시계열 데이터 시각화
시계열 데이터를 시각화하여 패턴을 파악할 수 있습니다. matplotlib
를 사용하여 시간에 따른 데이터 변화를 시각화할 수 있습니다.
import matplotlib.pyplot as plt
time_series.plot()
plt.show()
3. 시계열 데이터 분석
판다스를 사용하면 rolling window를 이용해 이동평균, 이동합 등을 쉽게 구할 수 있습니다.
rolling_mean = time_series.rolling(window=2).mean()
print(rolling_mean)
4. 결측치 처리
시계열 데이터에는 결측치가 포함될 수 있습니다. 결측치를 처리하기 위해 fillna
나 interpolate
함수를 사용할 수 있습니다.
filled_time_series = time_series.fillna(method='ffill')
print(filled_time_series)
시계열 데이터를 이용하면 데이터 분석과 예측에 유용한 정보를 얻을 수 있습니다. pandas의 다양한 기능을 활용하여 시계열 데이터를 효과적으로 분석하고 인사이트를 얻어내는 데에 활용하세요.
판다스 공식 문서를 참고하시면 더 많은 정보를 얻을 수 있습니다.