[python] Pandas의 시계열 데이터 처리 기능

14 Dec 2023

python

Pandas는 Python 데이터 분석 및 조작을 위한 라이브러리로, 시계열 데이터를 다루는 데도 매우 유용합니다. 시계열 데이터란 일정 시간 간격으로 측정된 데이터를 말하며, 주식 가격, 날씨 데이터, 경제 지표 등이 이에 해당합니다. Pandas를 사용하면 시계열 데이터를 효과적으로 처리하고 분석할 수 있습니다.

시계열 데이터 처리

Pandas의 DatetimeIndex를 사용하면 시계열 데이터를 인덱싱하고 집계할 수 있습니다.

import pandas as pd

# 시계열 데이터 생성
dates = pd.to_datetime(['2022-01-01', '2022-01-02', '2022-01-03'])
data = [100, 150, 200]
ts = pd.Series(data, index=dates)

# 월별 집계
monthly_sum = ts.resample('M').sum()

위 예시에서 resample 함수를 사용하여 월별 합계를 계산했습니다. 이 밖에도 다양한 주기로 데이터를 재샘플링하고 집계하는 기능을 제공합니다.

시간 범위 생성

시계열 데이터 분석 시, 특정 기간의 시간 범위를 생성해야 하는 경우가 많습니다. Pandas는 이를 위해 date_range 함수를 제공합니다.

# 2022년 1월 1일부터 10일간의 시간 범위 생성
date_range = pd.date_range(start='2022-01-01', periods=10)

date_range 함수를 통해 특정 기간 동안의 날짜나 시간을 생성할 수 있습니다.

결론

Pandas는 시계열 데이터 처리에 유용한 다양한 기능을 제공합니다. 시계열 데이터를 다루는 다른 라이브러리에 비해 편리하고 강력한 기능을 제공하므로, 데이터 분석가나 연구자들에게 강력한 도구로 작용할 것입니다.

자세한 내용은 Pandas 공식 문서를 참고하시기 바랍니다.