[python] Arrow 라이브러리를 이용한 연도별 데이터 집계

01 Dec 2023

python

데이터를 분석하거나 시각화하기 위해 종종 연도별로 데이터를 집계해야 할 때가 있습니다. 이때 Arrow 라이브러리를 사용하면 편리하게 연도별 데이터를 집계할 수 있습니다. Arrow는 Python에서 날짜와 시간을 다루는 데 사용되는 확장 라이브러리입니다.

1. Arrow 설치

먼저 Arrow 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 Arrow를 설치합니다.

pip install arrow

2. 데이터 준비

이 예제에서는 연도별 판매 데이터를 사용합니다. 데이터는 다음과 같이 CSV 파일로 준비되어 있습니다.

Date,Amount
2019-01-01,1000
2019-02-15,2000
2020-05-20,1500
2020-12-31,3000
2021-03-10,2500

3. 연도별 데이터 집계

이제 Arrow 라이브러리를 사용하여 연도별로 데이터를 집계할 수 있습니다. 아래는 간단한 예제 코드입니다.

import arrow
import pandas as pd

# 데이터 로드
df = pd.read_csv('sales_data.csv')

# 날짜 컬럼을 Arrow 객체로 변환하여 연도 컬럼 추가
df['Year'] = df['Date'].apply(lambda x: arrow.get(x).year)

# 연도별로 데이터 집계
aggregated_data = df.groupby('Year').sum()

# 결과 출력
print(aggregated_data)

위 코드를 실행하면 다음과 같은 결과가 출력됩니다.

      Amount
Year        
2019    3000
2020    4500
2021    2500

위 결과를 통해 2019년에는 3000, 2020년에는 4500, 그리고 2021년에는 2500의 총 판매량이 있음을 알 수 있습니다.

4. 결론

Arrow 라이브러리를 사용하면 Python에서 편리하게 날짜와 시간을 다룰 수 있습니다. 위의 예제처럼 Arrow를 사용하여 연도별 데이터를 집계하는 작업은 데이터 분석 및 시각화에 유용하게 활용될 수 있습니다.

참고 자료

Arrow 공식 문서: https://arrow.readthedocs.io
Pandas 공식 문서: https://pandas.pydata.org