[python] Arrow 라이브러리를 이용한 연도별 데이터 집계
데이터를 분석하거나 시각화하기 위해 종종 연도별로 데이터를 집계해야 할 때가 있습니다. 이때 Arrow 라이브러리를 사용하면 편리하게 연도별 데이터를 집계할 수 있습니다. Arrow는 Python에서 날짜와 시간을 다루는 데 사용되는 확장 라이브러리입니다.
1. Arrow 설치
먼저 Arrow 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 Arrow를 설치합니다.
pip install arrow
2. 데이터 준비
이 예제에서는 연도별 판매 데이터를 사용합니다. 데이터는 다음과 같이 CSV 파일로 준비되어 있습니다.
Date,Amount
2019-01-01,1000
2019-02-15,2000
2020-05-20,1500
2020-12-31,3000
2021-03-10,2500
3. 연도별 데이터 집계
이제 Arrow 라이브러리를 사용하여 연도별로 데이터를 집계할 수 있습니다. 아래는 간단한 예제 코드입니다.
import arrow
import pandas as pd
# 데이터 로드
df = pd.read_csv('sales_data.csv')
# 날짜 컬럼을 Arrow 객체로 변환하여 연도 컬럼 추가
df['Year'] = df['Date'].apply(lambda x: arrow.get(x).year)
# 연도별로 데이터 집계
aggregated_data = df.groupby('Year').sum()
# 결과 출력
print(aggregated_data)
위 코드를 실행하면 다음과 같은 결과가 출력됩니다.
Amount
Year
2019 3000
2020 4500
2021 2500
위 결과를 통해 2019년에는 3000, 2020년에는 4500, 그리고 2021년에는 2500의 총 판매량이 있음을 알 수 있습니다.
4. 결론
Arrow 라이브러리를 사용하면 Python에서 편리하게 날짜와 시간을 다룰 수 있습니다. 위의 예제처럼 Arrow를 사용하여 연도별 데이터를 집계하는 작업은 데이터 분석 및 시각화에 유용하게 활용될 수 있습니다.
참고 자료
- Arrow 공식 문서: https://arrow.readthedocs.io
- Pandas 공식 문서: https://pandas.pydata.org