[python] 판다스를 이용한 피벗 테이블과 그룹 연산
이번 글에서는 판다스(pandas) 라이브러리를 사용하여 데이터프레임에서 피벗 테이블(pivot table) 과 그룹 연산(groupby) 을 하는 방법에 대해 알아보겠습니다.
1. 피벗 테이블
피벗 테이블은 데이터프레임에서 특정 열을 행 인덱스, 열 인덱스, 그리고 데이터 값으로 사용하여 다차원으로 데이터를 집계하는 기능입니다.
import pandas as pd
# 피벗 테이블 생성
df.pivot_table(index='행 인덱스', columns='열 인덱스', values='데이터 값', aggfunc='집계함수')
위의 코드에서 index
는 피벗 테이블의 행 인덱스로 사용할 열을, columns
는 열 인덱스로 사용할 열을, values
는 데이터 값으로 사용할 열을, 그리고 aggfunc
은 데이터를 집계하는 함수를 지정합니다.
2. 그룹 연산
그룹 연산은 데이터를 그룹으로 묶어서 집계하는 기능을 말합니다.
import pandas as pd
# 그룹 연산
df.groupby('그룹으로 묶을 열')['집계할 열'].agg(['집계 함수 1', '집계 함수 2', ...])
위의 코드에서 groupby
로 그룹으로 묶을 열을 선택하고, agg
메서드를 사용하여 집계함수를 적용합니다.
3. 마치며
판다스의 피벗 테이블과 그룹 연산 기능은 데이터프레임에서 다양한 집계 및 분석을 수월하게 할 수 있도록 도와줍니다. 이를 잘 활용하여 데이터 분석 작업에 효율성을 높일 수 있을 것입니다.
참고 자료:
- 판다스 공식 문서: https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html
- 판다스 공식 문서: https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html