[python] 데이터 그룹화와 집계하기

데이터를 처리하다보면 종종 데이터를 그룹화하고 각 그룹에서 특정한 연산을 수행해야 하는 경우가 있습니다. Python의 pandas 라이브러리는 이러한 작업을 간단하고 효율적으로 수행할 수 있는 다양한 기능을 제공합니다.

1. 데이터 그룹화

데이터를 그룹화하기 위해서는 groupby 메서드를 사용합니다. 이 메서드는 데이터를 하나 이상의 키(또는 열)에 따라 그룹화합니다.

다음은 데이터프레임을 특정 열을 기준으로 그룹화하는 예시입니다.

import pandas as pd

# data: {'key': [a, b, a, b, a], 'value': [1, 2, 3, 4, 5]}
df = pd.DataFrame({'key': ['a', 'b', 'a', 'b', 'a'], 'value': [1, 2, 3, 4, 5]})
grouped = df.groupby('key')

2. 집계 연산 수행

그룹화된 데이터에 대해 통계적 또는 요약 연산을 수행하려면 aggregate, transform, apply 등의 메서드를 사용합니다.

다음은 그룹화된 데이터에서 평균을 계산하는 예시입니다.

# 평균값 구하기
grouped_mean = grouped.aggregate('mean')

3. 결과 확인

마지막으로, 집계된 결과를 확인합니다.

print(grouped_mean)

이제 당신은 Python을 사용하여 데이터를 효과적으로 그룹화하고 집계하는 방법에 대해 알게 되었습니다.

참고 자료