[파이썬] pandas 그룹화된 데이터의 통계

pandas는 파이썬에서 데이터 처리와 분석을 위한 강력한 라이브러리입니다. 그룹화된 데이터의 통계를 계산하는 것은 데이터 분석에서 매우 중요한 작업 중 하나입니다. 이 블로그 포스트에서는 pandas를 사용하여 그룹화된 데이터의 통계를 계산하는 방법에 대해 알아보겠습니다.

그룹화된 데이터 생성하기

먼저, 그룹화된 데이터를 생성하는 방법에 대해 알아보겠습니다. 데이터프레임에서 그룹화된 데이터를 생성하려면 groupby 메서드를 사용해야 합니다. 이 메서드는 그룹화할 열(또는 열의 리스트)을 기준으로 데이터를 그룹화합니다.

import pandas as pd

# 데이터프레임 생성
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
        'Age': [25, 30, 35, 25, 30],
        'Salary': [50000, 60000, 70000, 55000, 65000]}
df = pd.DataFrame(data)

# "Name" 열을 기준으로 데이터를 그룹화
grouped_data = df.groupby('Name')

위의 예시에서는 Name 열을 기준으로 데이터를 그룹화하였습니다.

그룹화된 데이터 통계 계산하기

그룹화된 데이터에 대한 통계를 계산하는 방법에 대해 알아보겠습니다. pandas는 여러 유용한 통계 함수를 제공합니다. 몇 가지 예시를 살펴보겠습니다.

평균 계산하기

먼저, 그룹화된 데이터의 평균을 계산하는 방법입니다. mean 함수를 사용하여 각 그룹의 평균 값을 계산할 수 있습니다.

# 그룹화된 데이터의 평균 계산
average_salary = grouped_data['Salary'].mean()
print(average_salary)

위의 코드는 각 사람의 평균 임금을 출력합니다.

합계 계산하기

그룹화된 데이터의 합계를 계산하는 방법을 살펴보겠습니다. sum 함수를 사용하여 각 그룹의 합계 값을 계산할 수 있습니다.

# 그룹화된 데이터의 합계 계산
total_salary = grouped_data['Salary'].sum()
print(total_salary)

위의 코드는 각 사람의 총 임금을 출력합니다.

다양한 통계 함수 사용하기

이외에도 pandas는 그룹화된 데이터에 대해 여러 다른 통계 함수를 제공합니다. 몇 가지 예시를 살펴보겠습니다.

# 그룹화된 데이터의 중앙값 계산
median_age = grouped_data['Age'].median()

# 그룹화된 데이터의 최솟값 계산
min_salary = grouped_data['Salary'].min()

# 그룹화된 데이터의 표준편차 계산
std_age = grouped_data['Age'].std()

# 그룹화된 데이터의 개수 계산
count_name = grouped_data['Name'].count()

위의 예시를 통해 다양한 통계 함수를 사용해 그룹화된 데이터의 통계를 계산할 수 있다는 것을 알 수 있습니다.

pandas를 사용하여 그룹화된 데이터의 통계를 계산하는 방법에 대해 알아보았습니다. pandas의 강력한 기능을 활용하여 데이터 분석 작업을 더욱 효과적으로 수행할 수 있습니다.