데이터 분석에서 중요한 단계 중 하나는 데이터를 그룹화하고 집계하는 것입니다. 이를 통해 데이터에서 유용한 통계 정보를 추출할 수 있으며, 패턴을 파악하고 의사 결정을 내리는 데 도움을 줍니다. 이번 포스트에서는 파이썬을 사용하여 데이터 그룹화와 집계를 심화하는 방법에 대해 알아보겠습니다.
Pandas를 사용한 데이터 그룹화와 집계
Pandas는 파이썬의 데이터 분석 라이브러리로, 데이터 그룹화와 집계를 쉽게 수행할 수 있는 기능을 제공합니다. 아래는 Pandas를 사용하여 데이터를 그룹화하고 집계하는 간단한 예제 코드입니다.
import pandas as pd
# 데이터 프레임 생성
data = {'Name': ['John', 'Alice', 'Bob', 'Alice', 'John'],
'Age': [25, 28, 24, 27, 30],
'City': ['Seoul', 'New York', 'Paris', 'Paris', 'Seoul'],
'Salary': [5000, 6000, 4500, 5500, 7000]}
df = pd.DataFrame(data)
# 그룹화하여 집계
grouped = df.groupby('Name')
agg_result = grouped.agg({'Age': 'mean', 'Salary': 'sum'})
print(agg_result)
위 코드에서는 groupby()
함수를 사용하여 ‘Name’ 열을 기준으로 데이터를 그룹화한 후, agg()
함수를 사용하여 그룹된 데이터의 집계를 수행합니다. 이 예제에서는 ‘Age’ 열의 평균과 ‘Salary’ 열의 합을 계산하였습니다.
SQL을 사용한 데이터 그룹화와 집계
데이터베이스에서 데이터를 그룹화하고 집계하는 것은 SQL의 GROUP BY 절을 사용하여 수행할 수 있습니다. SQL을 사용하여 데이터를 그룹화하고 집계하는 예제를 살펴보겠습니다.
SELECT Name, AVG(Age), SUM(Salary)
FROM Employee
GROUP BY Name;
위 SQL 쿼리에서는 ‘Employee’ 테이블을 ‘Name’ 열을 기준으로 그룹화한 후, ‘Age’ 열의 평균과 ‘Salary’ 열의 합을 계산합니다.
Conclusion
이번 포스트에서는 데이터 그룹화와 집계를 파이썬과 SQL을 사용하여 심화하는 방법에 대해 알아보았습니다. 데이터 그룹화와 집계는 데이터 분석의 핵심 단계이며, 이를 통해 유용한 통계 정보를 추출할 수 있습니다. Pandas와 SQL은 이러한 작업을 간편하게 수행할 수 있는 도구입니다.
더 많은 데이터 분석 기법과 도구에 대해 알아보고 싶다면, 데이터 과학 및 데이터 분석 분야의 다양한 자원을 참고해보시기 바랍니다. 데이터 그룹화와 집계를 심화하는 방법을 연습하면서 데이터 분석에 보다 깊게 진입해보시기를 바랍니다.