[python] 판다스를 이용한 데이터 정렬과 그룹화

판다스는 파이썬에서 데이터 조작과 분석을 위한 라이브러리로 강력한 기능을 제공합니다. 여기에서는 데이터프레임을 정렬하고 그룹화하는 방법에 대해 다루겠습니다.

데이터 정렬

판다스의 sort_values 메서드를 사용하여 데이터프레임을 특정 열을 기준으로 정렬할 수 있습니다. 예를 들어, 다음은 나이를 기준으로 정렬하는 방법입니다.

import pandas as pd

data = {'이름': ['철수', '영희', '민수', '수진'],
        '나이': [25, 22, 30, 27]}
df = pd.DataFrame(data)

sorted_df = df.sort_values(by='나이')
print(sorted_df)

위 코드를 실행하면 나이에 따라 데이터프레임이 정렬된 결과를 볼 수 있습니다.

데이터 그룹화

데이터를 그룹화하여 요약 통계를 계산할 수 있습니다. 판다스의 groupby 메서드를 사용하여 그룹화할 수 있으며, 그룹화된 데이터에 대해 집계 함수를 적용할 수 있습니다.

grouped_df = df.groupby('나이').size()
print(grouped_df)

위 코드에서는 나이를 기준으로 데이터를 그룹화하고, 각 그룹의 크기를 확인할 수 있습니다.

이와 같이 판다스를 이용하면 데이터프레임을 유연하게 정렬하고 그룹화할 수 있으며, 다양한 분석을 수행할 수 있습니다.

참고 문헌: