[python] 판다스를 이용한 데이터 통계 요약

데이터 과학 및 분석에서 데이터 통계 요약은 매우 중요합니다. 판다스는 파이썬의 필수적인 라이브러리로서 데이터 프레임을 통해 데이터를 쉽게 처리하고 통계 요약 정보를 제공할 수 있습니다.

이번 게시물에서는 판다스를 사용하여 데이터 프레임의 통계 정보를 어떻게 요약할 수 있는지 알아보겠습니다.

데이터 불러오기

가장 먼저, 필요한 라이브러리를 가져와 데이터를 불러옵니다.

import pandas as pd

# 데이터 프레임 생성
data = {
    '이름': ['철수', '영희', '수지', '민수', '지연'],
    '나이': [25, 28, 21, 24, 30],
    '성별': ['남', '여', '여', '남', '여'],
    '키': [175, 163, 168, 180, 160]
}

df = pd.DataFrame(data)

데이터 통계 요약

데이터 프레임의 통계 요약을 위해 describe() 함수를 사용할 수 있습니다.

summary = df.describe()
print(summary)

이제 summary에는 데이터 프레임의 간단한 통계 정보가 포함되어 있습니다. 이를 통해 각 열의 평균, 표준편차, 최솟값, 25%, 50%, 75% 백분위수, 최댓값 등을 확인할 수 있습니다.

판다스를 사용하면 몇 줄의 코드로 간단하게 데이터 프레임의 통계 정보를 얻을 수 있습니다. 이는 데이터 분석 및 시각화에 매우 유용합니다.

결론

판다스를 사용하면 데이터 통계 요약을 손쉽게 수행할 수 있습니다. 이를 통해 데이터를 빠르게 탐색하고 이해할 수 있으며, 데이터 과학 및 분석 작업을 보다 효율적으로 수행할 수 있습니다.