[python] 판다스를 이용한 데이터 통계 요약
데이터 과학 및 분석에서 데이터 통계 요약은 매우 중요합니다. 판다스는 파이썬의 필수적인 라이브러리로서 데이터 프레임을 통해 데이터를 쉽게 처리하고 통계 요약 정보를 제공할 수 있습니다.
이번 게시물에서는 판다스를 사용하여 데이터 프레임의 통계 정보를 어떻게 요약할 수 있는지 알아보겠습니다.
데이터 불러오기
가장 먼저, 필요한 라이브러리를 가져와 데이터를 불러옵니다.
import pandas as pd
# 데이터 프레임 생성
data = {
'이름': ['철수', '영희', '수지', '민수', '지연'],
'나이': [25, 28, 21, 24, 30],
'성별': ['남', '여', '여', '남', '여'],
'키': [175, 163, 168, 180, 160]
}
df = pd.DataFrame(data)
데이터 통계 요약
데이터 프레임의 통계 요약을 위해 describe()
함수를 사용할 수 있습니다.
summary = df.describe()
print(summary)
이제 summary
에는 데이터 프레임의 간단한 통계 정보가 포함되어 있습니다. 이를 통해 각 열의 평균, 표준편차, 최솟값, 25%, 50%, 75% 백분위수, 최댓값 등을 확인할 수 있습니다.
판다스를 사용하면 몇 줄의 코드로 간단하게 데이터 프레임의 통계 정보를 얻을 수 있습니다. 이는 데이터 분석 및 시각화에 매우 유용합니다.
결론
판다스를 사용하면 데이터 통계 요약을 손쉽게 수행할 수 있습니다. 이를 통해 데이터를 빠르게 탐색하고 이해할 수 있으며, 데이터 과학 및 분석 작업을 보다 효율적으로 수행할 수 있습니다.