데이터 분석을 할 때, 우리는 먼저 데이터의 정보를 확인하고 이해해야 합니다. 이를 위해 pandas는 데이터프레임의 정보를 확인하는 두 가지 유용한 메서드를 제공합니다 - info와 describe입니다. 이 블로그 포스트에서는 이 두 메서드가 어떻게 작동하는지와 어떻게 사용할 수 있는지에 대해 알아보겠습니다.
pandas 라이브러리 불러오기
판다스를 사용하기 위해, 우선 pandas 라이브러리를 불러와야 합니다. 아래의 코드를 사용하여 라이브러리를 불러올 수 있습니다:
import pandas as pd
데이터 프레임 생성하기
이 예시에서는 간단한 데이터프레임을 생성하여 사용하겠습니다. 아래의 코드를 사용하여 데이터프레임을 생성할 수 있습니다:
data = {
'Name': ['John', 'Emma', 'Michael', 'Sophia'],
'Age': [25, 22, 28, 24],
'City': ['New York', 'Paris', 'London', 'Tokyo'],
'Salary': [50000, 60000, 70000, 55000]
}
df = pd.DataFrame(data)
데이터프레임 정보 확인하기 (info)
info 메서드는 데이터프레임의 기본 정보를 출력하는데 사용됩니다. 이 메서드는 각 열의 이름, 데이터 형식, 비어있지 않은 데이터의 수 등을 보여줍니다. 아래의 코드를 사용하여 정보를 확인할 수 있습니다:
df.info()
출력 결과:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 4 non-null object
1 Age 4 non-null int64
2 City 4 non-null object
3 Salary 4 non-null int64
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes
출력 결과에서 볼 수 있듯이, 데이터프레임은 4개의 열과 4개의 행으로 구성되어 있으며, 각 열에는 데이터 형식과 비어있지 않은 데이터의 개수가 표시됩니다.
데이터프레임 요약 정보 확인하기 (describe)
describe 메서드는 데이터프레임의 요약 통계 정보를 보여줍니다. 이 메서드는 각 열의 개수, 평균값, 표준편차, 최소값, 25%, 50%, 75% 백분위 값, 최대값 등을 보여줍니다. 아래의 코드를 사용하여 요약 정보를 확인할 수 있습니다:
df.describe()
출력 결과:
Age Salary
count 4.000000 4.000000
mean 24.750000 58750.000000
std 2.217356 7408.504854
min 22.000000 50000.000000
25% 23.500000 53750.000000
50% 24.500000 57500.000000
75% 25.750000 62500.000000
max 28.000000 70000.000000
출력 결과에서는 각 열에 대한 요약 통계 정보가 표시됩니다. 예를 들어, ‘Age’ 열의 평균은 24.75이며, ‘Salary’ 열의 최소값은 50000이고 최대값은 70000입니다.
결론
pandas의 info와 describe 메서드는 데이터프레임의 정보를 빠르고 쉽게 확인하는데 유용한 도구입니다. info는 데이터프레임의 기본 정보를 보여주고, describe는 데이터프레임의 요약 통계 정보를 보여줍니다. 이를 통해 데이터를 더 잘 이해하고 분석할 수 있습니다.