[파이썬] pandas에서 데이터의 정보 확인 (info, describe)

데이터 분석을 할 때, 우리는 먼저 데이터의 정보를 확인하고 이해해야 합니다. 이를 위해 pandas는 데이터프레임의 정보를 확인하는 두 가지 유용한 메서드를 제공합니다 - infodescribe입니다. 이 블로그 포스트에서는 이 두 메서드가 어떻게 작동하는지와 어떻게 사용할 수 있는지에 대해 알아보겠습니다.

pandas 라이브러리 불러오기

판다스를 사용하기 위해, 우선 pandas 라이브러리를 불러와야 합니다. 아래의 코드를 사용하여 라이브러리를 불러올 수 있습니다:

import pandas as pd

데이터 프레임 생성하기

이 예시에서는 간단한 데이터프레임을 생성하여 사용하겠습니다. 아래의 코드를 사용하여 데이터프레임을 생성할 수 있습니다:

data = {
    'Name': ['John', 'Emma', 'Michael', 'Sophia'],
    'Age': [25, 22, 28, 24],
    'City': ['New York', 'Paris', 'London', 'Tokyo'],
    'Salary': [50000, 60000, 70000, 55000]
}

df = pd.DataFrame(data)

데이터프레임 정보 확인하기 (info)

info 메서드는 데이터프레임의 기본 정보를 출력하는데 사용됩니다. 이 메서드는 각 열의 이름, 데이터 형식, 비어있지 않은 데이터의 수 등을 보여줍니다. 아래의 코드를 사용하여 정보를 확인할 수 있습니다:

df.info()

출력 결과:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
 3   Salary  4 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes

출력 결과에서 볼 수 있듯이, 데이터프레임은 4개의 열과 4개의 행으로 구성되어 있으며, 각 열에는 데이터 형식과 비어있지 않은 데이터의 개수가 표시됩니다.

데이터프레임 요약 정보 확인하기 (describe)

describe 메서드는 데이터프레임의 요약 통계 정보를 보여줍니다. 이 메서드는 각 열의 개수, 평균값, 표준편차, 최소값, 25%, 50%, 75% 백분위 값, 최대값 등을 보여줍니다. 아래의 코드를 사용하여 요약 정보를 확인할 수 있습니다:

df.describe()

출력 결과:

             Age        Salary
count   4.000000      4.000000
mean   24.750000  58750.000000
std     2.217356   7408.504854
min    22.000000  50000.000000
25%    23.500000  53750.000000
50%    24.500000  57500.000000
75%    25.750000  62500.000000
max    28.000000  70000.000000

출력 결과에서는 각 열에 대한 요약 통계 정보가 표시됩니다. 예를 들어, ‘Age’ 열의 평균은 24.75이며, ‘Salary’ 열의 최소값은 50000이고 최대값은 70000입니다.

결론

pandas의 infodescribe 메서드는 데이터프레임의 정보를 빠르고 쉽게 확인하는데 유용한 도구입니다. info는 데이터프레임의 기본 정보를 보여주고, describe는 데이터프레임의 요약 통계 정보를 보여줍니다. 이를 통해 데이터를 더 잘 이해하고 분석할 수 있습니다.