데이터 분석을 할 때, 우리는 먼저 데이터의 정보를 확인하고 이해해야 합니다. 이를 위해 pandas는 데이터프레임의 정보를 확인하는 두 가지 유용한 메서드를 제공합니다 - info
와 describe
입니다. 이 블로그 포스트에서는 이 두 메서드가 어떻게 작동하는지와 어떻게 사용할 수 있는지에 대해 알아보겠습니다.
pandas 라이브러리 불러오기
판다스를 사용하기 위해, 우선 pandas
라이브러리를 불러와야 합니다. 아래의 코드를 사용하여 라이브러리를 불러올 수 있습니다:
import pandas as pd
데이터 프레임 생성하기
이 예시에서는 간단한 데이터프레임을 생성하여 사용하겠습니다. 아래의 코드를 사용하여 데이터프레임을 생성할 수 있습니다:
data = {
'Name': ['John', 'Emma', 'Michael', 'Sophia'],
'Age': [25, 22, 28, 24],
'City': ['New York', 'Paris', 'London', 'Tokyo'],
'Salary': [50000, 60000, 70000, 55000]
}
df = pd.DataFrame(data)
데이터프레임 정보 확인하기 (info)
info
메서드는 데이터프레임의 기본 정보를 출력하는데 사용됩니다. 이 메서드는 각 열의 이름, 데이터 형식, 비어있지 않은 데이터의 수 등을 보여줍니다. 아래의 코드를 사용하여 정보를 확인할 수 있습니다:
df.info()
출력 결과:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Name 4 non-null object
1 Age 4 non-null int64
2 City 4 non-null object
3 Salary 4 non-null int64
dtypes: int64(2), object(2)
memory usage: 256.0+ bytes
출력 결과에서 볼 수 있듯이, 데이터프레임은 4개의 열과 4개의 행으로 구성되어 있으며, 각 열에는 데이터 형식과 비어있지 않은 데이터의 개수가 표시됩니다.
데이터프레임 요약 정보 확인하기 (describe)
describe
메서드는 데이터프레임의 요약 통계 정보를 보여줍니다. 이 메서드는 각 열의 개수, 평균값, 표준편차, 최소값, 25%, 50%, 75% 백분위 값, 최대값 등을 보여줍니다. 아래의 코드를 사용하여 요약 정보를 확인할 수 있습니다:
df.describe()
출력 결과:
Age Salary
count 4.000000 4.000000
mean 24.750000 58750.000000
std 2.217356 7408.504854
min 22.000000 50000.000000
25% 23.500000 53750.000000
50% 24.500000 57500.000000
75% 25.750000 62500.000000
max 28.000000 70000.000000
출력 결과에서는 각 열에 대한 요약 통계 정보가 표시됩니다. 예를 들어, ‘Age’ 열의 평균은 24.75이며, ‘Salary’ 열의 최소값은 50000이고 최대값은 70000입니다.
결론
pandas의 info
와 describe
메서드는 데이터프레임의 정보를 빠르고 쉽게 확인하는데 유용한 도구입니다. info
는 데이터프레임의 기본 정보를 보여주고, describe
는 데이터프레임의 요약 통계 정보를 보여줍니다. 이를 통해 데이터를 더 잘 이해하고 분석할 수 있습니다.