[파이썬] pandas에서 데이터 프로파일링

05 Sep 2023

데이터 프로파일링은 데이터셋의 구조와 내용을 분석하여 유용한 통찰력을 제공하는 과정입니다. 이는 데이터를 탐색하고 이해하는 데 도움이 되며, 데이터 정제, 결측치 처리, 이상치 탐지 등의 작업을 수행하는 데 유용합니다.

Python의 파이썬 라이브러리 중 하나인 pandas는 데이터 프로파일링을 위한 강력한 도구입니다. pandas는 데이터프레임과 시리즈라는 자료구조를 제공하며, 이를 활용하여 데이터 프로파일링 작업을 수행할 수 있습니다.

데이터 로드

가장 먼저, pandas를 사용하여 데이터를 로드합니다. pandas는 다양한 데이터 포맷을 지원하며, 이 예시에서는 CSV 파일을 사용합니다.

import pandas as pd

data = pd.read_csv('data.csv')

데이터를 로드한 후에는 데이터 프로파일링을 위해 데이터를 확인하는 것이 중요합니다.

data.head()

위 코드는 데이터의 첫 5개 행을 출력합니다. 데이터셋의 구조와 내용을 간략하게 파악할 수 있습니다.

data.shape

위 코드는 데이터의 행과 열의 크기를 반환합니다. 데이터셋의 크기를 파악할 수 있습니다.

data.describe()

위 코드는 데이터의 기술 통계 정보를 제공합니다. 평균, 표준편차, 최솟값, 최댓값 등의 정보를 확인할 수 있습니다.

data.isnull().sum()

위 코드는 데이터셋 내의 결측치의 개수를 확인합니다. 결측치는 데이터 프로파일링시 처리해야할 중요한 요소입니다.

데이터 프로파일링 후에는 데이터를 정제해야 하는 경우가 많습니다. 결측치, 이상치 등의 처리가 필요할 수 있습니다.

data.dropna()

위 코드는 결측치가 있는 행을 삭제합니다. 결측치가 있는 열을 삭제하려면 axis=1을 지정합니다.

Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)

위 코드는 이상치를 탐지하는 방법 중 하나입니다. IQR을 사용하여 이상치를 필터링할 수 있습니다.

데이터 프로파일링 후에는 데이터를 시각화하여 더 쉽게 분석할 수 있습니다. pandas는 Matplotlib 라이브러리와 함께 사용할 수 있어 간편합니다.

import matplotlib.pyplot as plt

plt.hist(data['column_name'])
plt.show()

위 코드는 column_name 열의 값에 대한 히스토그램을 그립니다. 데이터 분포를 시각적으로 확인할 수 있습니다.

pandas를 사용하여 데이터 프로파일링을 수행하는 방법을 살펴보았습니다. 데이터를 확인하고 정제하며, 필요한 경우 시각화하여 데이터셋을 더 잘 이해할 수 있습니다. pandas의 강력한 기능을 통해 데이터 분석 작업을 보다 효과적으로 수행할 수 있습니다.