[파이썬] 파이썬을 이용한 데이터 전처리

01 Sep 2023

python

데이터 전처리는 데이터를 분석하기 전에 데이터를 정제하고 변환하는 과정입니다. 이로 인해 데이터의 품질을 향상시키고 분석 결과를 개선할 수 있습니다. 파이썬은 데이터 전처리를 위한 강력한 도구로 널리 사용되고 있습니다.

데이터 불러오기

가장 먼저 데이터를 파이썬으로 불러와야 합니다. 파이썬에는 데이터를 다루는데 유용한 라이브러리들이 많이 있습니다. pandas 라이브러리를 사용하여 데이터를 불러올 수 있습니다. 아래는 CSV 파일으로부터 데이터를 불러오는 예제입니다.

import pandas as pd

# CSV 파일 불러오기
data = pd.read_csv('data.csv')

데이터 확인하기

데이터를 불러온 후에는 데이터의 구조와 내용을 확인해야 합니다. 데이터의 크기, 열의 이름, 각 열의 데이터 타입 등을 확인할 수 있습니다. 데이터를 확인함으로써 데이터 전처리에 필요한 작업들을 결정할 수 있습니다.

# 데이터 크기 확인
print(data.shape)

# 열의 이름 확인
print(data.columns)

# 데이터 일부분 확인
print(data.head())

결측치 처리

데이터에는 종종 결측치(error) 값이 포함되어 있을 수 있습니다. 이러한 결측치는 데이터 분석에 방해가 되므로 처리해주어야 합니다. pandas를 사용하여 결측치를 처리할 수 있습니다. 가장 간단한 방법은 결측치가 있는 행 또는 열을 제거하는 것입니다.

# 행 기준 결측치 제거
data = data.dropna()

# 열 기준 결측치 제거
data = data.dropna(axis=1)

데이터 변환

데이터를 분석하기 전에 데이터를 변환해야 할 때가 있습니다. 예를 들어, 날짜 데이터를 숫자 데이터로 변환하거나 범주형 데이터를 숫자로 인코딩하는 작업이 필요할 수 있습니다. pandas를 사용하여 데이터를 변환할 수 있습니다.

# 날짜 데이터 변환
data['date'] = pd.to_datetime(data['date'])
 
# 범주형 데이터 인코딩 (원핫인코딩)
encoded_data = pd.get_dummies(data, columns=['category'])

데이터 정규화

데이터 분석을 위해서는 데이터의 스케일이 동일해야 합니다. 따라서 데이터를 정규화하는 작업이 필요합니다. sklearn 라이브러리를 사용하여 데이터를 정규화할 수 있습니다.

from sklearn.preprocessing import MinMaxScaler

# 데이터 정규화
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

이 외에도 데이터 전처리에는 다양한 작업들이 있습니다. 예를 들어, 이상치 처리, 텍스트 데이터 처리, 특성 선택 등이 있습니다. 파이썬을 이용한 데이터 전처리는 데이터 분석 작업에서 빠질 수 없는 필수적인 단계입니다. 적절한 데이터 전처리를 통해 더 정확하고 의미 있는 분석 결과를 얻을 수 있습니다.