[python] Pandas와 NumPy를 함께 활용한 데이터 전처리 예시

Pandas와 NumPy는 데이터 과학 및 머신 러닝 분야에서 널리 사용되는 파이썬 라이브러리입니다. 이 두 라이브러리를 함께 활용하여 데이터를 쉽게 처리하고 전처리할 수 있습니다. 이번 포스트에서는 Pandas와 NumPy를 사용하여 데이터를 불러오고 전처리하는 예시를 살펴보겠습니다.

Pandas와 NumPy 라이브러리 불러오기

가장 먼저, 필요한 라이브러리를 불러와야 합니다.

import pandas as pd
import numpy as np

데이터 불러오기

이번 예시에서는 CSV 파일로부터 데이터를 불러오겠습니다.

# CSV 파일에서 데이터 불러오기
data = pd.read_csv('data.csv')

데이터 확인하기

# 데이터의 처음 5개 행 출력
print(data.head())

# 데이터프레임의 열 정보 확인
print(data.info())

# 결측치 확인
print(data.isnull().sum())

데이터 전처리

결측치 처리

# 결측치를 0으로 채우기
data.fillna(0, inplace=True)

# 중복 행 제거
data.drop_duplicates(inplace=True)

데이터 형 변환

# 숫자 데이터로 변환
data['column_name'] = data['column_name'].astype(int)

# 데이터프레임 병합
merged_data = pd.merge(data1, data2, on='key_column')

데이터 저장

전처리된 데이터를 새로운 파일로 저장합니다.

# CSV 파일로 저장
data.to_csv('preprocessed_data.csv', index=False)

Pandas와 NumPy를 함께 사용하여 데이터를 효과적으로 처리하고 분석할 수 있습니다. 데이터 과학 및 머신 러닝 프로젝트에서 이러한 라이브러리를 유용하게 활용할 수 있습니다.

참고 문헌: