[python] 주피터 노트북에서 데이터 전처리하기

14 Dec 2023

python

주피터 노트북은 데이터 분석과 시각화에 매우 유용한 도구입니다. 데이터 전처리는 데이터 과학 및 기계 학습 작업의 첫 단계 중 하나로, 주피터 노트북을 사용하여 데이터를 정리하고 준비하는 것이 편리합니다. 이 포스트에서는 주피터 노트북에서 데이터를 읽고 전처리하는 방법을 살펴보겠습니다.

데이터 읽기

주피터 노트북에서 데이터를 읽기 위해 pandas 라이브러리를 사용할 수 있습니다. 다음과 같이 코드를 작성하여 CSV 파일을 읽어와 데이터프레임으로 저장할 수 있습니다.

import pandas as pd

# 데이터 읽기
df = pd.read_csv('data.csv')
# 데이터 확인
df.head()

데이터 전처리

결측값 처리

결측값은 데이터 분석 시 문제를 일으킬 수 있으므로, 이를 처리하는 것이 중요합니다. 주요 방법 중 하나는 결측값을 대체하는 것입니다.

# 결측값 대체
df.fillna(0, inplace=True)  # 결측값을 0으로 대체

이상값 제거

이상값은 데이터의 정상적인 패턴에서 벗어나는 값으로, 데이터의 해석을 방해할 수 있습니다. 제거하는 방법은 다음과 같습니다.

# 이상값 제거
df = df[(df['column'] > 0) & (df['column'] < 100)]  # column 열에서 0 미만, 100 초과의 값을 갖는 행 제거

데이터 변환

데이터를 분석하기 쉽도록 형식을 변환하는 것도 중요합니다. 예를 들어, 날짜 형식을 변환하는 방법은 다음과 같습니다.

# 날짜 형식 변환
df['date'] = pd.to_datetime(df['date'])  # date 열의 값을 날짜 형식으로 변환

결과 확인

마지막으로, 전처리한 데이터의 결과를 확인하고 저장할 수 있습니다.

# 전처리 결과 확인
df.head()
# 전처리 결과 저장
df.to_csv('preprocessed_data.csv', index=False)  # 전처리한 데이터를 CSV 파일로 저장

이처럼 주피터 노트북을 활용하여 데이터를 효과적으로 전처리할 수 있습니다.

참고 문헌:

https://pandas.pydata.org/pandas-docs/stable/index.html
McKinney, Wes. (2017) “Python for Data Analysis”. O’Reilly Media.