[python] 데이터 결측치 처리하기
목차
- 결측치 확인
- 결측치 처리 방법
- 평균값으로 대체
- 중앙값으로 대체
- 최빈값으로 대체
- 제거
1. 결측치 확인
먼저 데이터에 어떤 결측치가 있는지 확인해야 합니다. 이를 위해 판다스(Pandas) 라이브러리를 사용할 수 있습니다. 다음과 같이 코드를 작성하여 결측치를 확인할 수 있습니다.
import pandas as pd
# 데이터프레임 df에서 결측치 확인
missing_values = df.isnull().sum()
print(missing_values)
2. 결측치 처리 방법
결측치를 처리하는 여러 가지 방법 중에서 일반적으로 사용되는 방법은 다음과 같습니다.
평균값으로 대체
# 'column' 열의 결측치를 해당 열의 평균값으로 대체
df['column'].fillna(df['column'].mean(), inplace=True)
중앙값으로 대체
# 'column' 열의 결측치를 해당 열의 중앙값으로 대체
df['column'].fillna(df['column'].median(), inplace=True)
최빈값으로 대체
# 'column' 열의 결측치를 해당 열의 최빈값으로 대체
df['column'].fillna(df['column'].mode()[0], inplace=True)
제거
# 결측치가 포함된 행을 제거
df.dropna(inplace=True)
결측치 처리 방법은 데이터의 특성에 따라 상황에 맞게 선택되어야 합니다. 이상적인 결측치 처리를 위해서는 해당 데이터와 도메인 지식을 고려해야 합니다.
따라서, 데이터 타입, 분포, 양 등의 특성을 고려하여 결측치를 적절히 처리해야 합니다.
이렇게 결측치를 처리함으로써 데이터의 왜곡을 줄이고 머신러닝 모델의 성능을 향상시킬 수 있습니다.