[python] 데이터 결측치 처리하기

목차

  1. 결측치 확인
  2. 결측치 처리 방법
    • 평균값으로 대체
    • 중앙값으로 대체
    • 최빈값으로 대체
    • 제거

1. 결측치 확인

먼저 데이터에 어떤 결측치가 있는지 확인해야 합니다. 이를 위해 판다스(Pandas) 라이브러리를 사용할 수 있습니다. 다음과 같이 코드를 작성하여 결측치를 확인할 수 있습니다.

import pandas as pd

# 데이터프레임 df에서 결측치 확인
missing_values = df.isnull().sum()
print(missing_values)

2. 결측치 처리 방법

결측치를 처리하는 여러 가지 방법 중에서 일반적으로 사용되는 방법은 다음과 같습니다.

평균값으로 대체

# 'column' 열의 결측치를 해당 열의 평균값으로 대체
df['column'].fillna(df['column'].mean(), inplace=True)

중앙값으로 대체

# 'column' 열의 결측치를 해당 열의 중앙값으로 대체
df['column'].fillna(df['column'].median(), inplace=True)

최빈값으로 대체

# 'column' 열의 결측치를 해당 열의 최빈값으로 대체
df['column'].fillna(df['column'].mode()[0], inplace=True)

제거

# 결측치가 포함된 행을 제거
df.dropna(inplace=True)

결측치 처리 방법은 데이터의 특성에 따라 상황에 맞게 선택되어야 합니다. 이상적인 결측치 처리를 위해서는 해당 데이터와 도메인 지식을 고려해야 합니다.

따라서, 데이터 타입, 분포, 양 등의 특성을 고려하여 결측치를 적절히 처리해야 합니다.

이렇게 결측치를 처리함으로써 데이터의 왜곡을 줄이고 머신러닝 모델의 성능을 향상시킬 수 있습니다.