[python] 결측치 처리하기

결측치(missing data)는 데이터 분석에서 흔히 발생하는 문제입니다. 이러한 데이터에 대한 적절한 처리가 중요합니다. 이 글에서는 Python을 사용하여 결측치를 처리하는 방법에 대해 살펴보겠습니다.

1. 결측치 확인

가장 먼저, 데이터에서 결측치가 얼마나 있는지 확인해야 합니다. 이를 위해 pandas 라이브러리를 사용하여 데이터프레임에서 isnull() 메서드를 사용할 수 있습니다.

예시 코드:

import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({'A': [1, 2, None, 4],
                   'B': [None, 5, 6, 7],
                   'C': [8, 9, 10, 11]})

# 결측치 확인
print(df.isnull().sum())

2. 결측치 처리 방법

2.1. 결측치 삭제

가장 간단한 방법은 결측치가 포함된 행이나 열을 삭제하는 것입니다. dropna() 메서드를 사용하여 결측치가 있는 행 또는 열을 제거할 수 있습니다.

예시 코드:

# 결측치가 포함된 행 제거
df_dropped_rows = df.dropna(axis=0)

# 결측치가 포함된 열 제거
df_dropped_cols = df.dropna(axis=1)

2.2. 결측치 대체

또 다른 방법은 결측치를 다른 값으로 대체하는 것입니다. fillna() 메서드를 사용하여 결측치를 원하는 값으로 대체할 수 있습니다.

예시 코드:

# 결측치를 0으로 대체
df_filled_zero = df.fillna(0)

# 결측치를 평균값으로 대체
df_filled_mean = df.fillna(df.mean())

결론

Python을 사용하여 결측치를 처리하는 방법에 대해 간략히 살펴보았습니다. 데이터에 따라서 적절한 결측치 처리 방법을 선택하여 데이터 품질을 향상시킬 수 있습니다.