[python] 파이썬 pandas에서 결측치를 처리하는 방법은 무엇인가요?

데이터프레임에서 결측치(missing values)는 존재하지 않는 데이터나 비어 있는 데이터를 의미하며, 이러한 결측치를 처리하는 방법에 대해 알아보겠습니다.

결측치 확인

먼저, 데이터프레임에서 결측치를 확인하기 위해 isnull() 메서드를 사용할 수 있습니다. 이 메서드는 데이터프레임의 각 요소가 결측치인지를 불리언(Boolean) 형태로 반환합니다.

import pandas as pd

# 데이터프레임 생성
data = {'A': [1, 2, None, 4], 'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 결측치 확인
print(df.isnull())

결측치 처리

결측치를 처리하는 방법으로는 제거, 대체, 보간 등의 방법이 있습니다.

결측치 제거

dropna() 메서드를 사용하여 결측치가 있는 행이나 열을 제거할 수 있습니다.

# 결측치가 있는 행 제거
df.dropna(axis=0, inplace=True)
# 결측치가 있는 열 제거
df.dropna(axis=1, inplace=True)

결측치 대체

fillna() 메서드를 사용하여 결측치를 다른 값으로 대체할 수 있습니다.

# 결측치를 0으로 대체
df.fillna(0, inplace=True)

보간

interpolate() 메서드를 사용하여 결측치를 인접한 값들을 이용해 선형적으로 보간할 수 있습니다.

# 선형 보간을 사용하여 결측치 보간
df.interpolate(inplace=True)

결측치 처리는 데이터의 특성과 분석 목적에 따라 적절한 방법을 선택해야 합니다. 보다 자세한 내용은 판다스 공식 문서를 참조하시기 바랍니다.