[python] 판다스를 이용한 결측치 처리

판다스(pandas)는 데이터 분석 및 조작을 위한 파이썬 라이브러리로, 수많은 유용한 기능을 제공합니다. 결측치(Missing values)는 데이터 분석에서 흔히 마주치는 문제 중 하나입니다. 이번 글에서는 판다스를 사용하여 결측치를 처리하는 방법을 알아보겠습니다.

1. 결측치 확인하기

import pandas as pd

# 데이터프레임 생성
data = {'A': [1, 2, None, 4], 'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 결측치 확인
print(df.isnull().sum())

2. 결측치 처리하기

2.1. 결측치 삭제하기

# 결측치가 있는 행 삭제
df.dropna(inplace=True)

# 결측치가 있는 열 삭제
df.dropna(axis=1, inplace=True)

2.2. 결측치 채우기

# 평균값으로 결측치 채우기
df.fillna(df.mean(), inplace=True)

# 특정 값으로 결측치 채우기
df.fillna(value=0, inplace=True)

판다스를 사용하면 데이터프레임의 결측치를 효과적으로 처리할 수 있습니다. 데이터 분석 작업 시 결측치에 대비하여 적절한 처리를 해 주는 것이 중요하므로, 판다스의 다양한 기능을 활용하여 데이터를 정확하게 분석할 수 있습니다.

참고문헌: