[python] 파이썬 pandas에서 이상치가 포함된 데이터를 처리하는 방법은 무엇인가요?

20 Dec 2023

python

가장 일반적인 방법 중 하나는 Tukey의 방법을 사용하여 이상치를 식별하고 처리하는 것입니다. 이를 위해 주요한 단계로는 다음과 같은 것들이 있습니다:

이상치 식별: Tukey의 방법으로 이상치를 식별합니다. 이를 위해 주로 사분위수 범위(IQR) 기법을 사용합니다. IQR은 제3사분위수(75번째 백분위수)와 제1사분위수(25번째 백분위수) 사이의 범위입니다.

Q1 = df['column_name'].quantile(0.25)
Q3 = df['column_name'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

이상치 처리: 식별된 이상치를 제거하거나 대체하는 등의 방법으로 처리합니다.

# 이상치를 제거
df = df[(df['column_name'] > lower_bound) & (df['column_name'] < upper_bound)]

# 이상치를 대체
df.loc[df['column_name'] < lower_bound, 'column_name'] = lower_bound
df.loc[df['column_name'] > upper_bound, 'column_name'] = upper_bound

시각화: 처리된 데이터를 시각화하여 이상치가 제대로 처리되었는지 확인합니다.

이상치를 처리하는 방법은 데이터의 특성에 따라 다를 수 있으며, 도메인 지식과 분석 목적에 따라 결정되어져야 합니다.

판다스(pandas)를 사용한 이상치 처리에 대한 자세한 내용은 아래의 참고 자료를 참고하시기 바랍니다.

판다스(pandas) 공식문서