[python] 특이값 처리 방법 소개

12 Dec 2023

python

특이값(Outlier)은 데이터 집합에서 일반적인 패턴에서 크게 벗어난 값을 의미합니다. 특이값은 주로 데이터 수집 과정에서 발생하는 오류, 이상치, 노이즈 등으로 인해 나타납니다. 특이값이 포함된 데이터는 모델의 정확도를 낮출 뿐만 아니라 잘못된 결론을 유도할 수 있기 때문에 이를 처리하는 것은 매우 중요합니다.

다음은 특이값을 처리하는 몇 가지 방법입니다.

1. 특이값 식별

특이값을 처리하기 전에 먼저 특이값을 식별해야 합니다. 주로 히스토그램, 상자 수염 그림(Boxplot), 이상치 검출 알고리즘 등을 사용하여 데이터를 시각화하고 특이값을 식별합니다.

import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 시각화
sns.boxplot(data=df['column'])
plt.show()

2. 특이값 대체 or 삭제

특이값이 식별되면 대체 또는 삭제하는 방법을 고려해야 합니다. 대체는 특이값을 대부분 값으로 대체하여 데이터의 분포를 유지하는 방법이며, 삭제는 특이값을 제거하여 데이터의 정확성을 유지하는 방법입니다.

# 평균 값으로 대체
df['column'].replace(특이값, df['column'].mean(), inplace=True)

# 특이값 삭제
df = df[df['column'] < 상위_이상치_경계]

3. 로버스트(robust) 통계 방법

로버스트 통계 방법은 특이값에 강건하고 안정적인 방법을 제공합니다. 중앙값(median)을 사용하는 등 로버스트 통계 방법을 적용하여 특이값을 처리할 수 있습니다.

# 중앙값으로 대체
df['column'].replace(특이값, df['column'].median(), inplace=True)

특이값 처리는 데이터 분석 및 모델링에서 중요한 단계이며, 적절한 방법을 선택하여 특이값을 처리하는 것이 중요합니다.

참고 문헌:

Rousseeuw, P.J., and Leroy, A.M. (1987). Robust Regression and Outlier Detection. John Wiley & Sons.