[python] SciPy를 사용하여 데이터 전처리하기

23 Nov 2023

python

이 블로그 포스트에서는 파이썬의 SciPy 라이브러리를 사용하여 데이터 전처리를 하는 방법에 대해 알아보겠습니다. 데이터 전처리는 데이터를 분석하기 전에 필요한 과정으로, 결측치 처리, 이상치 제거, 스케일링 등을 포함합니다.

1. 데이터 불러오기

import numpy as np
from scipy import stats

# 예시 데이터 생성
data = np.array([1, 2, 3, 4, 5, np.nan, 7, 8, 9])

# 결측치 처리
data_no_nan = stats.nanmedian(data)

2. 이상치 처리

# Z-score 기반 이상치 확인
z_scores = stats.zscore(data_no_nan)

# Z-score가 3보다 크거나 -3보다 작으면 이상치로 간주
outliers = np.where(np.abs(z_scores) > 3)

# 이상치 제거
data_no_outliers = np.delete(data_no_nan, outliers)

3. 스케일링

# Min-Max 스케일링
min_max_scaled = stats.minmax_scale(data_no_outliers)

# Standard 스케일링
standard_scaled = stats.zscore(data_no_outliers)

SciPy의 stats 모듈은 다양한 통계 함수와 메서드를 제공합니다. nanmedian 함수는 결측치를 제외한 중앙값을 계산합니다. zscore 함수는 Z-score를 계산하여 이상치를 확인하고, minmax_scale 함수는 Min-Max 스케일링을 적용합니다. 마지막으로 zscore 함수는 Standard 스케일링을 적용합니다.

이렇게 SciPy를 사용하여 데이터를 전처리할 수 있습니다. 데이터 전처리는 데이터 분석 과정에서 중요한 부분이므로 신중하게 처리해야 합니다.

더 자세한 내용은 SciPy 문서를 참고하십시오.