[python] scikit-learn을 사용한 피처 엔지니어링

01 Dec 2023

python

개요

피처 엔지니어링은 머신 러닝 알고리즘에 적합한 피처를 생성하는 과정입니다. 이는 원래의 데이터셋에 변형을 가해 새로운 속성을 만들거나 기존의 속성을 변형하여 모델의 성능을 향상시킬 수 있습니다. scikit-learn은 피처 엔지니어링을 쉽게 수행할 수 있는 다양한 기능을 제공합니다.

1. 데이터 전처리

데이터 전처리는 피처 엔지니어링의 첫 단계로, 데이터를 정제하고 모델에 적합한 형태로 변환하는 작업입니다. scikit-learn은 다음과 같은 기능을 제공합니다.

1.1. 피처 스케일링

데이터의 스케일이 매우 다른 경우, 일부 알고리즘은 스케일이 큰 피처에 영향을 받고 성능이 저하될 수 있습니다. 이를 방지하기 위해 scikit-learn은 피처 스케일링을 지원합니다. StandardScaler, MinMaxScaler, RobustScaler 등의 클래스를 사용하여 데이터의 스케일을 조정할 수 있습니다.

1.2. 범주형 데이터 인코딩

머신 러닝 모델은 수치형 데이터를 입력으로 받기 때문에, 범주형 데이터를 수치형으로 변환해야 합니다. scikit-learn은 LabelEncoder, OneHotEncoder, OrdinalEncoder 등의 클래스를 제공하여 범주형 데이터를 적절히 인코딩할 수 있습니다.

2. 피처 선택

피처 선택은 모델 성능에 영향을 미치는 피처들 중에서 가장 중요한 피처들을 선택하는 과정입니다. scikit-learn은 다양한 피처 선택 기법을 제공합니다. 예를 들면, SelectKBest, SelectFromModel, RFE 등의 클래스를 사용할 수 있습니다.

3. 피처 생성

피처 생성은 기존의 데이터를 기반으로 새로운 피처를 생성하는 과정입니다. 예를 들어, 텍스트 데이터에서 단어의 출현 빈도를 나타내는 피처를 생성할 수 있습니다. scikit-learn은 CountVectorizer, TfidfVectorizer, PolynomialFeatures 등의 클래스를 사용하여 다양한 피처 생성 기법을 지원합니다.

4. 예시 코드

아래는 scikit-learn을 사용하여 피처 엔지니어링을 수행하는 예시 코드입니다.

from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectKBest
from sklearn.feature_extraction.text import CountVectorizer

# 데이터 전처리 (피처 스케일링)
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

# 피처 선택
selector = SelectKBest(k=10)
selected_features = selector.fit_transform(data, target)

# 피처 생성
vectorizer = CountVectorizer()
word_counts = vectorizer.fit_transform(text_data)

결론

scikit-learn은 피처 엔지니어링을 쉽게 수행할 수 있는 다양한 기능을 제공합니다. 데이터 전처리, 피처 선택, 피처 생성 등의 작업을 통해 머신 러닝 모델의 성능을 향상시킬 수 있습니다.