[python] scikit-learn을 사용한 모델 튜닝

01 Dec 2023

python

이번 블로그 포스트에서는 scikit-learn을 사용하여 모델의 성능을 더욱 향상시키는 모델 튜닝에 대해 알아보겠습니다.

1. 모델 튜닝이란?

모델 튜닝은 모델의 하이퍼파라미터를 조정하여 모델의 성능을 최적화하는 과정을 말합니다. scikit-learn은 다양한 알고리즘을 제공하며, 이 알고리즘들의 성능을 향상시키기 위해서는 해당 알고리즘의 하이퍼파라미터를 최적화해야 합니다.

2. 모델 튜닝 방법

scikit-learn에서는 다양한 모델 튜닝 방법을 제공합니다. 가장 일반적으로 사용되는 방법은 그리드 서치(Grid Search)와 랜덤 서치(Random Search)입니다.

2.1 그리드 서치(Grid Search)

그리드 서치는 가능한 모든 조합을 탐색하여 최적의 조합을 찾는 방법입니다. 일정한 구간으로 파라미터를 나누고, 각 파라미터 값의 조합에 대해 모델을 학습하고 검증하는 과정을 거칩니다. 이를 통해 최적의 조합을 찾을 수 있습니다.

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# 파라미터 그리드 설정
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 5, 10],
}

# 그리드 서치 객체 생성
grid_search = GridSearchCV(RandomForestClassifier(), param_grid)

# 모델 학습 및 튜닝
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print(grid_search.best_params_)

2.2 랜덤 서치(Random Search)

랜덤 서치는 가능한 조합 중에서 랜덤하게 선택하여 탐색하는 방법입니다. 그리드 서치와 달리 모든 조합을 탐색하지 않기 때문에 탐색 과정이 더 빠르게 진행될 수 있습니다.

from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier

# 파라미터 그리드 설정
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 5, 10],
}

# 랜덤 서치 객체 생성
random_search = RandomizedSearchCV(RandomForestClassifier(), param_grid)

# 모델 학습 및 튜닝
random_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print(random_search.best_params_)

3. 참고 자료

scikit-learn 공식 문서: https://scikit-learn.org/stable/
GridSearchCV: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
RandomizedSearchCV: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html

이상으로 scikit-learn을 사용한 모델 튜닝에 대해 알아보았습니다. 적용해보며 모델의 성능을 최적화해보세요!