[파이썬] 딥러닝 모델의 하이퍼파라미터 튜닝

01 Sep 2023

python

딥러닝은 현재 많은 분야에서 성능을 크게 향상시킬 수 있는 강력한 도구입니다. 하지만 딥러닝 모델을 구성할 때 어떤 하이퍼파라미터를 사용하느냐에 따라 모델의 성능이 달라질 수 있습니다. 따라서 딥러닝 모델의 하이퍼파라미터를 효과적으로 튜닝하는 것은 매우 중요합니다.

하이퍼파라미터란?

하이퍼파라미터는 모델의 동작 방식을 결정하는 변수입니다. 대표적으로 학습률, 배치 크기, 은닉층의 개수와 크기, 드롭아웃 비율 등이 있습니다. 이들 하이퍼파라미터의 값에 따라 모델의 학습 속도와 성능이 크게 달라질 수 있습니다.

그리드 서치를 이용한 하이퍼파라미터 튜닝

하이퍼파라미터 튜닝의 대표적인 방법 중 하나는 그리드 서치(Grid Search)입니다. 이는 사전에 정해진 후보값들을 조합하여 최적의 하이퍼파라미터 조합을 찾는 방법입니다.

from sklearn.model_selection import GridSearchCV
from sklearn.neural_network import MLPClassifier

# 모델 초기화
model = MLPClassifier()

# 튜닝할 파라미터들 정의
params = {
    'hidden_layer_sizes': [(16,), (32,), (64,)],
    'activation': ['relu', 'tanh'],
    'solver': ['adam', 'sgd'],
    'learning_rate_init': [0.001, 0.01, 0.1]
}

# 그리드 서치 객체 생성
grid_search = GridSearchCV(estimator=model, param_grid=params, cv=3)

# 그리드 서치 수행
grid_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print("Best parameters found: ", grid_search.best_params_)

# 최적의 모델을 이용하여 예측 수행
y_pred = grid_search.predict(X_test)

위 예시 코드에서는 MLPClassifier를 사용하여 딥러닝 모델을 초기화합니다. 그리고 튜닝할 하이퍼파라미터들을 params 변수에 정의합니다. hidden_layer_sizes, activation, solver, learning_rate_init 등을 조합하여 후보값들로 설정합니다.

GridSearchCV를 이용하여 그리드 서치 객체를 생성한 후, fit() 메서드를 호출하여 그리드 서치를 수행합니다. 이렇게 하면 주어진 후보값들을 조합하여 가능한 모든 하이퍼파라미터 조합에 대해 모델을 학습하고 평가합니다.

그리고 best_params_ 속성을 통해 최적의 하이퍼파라미터 조합을 확인할 수 있습니다. 이를 이용하여 최적의 모델을 생성하고, 이 모델을 사용하여 예측을 진행할 수 있습니다.

랜덤 서치를 이용한 하이퍼파라미터 튜닝

그리드 서치는 가능한 모든 조합을 탐색하므로 조합의 개수가 많을수록 시간이 오래 걸립니다. 따라서 랜덤 서치(Random Search)를 사용하여 조합의 수를 줄이고 효율적으로 하이퍼파라미터를 탐색할 수 있습니다.

from sklearn.model_selection import RandomizedSearchCV
from sklearn.neural_network import MLPClassifier
from scipy.stats import randint as sp_randint

# 모델 초기화
model = MLPClassifier()

# 튜닝할 파라미터들 정의
params = {
    'hidden_layer_sizes': sp_randint(16, 128),
    'activation': ['relu', 'tanh'],
    'solver': ['adam', 'sgd'],
    'learning_rate_init': [0.001, 0.01, 0.1]
}

# 랜덤 서치 객체 생성
random_search = RandomizedSearchCV(estimator=model, param_distributions=params, n_iter=10, cv=3, random_state=42)

# 랜덤 서치 수행
random_search.fit(X_train, y_train)

# 최적의 하이퍼파라미터 출력
print("Best parameters found: ", random_search.best_params_)

# 최적의 모델을 이용하여 예측 수행
y_pred = random_search.predict(X_test)

위 예시 코드에서는 RandomizedSearchCV를 사용하여 랜덤 서치 객체를 생성합니다. 그리드 서치와 달리 param_distributions에 실제 값이 아닌 후보값의 분포를 설정해줍니다. 이렇게 하면 각 하이퍼파라미터의 값을 개별적으로 랜덤으로 생성하여 실험할 수 있습니다.

n_iter 매개변수를 이용하여 실험할 조합의 개수를 제한할 수 있습니다. 이로써 시간을 제한하면서도 효과적으로 최적의 하이퍼파라미터를 탐색할 수 있습니다.

결론

딥러닝 모델의 성능을 최대로 끌어올리고자 한다면 하이퍼파라미터 튜닝은 필수적입니다. 그리드 서치와 랜덤 서치를 이용하여 효율적으로 하이퍼파라미터를 탐색할 수 있습니다. 매우 시간이 소요되는 작업일 수 있으므로, 여러 가지 방법을 시도하며 적절한 하이퍼파라미터 조합을 찾는 것이 중요합니다.