시계열 데이터를 예측하는 모델의 성능을 평가하기 위해 사용되는 여러 가지 평가 지표들이 있습니다. 이번 포스트에서는 가장 일반적으로 사용되는 시계열 예측 평가 지표와 각각의 특징에 대해 살펴보겠습니다.
1. 평균 절대 오차 (Mean Absolute Error, MAE)
MAE는 예측 값과 실제 값 간의 차이의 절대값의 평균을 계산한 값입니다. MAE가 낮을수록 예측 모델의 정확도가 높다고 볼 수 있습니다. MAE는 각 예측 값에 대해 동일한 가중치를 부여하기 때문에 이상치(outlier)에 민감할 수 있습니다.
수식으로 표현하면 다음과 같습니다:
MAE = (1/n) * Σ|예측값 - 실제값|
2. 평균 제곱 오차 (Mean Squared Error, MSE)
MSE는 예측 값과 실제 값 간의 차이의 제곱의 평균을 계산한 값입니다. MSE는 오차의 크기에 제곱을 취하기 때문에 MAE보다 이상치에 더 민감하게 반응합니다. 또한, 평균 제곱 오차는 제곱한 값이기 때문에 단위가 원래 값 보다 크게 나올 수 있습니다.
수식으로 표현하면 다음과 같습니다:
MSE = (1/n) * Σ(예측값 - 실제값)^2
3. 평균 제곱근 오차 (Root Mean Squared Error, RMSE)
RMSE는 MSE를 계산한 후에 다시 제곱근을 씌운 값입니다. MSE와는 달리 RMSE는 예측 값과 실제 값 간의 차이를 실제 추세의 크기에 대해 해석할 수 있는 지표로써 사용됩니다.
수식으로 표현하면 다음과 같습니다:
RMSE = √MSE
성능 개선 방법
시계열 예측 모델의 성능을 개선하기 위해서는 다음과 같은 방법들을 고려할 수 있습니다:
-
Feature Engineering: 예측 모델에 입력되는 특성(feature)들을 조정하거나 새로운 특성들을 생성할 수 있습니다. 예를 들어, 시계열 데이터의 계절성을 고려하여 주기적인 특징이나 이동 평균과 같은 통계적 특징을 추가할 수 있습니다.
-
모델 선택 및 최적화: 시계열 데이터의 특성에 맞는 적절한 예측 모델을 선택하고 해당 모델의 하이퍼파라미터를 최적화하는 것이 중요합니다. 예를 들어, ARIMA, LSTM, Prophet 등의 다양한 예측 모델들을 실험하고 최적의 모델을 선택할 수 있습니다.
-
데이터 전처리: 시계열 데이터에는 결측치 처리, 이상치 제거, 스케일링 등의 전처리 과정이 중요합니다. 이러한 데이터 전처리 작업을 통해 모델이 더 정확한 예측을 할 수 있도록 도와줍니다.
-
앙상블 기법: 다양한 예측 모델을 조합하여 예측 결과를 결합하는 앙상블 기법을 사용할 수 있습니다. 예를 들어, 다수의 모델의 예측 결과를 평균화하거나 가중 평균화하여 더 정확한 예측을 할 수 있습니다.
이와 같은 평가 지표와 성능 개선 방법을 활용하여 시계열 예측 모델의 정확도를 향상시킬 수 있습니다.
References
- Towards Data Science - Evaluating Time Series Forecasting Models
- MetricWizard - Time Series Forecasting Performance Measures
- Machine Learning Mastery - How to Evaluate Machine Learning Models with Time Series Forecasting