[python] 파이썬 PyTorch에서 데이터셋을 분할하고 교차 검증을 수행하는 방법은?

22 Nov 2023

python

PyTorch는 데이터셋을 효과적으로 분할하고 교차 검증을 수행하기 위한 다양한 도구를 제공합니다. 이를 통해 모델의 성능을 평가하고 최적의 hyperparameter를 선택할 수 있습니다. 이번 블로그 포스트에서는 PyTorch를 사용하여 데이터셋을 분할하고 교차 검증을 수행하는 방법에 대해 알아보겠습니다.

데이터셋 분할

데이터셋을 분할하는 가장 간단한 방법은 train_test_split 함수를 사용하는 것입니다. 이 함수는 데이터셋을 훈련 집합과 테스트 집합으로 나눌 수 있습니다. 다음은 예제 코드입니다:

from sklearn.model_selection import train_test_split

# 데이터셋 로딩
dataset = ...

# 데이터셋 분할
train_dataset, test_dataset = train_test_split(dataset, test_size=0.2, random_state=42)

train_test_split 함수는 test_size 매개변수를 사용하여 테스트 집합의 비율을 지정할 수 있습니다. random_state 매개변수는 재현성을 위해 사용되며 동일한 난수 발생 시드값을 사용하면 항상 동일한 분할이 생성됩니다.

K-Fold 교차 검증

K-Fold 교차 검증은 데이터셋을 K개의 폴드로 나누고 K번의 실험을 수행하여 모델의 성능을 평가하는 방법입니다. 각 실험에서는 한 폴드를 테스트 데이터로 사용하고 나머지 폴드를 훈련 데이터로 사용합니다. 이를 반복하여 모든 폴드에 대해 실험을 수행하고 평균 성능을 계산합니다. 다음은 K-Fold 교차 검증을 수행하는 예제 코드입니다:

from sklearn.model_selection import KFold

# 데이터셋 로딩
dataset = ...

# K-Fold 객체 생성
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# K-Fold 교차 검증
for train_idx, test_idx in kf.split(dataset):
    train_dataset = dataset[train_idx]
    test_dataset = dataset[test_idx]
    # 모델 학습 및 평가

n_splits 매개변수는 폴드의 개수를 지정합니다. shuffle 매개변수는 데이터셋을 섞을지 여부를 결정하며, random_state 매개변수는 재현성을 위해 사용됩니다.

Stratified K-Fold 교차 검증

Stratified K-Fold 교차 검증은 클래스의 분포가 유지되는 것을 보장하면서 데이터셋을 분할하는 방법입니다. 이는 불균형한 클래스 분포를 가진 문제에서 특히 유용합니다. 다음은 Stratified K-Fold 교차 검증을 수행하는 예제 코드입니다:

from sklearn.model_selection import StratifiedKFold

# 데이터셋 로딩
dataset = ...

# Stratified K-Fold 객체 생성
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Stratified K-Fold 교차 검증
for train_idx, test_idx in skf.split(dataset, labels):
    train_dataset, train_labels = dataset[train_idx], labels[train_idx]
    test_dataset, test_labels = dataset[test_idx], labels[test_idx]
    # 모델 학습 및 평가

Stratified K-Fold 교차 검증은 split 메서드에 추가로 클래스 레이블을 전달해야 합니다. 분할은 클래스 레이블에 대해 수행되며, 클래스의 비율이 보존된다는 점이 K-Fold와의 주요 차이점입니다.

위의 예제 코드를 통해 PyTorch에서 데이터셋을 효과적으로 분할하고 교차 검증을 수행하는 방법에 대해 알아보았습니다. 이를 통해 모델의 성능을 신뢰할 수 있는 방식으로 평가할 수 있습니다. PyTorch의 다양한 도구를 적절히 활용하여 최적의 모델을 개발하는 데 도움이 되길 바랍니다.

References

PyTorch 공식 문서: Dataset Split
scikit-learn 공식 문서: train_test_split, KFold, StratifiedKFold

TOC

데이터셋 분할

K-Fold 교차 검증

Stratified K-Fold 교차 검증

References