[python] 파이썬 pandas에서 테스트 데이터와 트레이닝 데이터를 분리하는 방법은 무엇인가요?

20 Dec 2023

데이터프레임의 train_test_split 함수를 사용하여 데이터를 분할할 수 있습니다. 이 함수는 트레이닝 데이터와 테스트 데이터를 원하는 비율로 나눌 수 있습니다.

from sklearn.model_selection import train_test_split

# 데이터프레임 분할
train_data, test_data = train_test_split(df, test_size=0.2, random_state=42)

위의 예제에서 df는 원본 데이터프레임이며, test_size 매개변수는 테스트 데이터의 비율을 나타냅니다. random_state는 데이터를 분할할 때 사용되는 랜덤 시드값을 나타냅니다.

이렇게 하면 트레이닝 데이터와 테스트 데이터가 각각 train_data와 test_data에 저장되어 분리됩니다.

이렇게 분리된 데이터를 사용하여 기계 학습 모델을 훈련시키고 테스트할 수 있습니다.