[파이썬] 파이썬을 이용한 머신러닝 샘플 프로젝트
이번 블로그 포스트에서는 파이썬을 이용하여 간단한 머신러닝 샘플 프로젝트를 만들어보고자 합니다. 이 프로젝트는 주어진 데이터를 기반으로 특정 패턴을 학습하고, 학습된 모델을 사용하여 새로운 데이터를 예측하는 과정을 다룰 것입니다.
1. 데이터 수집
머신러닝 프로젝트를 시작하기 위해서는 데이터가 필요합니다. 이 예제에서는 간단한 붓꽃(iris) 데이터셋을 사용하겠습니다.
import pandas as pd
# 데이터셋 불러오기
data = pd.read_csv('iris.csv')
# 데이터 확인하기
print(data.head())
2. 데이터 전처리
데이터를 사용하기 전에 전처리 과정을 거쳐야 합니다. 예를 들어, 범주형 데이터를 수치형 데이터로 변환하는 작업이 필요할 수 있습니다.
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
# 입력 변수와 출력 변수를 나누기
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
# 범주형 데이터를 수치형 데이터로 변환하기
encoder = LabelEncoder()
y = encoder.fit_transform(y)
# 학습 데이터와 테스트 데이터로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
3. 모델 학습
이제 데이터 전처리가 끝났으니, 머신러닝 모델을 학습시킬 차례입니다. 이 예제에서는 사이킷런(scikit-learn) 라이브러리의 DecisionTreeClassifier를 사용하겠습니다.
from sklearn.tree import DecisionTreeClassifier
# Decision Tree 모델 생성 및 학습
model = DecisionTreeClassifier()
model.fit(X_train, y_train)
4. 모델 평가
학습된 모델을 사용하여 예측을 수행하고, 예측 결과를 평가합니다.
from sklearn.metrics import accuracy_score
# 테스트 데이터에 대한 예측 수행
y_pred = model.predict(X_test)
# 예측 결과 평가
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
5. 새로운 데이터 예측
모델이 학습되고 평가되었으므로, 이제 새로운 데이터에 대한 예측을 수행할 수 있습니다.
# 새로운 데이터 입력
new_data = pd.DataFrame([[5.1, 3.5, 1.4, 0.2]])
# 예측 수행
prediction = model.predict(new_data)
print("Prediction:", encoder.inverse_transform(prediction))
이상으로 머신러닝 샘플 프로젝트의 전체 과정을 소개하였습니다. 파이썬을 통해 머신러닝 프로젝트를 만드는 것은 간단하면서도 효과적인 방법입니다. 이를 통해 데이터를 분석하고 예측하는 기술을 익힐 수 있으며, 복잡한 문제도 해결할 수 있을 것입니다.