[파이썬][scikit-learn] scikit-learn에서 결정 트리

05 Sep 2023

scikit learn

Scikit-learn은 파이썬에서 머신러닝 알고리즘을 구현하기 위한 강력한 라이브러리입니다. 이러한 라이브러리를 사용하면 간단하게 결정 트리를 구현하고 사용할 수 있습니다. 결정 트리는 분류와 회귀 작업에 사용되는 지도 학습 알고리즘 중 하나입니다. 이 블로그 포스트에서는 scikit-learn에서 결정 트리를 어떻게 구현하고 사용하는지 확인해보겠습니다.

설치 및 Import

먼저, scikit-learn을 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install scikit-learn

그리고 다음과 같이 필요한 패키지를 import합니다.

from sklearn import tree

데이터 준비

사전에 준비된 데이터셋을 사용하거나 직접 데이터를 생성하여 결정 트리 모델을 훈련시킬 수 있습니다. 일반적으로 데이터는 feature와 label로 구성됩니다. feature는 모델에 입력되는 독립 변수이고 label은 모델이 예측하려는 종속 변수입니다.

결정 트리 모델 생성

DecisionTreeClassifier 클래스를 사용하여 결정 트리 모델을 생성할 수 있습니다. 다음과 같은 방식으로 모델을 초기화합니다.

clf = tree.DecisionTreeClassifier()

훈련 데이터로 모델 학습

clf.fit() 메서드를 사용하여 모델을 훈련시킬 수 있습니다. 훈련 데이터는 feature와 해당하는 label로 구성되어 있어야 합니다.

clf.fit(X_train, y_train)

예측

훈련된 모델을 사용하여 예측을 수행할 수 있습니다. clf.predict() 메서드에 feature를 전달하여 예측값을 얻을 수 있습니다.

predictions = clf.predict(X_test)

모델 평가

훈련된 모델의 성능 평가는 여러 지표를 사용할 수 있습니다. 일반적으로 정확도(accuracy), 정밀도(precision), 재현율(recall) 등을 평가 지표로 사용합니다.

from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, predictions)

결과 분석

결정 트리 모델을 사용하여 얻은 결과를 분석할 수도 있습니다. export_graphviz를 사용하여 결정 트리를 시각화할 수 있습니다.

import graphviz

dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("decision_tree")

결정 트리를 시각화하면 모델이 어떻게 동작하는지 이해하는 데 도움이 됩니다.

scikit-learn에서 제공하는 결정 트리 알고리즘을 사용하여 머신러닝 모델을 구축할 수 있습니다. 이를 통해 다양한 분류 및 회귀 작업을 수행할 수 있으며, 이를 통해 데이터에 대한 통찰력을 얻을 수 있습니다.