[파이썬][scikit-learn] scikit-learn에서 계층적 클러스터링

05 Sep 2023

계층적 클러스터링은 비지도 학습 기법 중 하나로, 비슷한 속성을 갖는 데이터들을 그룹으로 묶는 분석 방법입니다. 이번 블로그 포스트에서는 scikit-learn 라이브러리를 사용하여 Python에서 계층적 클러스터링을 수행하는 방법에 대해 알아보겠습니다.

데이터 준비

먼저, 계층 클러스터링을 수행할 데이터를 준비해야 합니다. 예를 들어, 붓꽃 데이터셋을 사용해보겠습니다. scikit-learn에서는 내장된 붓꽃 데이터를 제공하므로 우리는 이를 활용하면 됩니다.

from sklearn.datasets import load_iris

# 붓꽃 데이터셋 로드
iris = load_iris()
X = iris.data

다음으로는 계층적 클러스터링 모델을 학습해보겠습니다. scikit-learn에서 제공하는 AgglomerativeClustering 클래스를 사용하면 간편하게 수행할 수 있습니다.

from sklearn.cluster import AgglomerativeClustering

# 계층적 클러스터링 모델 생성
model = AgglomerativeClustering(n_clusters=3)

# 모델 학습
model.fit(X)

여기서 n_clusters 파라미터를 통해 클러스터의 개수를 지정할 수 있습니다. 결과적으로 계층적 클러스터링은 데이터를 원하는 클러스터 수만큼 그룹으로 묶는 알고리즘입니다.

마지막으로, 계층적 클러스터링의 결과를 분석해보겠습니다. 총 세 개의 클러스터를 만들었으므로, 각 데이터 포인트가 어떤 클러스터에 속하는지 확인할 수 있습니다.

# 예측값 확인
labels = model.labels_
print(labels)

클러스터링 모델의 labels_ 속성을 통해 각 데이터 포인트의 클러스터 레이블을 확인할 수 있습니다.

이번 포스트에서는 scikit-learn을 활용하여 Python에서 계층적 클러스터링을 수행하는 방법에 대해 알아보았습니다. 이를 통해 다양한 데이터셋에 대해 비슷한 속성을 가지는 데이터들을 그룹화할 수 있습니다.

계층적 클러스터링은 데이터를 직관적으로 분석하고, 유사한 데이터끼리 묶을 수 있어 유용한 알고리즘입니다. 적절한 클러스터의 개수를 선택하고, 결과를 분석하는 것이 중요합니다.

더 많은 세부 사항은 scikit-learn 공식 문서를 참조하시기 바랍니다.