[python] Document Clustering

12 Dec 2023

문서 클러스터링은 비슷한 주제 또는 내용을 가진 문서들을 그룹으로 묶는 자연어 처리 기술입니다. 이 기술은 대량의 문서를 효율적으로 구성하고 분류하는 데 사용됩니다.

1. 클러스터링 알고리즘

여러 가지 클러스터링 알고리즘이 있으며, 그 중에서도 ‘k-평균 클러스터링’과 ‘계층적 클러스터링’이 주로 사용됩니다.

k-평균 클러스터링은 데이터를 k개의 클러스터로 묶는 알고리즘입니다. 클러스터 간의 거리차이를 최소화하여 데이터를 그룹화합니다.

from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(data)

계층적 클러스터링은 데이터를 상향식 또는 하향식으로 트리 구조로 묶는 알고리즘입니다. 클러스터 간의 거리 또는 연결성을 기준으로 클러스터를 형성합니다.

from scipy.cluster.hierarchy import linkage, dendrogram

문서 클러스터링은 정보검색, 텍스트 마이닝, 추천 시스템 등 다양한 분야에서 유용하게 활용됩니다. 또한, 사용자가 원하는 주제의 문서를 찾거나 관련 문서를 추천하는 데에도 활용됩니다.

문서 클러스터링은 많은 문서를 효율적으로 분류하고 구성하는 데에 유용한 도구입니다. 다양한 클러스터링 알고리즘을 익히고 활용하여 효과적인 문서 분석 및 관리에 활용할 수 있습니다.

참고문헌:

KMeans Documentation: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
Hierarchical Clustering Documentation: https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html