[python] scikit-learn을 활용한 K-means 군집화

안녕하세요! 이번 포스트에서는 파이썬의 scikit-learn 라이브러리를 사용하여 K-means 군집화를 수행하는 방법에 대해 알아보겠습니다.

1. K-means 군집화란?

K-means 군집화는 비지도 학습의 일종으로, 주어진 데이터를 K개의 군집으로 나누는 알고리즘입니다. 각 군집은 유사한 특성을 갖는 데이터들의 집합입니다. K-means 군집화는 데이터를 분석하거나 패턴을 찾는 데 사용될 수 있습니다.

2. scikit-learn의 K-means 군집화 사용하기

scikit-learn은 파이썬의 머신 러닝 라이브러리로, 다양한 머신 러닝 알고리즘과 도구들을 제공합니다. K-means 군집화를 수행하기 위해서는 scikit-learn의 KMeans 모듈을 사용할 수 있습니다.

아래는 scikit-learn을 이용한 K-means 군집화의 예제 코드입니다.

from sklearn.cluster import KMeans

# 데이터 생성
X = [[1, 2], [1, 4], [1, 0], [4, 2], [4, 4], [4, 0]]

# K-means 모델 초기화
kmeans = KMeans(n_clusters=2)

# 군집화 수행
kmeans.fit(X)

# 군집 결과 확인
labels = kmeans.labels_
centers = kmeans.cluster_centers_

print("군집 레이블:", labels)
print("군집 중심:", centers)

위 코드에서 X는 입력 데이터로, 2차원 좌표로 표현된 데이터 포인트들입니다. n_clusters 파라미터는 군집의 개수를 나타내며, fit 메서드를 호출하여 군집화를 수행합니다. labels 변수에는 각 데이터 포인트의 군집 레이블이, centers 변수에는 각 군집의 중심 좌표가 저장됩니다.

3. 참고 자료

이상으로 scikit-learn을 이용한 K-means 군집화에 대해 알아보았습니다. 감사합니다!