[R언어] 계층적 군집화

26 Dec 2023

R언어

계층적 군집화는 병합 군집화와 분할 군집화로 나뉩니다. 병합 군집화에서는 각 관측치가 하나의 군집으로 시작해 가장 유사한 군집을 병합하는 반면, 분할 군집화에서는 모든 관측치가 하나의 군집에서 시작하여 점차 작은 군집으로 분할됩니다.

3. 계층적 군집화의 장단점

장점:

계층적 군집화를 통해 데이터의 구조를 시각화할 수 있습니다.
군집 수를 미리 지정할 필요가 없습니다.

단점:

대규모 데이터셋에서는 계산 비용이 높을 수 있습니다.
군집이 한 번 형성되면 수정이 불가능합니다.

4. R을 이용한 계층적 군집화 예제

아래는 R의 hclust 패키지를 사용한 계층적 군집화 예제입니다.

# 데이터셋 불러오기
data <- read.csv("data.csv")

# 거리 행렬 계산
dist_matrix <- dist(data)

# 병합 군집화 수행
hierarchical_cluster <- hclust(dist_matrix)

# 덴드로그램 시각화
plot(hierarchical_cluster)

5. 마무리

계층적 군집화는 데이터의 구조를 시각적으로 이해하는 데 유용한 방법입니다. 하지만 대규모 데이터셋에는 적합하지 않을 수 있으므로 데이터의 특성을 고려하여 적절한 군집화 알고리즘을 선택해야 합니다.

참고 문헌:

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.

목차

1. 개요

2. 계층적 군집화의 원리

3. 계층적 군집화의 장단점

4. R을 이용한 계층적 군집화 예제

5. 마무리