[R언어] 계층적 군집화
목차
- 개요
- 계층적 군집화의 원리
- 계층적 군집화의 장단점
- R을 이용한 계층적 군집화 예제
- 마무리
1. 개요
계층적 군집화는 관측치들을 서로 유사한 군집으로 구분하는 데 사용되는 비지도 학습 알고리즘입니다. 이 방법은 데이터 내의 패턴을 이해하고 그림으로 시각화하는 데 유용합니다.
2. 계층적 군집화의 원리
계층적 군집화는 병합 군집화와 분할 군집화로 나뉩니다. 병합 군집화에서는 각 관측치가 하나의 군집으로 시작해 가장 유사한 군집을 병합하는 반면, 분할 군집화에서는 모든 관측치가 하나의 군집에서 시작하여 점차 작은 군집으로 분할됩니다.
3. 계층적 군집화의 장단점
장점:
- 계층적 군집화를 통해 데이터의 구조를 시각화할 수 있습니다.
- 군집 수를 미리 지정할 필요가 없습니다.
단점:
- 대규모 데이터셋에서는 계산 비용이 높을 수 있습니다.
- 군집이 한 번 형성되면 수정이 불가능합니다.
4. R을 이용한 계층적 군집화 예제
아래는 R의 hclust
패키지를 사용한 계층적 군집화 예제입니다.
# 데이터셋 불러오기
data <- read.csv("data.csv")
# 거리 행렬 계산
dist_matrix <- dist(data)
# 병합 군집화 수행
hierarchical_cluster <- hclust(dist_matrix)
# 덴드로그램 시각화
plot(hierarchical_cluster)
5. 마무리
계층적 군집화는 데이터의 구조를 시각적으로 이해하는 데 유용한 방법입니다. 하지만 대규모 데이터셋에는 적합하지 않을 수 있으므로 데이터의 특성을 고려하여 적절한 군집화 알고리즘을 선택해야 합니다.
참고 문헌:
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.