[머신러닝] 11. 군집분석
군집분석
-
- 군집화 (Clustering) 개념
- 유사한 속성들을 갖는 관측치들을 묶어 전체 데이터를 몇 개의 군집(그룹)으로 나누는 것
- 군집화 기준
- 동일한 군집에 소속된 관측치들은 서로 유사할수록 좋음
- 상이한 군집에 소속된 관측치들은 서로 다를수도 좋음 (군집 내 유사도 최대화 / 군집 간 유사도 최소화)
1. 유사도 척도
- 유클리디안 거리
- 맨하탄 거리
- 마할라노비스 거리
- 상관계수 거리
유클리디안 거리
맨하탄 거리
마할라노비스 거리
상관계수 거리
스피어만 상관계수 거리
2. 알고리즘
- 4가지 종류가 있음
계층적 군집화
- 핵심사항
K-평균 군집화 (K-Means Clustering)
- K-평균 군집화의 문제점
- 서로 다른 크기의 군집을 잘 찾아내지 못함
- 서로 다른 밀도의 군집을 잘 찾아내지 못함
- 지역적 패턴이 존재하는 군집을 판별하기 어려움
3. 최적의 군집 수 결정
평가 지표
- SSE (Sum of Squared Error)
- Silhouette 통계량