[R언어] R 언어를 활용한 군집화 실습
본 실습에서는 R 언어를 사용하여 군집화(클러스터링)를 수행하는 방법을 알아보겠습니다. 군집화는 데이터를 비슷한 특성을 갖는 그룹으로 나누는 작업으로, 비슷한 특성을 갖는 데이터들을 하나의 군집으로 묶는 것을 목표로 합니다.
필요한 패키지 설치
첫번째로, 군집화를 위해 필요한 R 패키지를 설치합니다. 아래의 코드를 사용하여 kmeans
, ggplot2
패키지를 설치합니다.
install.packages("ggplot2")
install.packages("stats")
데이터 준비
실습에 사용할 데이터를 불러오겠습니다. 이 예시에서는 iris 데이터셋을 사용하겠습니다.
data(iris)
iris_data <- iris[,1:4]
군집화 수행
이제, kmeans
함수를 사용하여 데이터를 군집화해 보겠습니다. 아래의 코드는 3개의 군집으로 데이터를 군집화하는 예시입니다.
set.seed(20)
kmeans_model <- kmeans(iris_data, centers = 3, nstart = 20)
군집화 결과 시각화
군집화된 결과를 시각화하여 보겠습니다. ggplot2
패키지를 사용하여 군집화된 결과를 시각화할 수 있습니다. 아래의 코드는 데이터를 시각화하는 예시입니다.
library(ggplot2)
iris_data_clustered <- cbind(iris_data, cluster = kmeans_model$cluster)
ggplot(iris_data_clustered, aes(Sepal.Length, Petal.Width, color = factor(cluster))) + geom_point()
이제, 여러분은 R 언어를 사용하여 간단한 군집화를 수행하고 시각화하는 방법을 배웠습니다.
참고문헌:
- R Documentation: https://www.r-project.org/
- “An Introduction to Statistical Learning” by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani