[R언어] 군집화 예시 데이터

26 Dec 2023

R언어

군집화(Clustering)는 데이터를 비슷한 속성을 가지고 있는 그룹으로 나누는 작업을 말합니다. R 언어에서는 여러 가지 군집화 알고리즘을 사용하여 이 작업을 수행할 수 있습니다. 군집화 알고리즘을 적용하기 전에, 예시 데이터를 사용하여 알고리즘을 시연해 보겠습니다.

예시 데이터 생성

가상의 예시 데이터를 생성해봅시다. 아래의 R 코드를 사용하여 2차원의 가상 데이터를 생성할 수 있습니다.

set.seed(123)
x <- matrix(rnorm(40), ncol=2)

이 코드는 평균이 0이고 표준편차가 1인 정규분포를 따르는 20개의 랜덤한 숫자를 2차원 행렬로 생성합니다.

시각화

생성한 데이터를 시각화하여 어떻게 분포되어 있는지 살펴보겠습니다.

library(ggplot2)
df <- data.frame(x)
colnames(df) <- c("x1", "x2")
ggplot(df, aes(x=x1, y=x2)) + geom_point()

위 코드는 ggplot2 패키지를 사용하여 x1과 x2의 값을 산점도로 시각화합니다.

데이터 군집화

이제 kmeans 함수를 사용하여 데이터를 군집화해 보겠습니다.

kmeans_result <- kmeans(x, centers=3)
kmeans_result

위 코드에서 kmeans 함수는 데이터를 3개의 군집으로 나누고, 결과를 kmeans_result에 저장합니다.

이러한 예시 데이터와 코드를 사용하여 R 언어에서 군집화 작업을 진행할 수 있습니다.

참고 자료

R Documentation: kmeans
Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer.