[go] Go 언어로 데이터 시각화를 할 때 사용되는 차원 축소 기법들은 어떤 것들이 있는가?

07 Dec 2023

주성분 분석(Principal Component Analysis, PCA): 주성분 분석은 변수들 사이의 상관관계를 이용하여 데이터를 특성 벡터들로 표현하는 방법입니다. 즉, 고차원 데이터를 기존 변수들의 선형 조합으로 표현하는 것입니다.

import "github.com/matrixorigin/pdc"
import "fmt"

func main() {
    // 데이터 로드
    data := pdc.Float64Slices{{1.2, 2.4, 3.6}, {2.3, 4.5, 6.7}, {3.4, 6.7, 9.1}}

    // PCA 수행
    result := pdc.PCA(data)

    // 결과 출력
    fmt.Println(result)
}

다차원 척도법(Multidimensional Scaling, MDS): 다차원 척도법은 고차원 데이터를 저차원으로 변환하여 데이터들 간의 거리를 보존하는 방법입니다. 이를 통해 시각화를 할 때 데이터 간의 유사성을 시각적으로 표현할 수 있습니다.

import "github.com/sjwhitworth/golearn"
import "fmt"

func main() {
    // 데이터 로드
    instances, err := base.ParseCSVToInstances("data.csv", true)
    if err != nil {
        fmt.Println("Error:", err)
        return
    }

    // MDS 수행
    mds := manifold.NewMDS(2)
    reducedData := mds.FitTransform(instances)
    
    // 결과 출력
    fmt.Println(reducedData)
}

t-SNE(t-Distributed Stochastic Neighbor Embedding): t-SNE는 고차원 데이터를 저차원으로 투영하는 비선형 차원 축소 기법입니다. 주로 시각화를 위해 사용되며, 데이터의 군집 구조를 시각적으로 표현하는 데에 효과적입니다.

import "github.com/dmitryikh/tsne"
import "fmt"

func main() {
    // 데이터 로드
    data := [][]float64{{1.2, 2.4, 3.6}, {2.3, 4.5, 6.7}, {3.4, 6.7, 9.1}}

    // t-SNE 수행
    embeddings := tsne.New(b, 2, len(data)).EmbedData(data)
    
    // 결과 출력
    fmt.Println(embeddings)
}

이러한 차원 축소 기법들을 사용하여 고차원 데이터를 저차원으로 변환하고, 변환된 데이터를 시각화하여 데이터 속성이나 군집 구조 등을 더 잘 이해할 수 있습니다.

위 코드 예제에서는 몇 가지 Go 패키지를 사용하여 차원 축소를 수행하고 결과를 출력하는 방법을 보여주었습니다. 이 외에도 다른 패키지들이 존재하니 해당 패키지의 문서를 참고하면 좋습니다.

참고 자료: