[go] Go 언어로 단어 토큰화를 수행하는 방법

07 Dec 2023

이번 포스트에서는 Go 언어를 사용하여 문장을 단어로 토큰화하는 방법에 대해 알아보겠습니다.

1. strings 패키지 사용하기

Go 언어는 strings 패키지를 제공하여 문자열을 다루는 기능을 제공합니다. 이를 활용하여 문장을 단어로 분리할 수 있습니다.

package main

import (
	"fmt"
	"strings"
)

func main() {
	sentence := "Go 언어로 단어 토큰화를 수행하는 방법"

	// 문장을 공백을 기준으로 단어로 분리
	words := strings.Split(sentence, " ")

	for _, word := range words {
		fmt.Println(word)
	}
}

위의 코드에서는 Split 함수를 사용하여 문장을 공백을 기준으로 단어로 분리하고, for 루프를 통해 각 단어를 출력합니다.

2. 정규표현식 사용하기

Go 언어는 regexp 패키지를 제공하여 정규표현식을 사용할 수 있습니다. 이를 활용하여 문장을 단어로 분리하는 방법도 있습니다.

package main

import (
	"fmt"
	"regexp"
)

func main() {
	sentence := "Go 언어로 단어 토큰화를 수행하는 방법"

	// 정규표현식을 사용하여 문장을 단어로 분리
	r := regexp.MustCompile(`\b\w+\b`)
	words := r.FindAllString(sentence, -1)

	for _, word := range words {
		fmt.Println(word)
	}
}

위의 코드에서는 FindAllString 함수를 사용하여 정규표현식에 맞는 단어를 찾고, 각 단어를 출력합니다. 정규표현식 \b\w+\b는 단어를 찾는 패턴을 나타냅니다.

마무리

위의 방법들은 Go 언어를 사용하여 문장을 단어로 토큰화하는 방법을 소개하였습니다. 각각의 방법은 공백을 기준으로 분리하거나 정규표현식을 사용하여 단어를 찾는 방법입니다. 적절한 방법을 선택하여 원하는 결과를 얻어보세요!

더 자세한 정보는 다음 문서들을 참고하세요: