[go] 웹 스크래핑을 이용한 키워드 추출하기
많은 웹페이지에서 글을 쓰거나 검색을 할 때 특정 키워드를 추출해야 할 때가 있습니다. 이때 웹 스크래핑을 사용하면 효과적으로 키워드를 추출할 수 있습니다. 이번 블로그 포스트에서는 Go 언어로 웹 스크래핑을 이용하여 키워드를 추출하는 방법에 대해 알아보겠습니다.
필요한 라이브러리 설치하기
먼저, Go 언어로 웹 스크래핑을 하기 위해서는 goquery
라이브러리가 필요합니다. 이 라이브러리를 사용하여 HTML 문서를 파싱하고 키워드를 추출할 것입니다.
go get github.com/PuerkitoBio/goquery
웹페이지에서 키워드 추출하기
다음은 간단한 예제 코드를 통해 웹페이지에서 키워드를 추출하는 방법을 살펴봅시다.
package main
import (
"fmt"
"log"
"net/http"
"github.com/PuerkitoBio/goquery"
)
func main() {
// 웹페이지 요청하기
response, err := http.Get("https://example.com")
if err != nil {
log.Fatal(err)
}
defer response.Body.Close()
// HTML 문서 파싱하기
document, err := goquery.NewDocumentFromReader(response.Body)
if err != nil {
log.Fatal("Error loading HTTP response body. ", err)
}
// 키워드 추출하기
var keywords []string
document.Find("meta[name=keywords]").Each(func(index int, element *goquery.Selection) {
keyword, _ := element.Attr("content")
keywords = append(keywords, keyword)
})
// 추출된 키워드 출력하기
fmt.Println("Keywords:", keywords)
}
위 예제 코드는 https://example.com
에서 메타 태그에 정의된 키워드를 추출하는 간단한 예제입니다.
이제 웹 스크래핑을 통해 키워드를 추출하는 방법을 익혔습니다. 이를 응용하여 여러 웹페이지에서 키워드를 추출하거나 복잡한 패턴의 키워드를 추출하는 것도 가능합니다.
무엇보다도, 웹 스크래핑에 대한 사용 규정을 잘 숙지하고, 합법적인 방법으로만 사용해야 한다는 점을 명심해야 합니다.
참고문헌: