[go] 선택한 웹 요소에서 데이터 추출하기

08 Dec 2023

웹 스크래핑은 웹페이지에서 데이터를 추출하는 프로세스를 말합니다. Go 언어를 사용하여 웹 스크래핑을 수행하는 방법은 다양합니다. 본 포스트에서는 Go 언어의 Colly 라이브러리를 사용하여 웹 요소에서 데이터를 추출하는 방법을 알아보겠습니다.

Colly 라이브러리 설치하기

먼저, Colly 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Colly 라이브러리를 설치합니다.

go get github.com/gocolly/colly

Colly 라이브러리를 성공적으로 설치한 후, 코드에서 해당 라이브러리를 import하여 사용할 수 있습니다.

웹 요소에서 데이터 추출하기

다음은 Colly 라이브러리를 사용하여 특정 웹페이지에서 데이터를 추출하는 간단한 예제 코드입니다.

package main

import (
	"fmt"
	"github.com/gocolly/colly"
)

func main() {
	c := colly.NewCollector()

	c.OnHTML("h1", func(e *colly.HTMLElement) {
		fmt.Println("제목:", e.Text)
	})

	c.OnHTML("p", func(e *colly.HTMLElement) {
		fmt.Println("본문:", e.Text)
	})

	c.Visit("http://example.com")
}

위의 코드는 “http://example.com”에서 h1 태그와 p 태그의 내용을 추출하여 출력하는 예제입니다. OnHTML 함수를 사용하여 특정 태그의 내용을 추출하고, 그에 따른 동작을 정의할 수 있습니다. 이를 통해 간편하게 웹 요소에서 데이터를 추출할 수 있습니다.

결론

Go 언어의 Colly 라이브러리는 강력한 웹 스크래핑 도구로, 웹페이지에서 데이터를 쉽게 추출할 수 있게 해줍니다. 웹 크롤링 및 데이터 수집을 위한 많은 기능과 유연성을 제공하므로, 웹 개발자들에게 유용한 도구임은 분명합니다.