[go] Go 언어에서의 웹 스크래핑 방법

07 Dec 2023

웹 스크래핑은 웹 페이지에서 데이터를 추출하는 기술로, Go 언어도 이를 위한 강력한 기능을 제공합니다. 이번 포스트에서는 Go 언어에서의 웹 스크래핑 방법을 알아보겠습니다.

1. HTTP 요청 보내기

웹 스크래핑을 시작하기 전에 먼저 웹 페이지에 HTTP 요청을 보내야 합니다. Go 언어에서는 net/http 패키지를 사용하여 HTTP 요청을 보낼 수 있습니다. 예를 들어, 다음과 같이 GET 요청을 보내는 함수를 작성할 수 있습니다.

import (
	"fmt"
	"io/ioutil"
	"net/http"
)

func sendGetRequest(url string) ([]byte, error) {
	resp, err := http.Get(url)
	if err != nil {
		return nil, err
	}

	defer resp.Body.Close()

	body, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		return nil, err
	}

	return body, nil
}

위의 코드는 주어진 URL로 GET 요청을 보내고, 응답으로 받은 데이터를 바이트 슬라이스로 반환하는 함수입니다.

2. HTML 파싱하기

HTTP 요청을 보내고 웹 페이지의 데이터를 받았으면, 이제 해당 데이터를 파싱하여 필요한 정보를 추출해야 합니다. Go 언어에서는 golang.org/x/net/html 패키지를 사용하여 HTML을 파싱할 수 있습니다. 다음은 예시 코드입니다.

import (
	"fmt"
	"golang.org/x/net/html"
	"strings"
)

func parseHTML(htmlData []byte) {
	doc, err := html.Parse(strings.NewReader(string(htmlData)))
	if err != nil {
		fmt.Println("HTML 파싱 에러:", err)
		return
	}

	// 파싱된 HTML 문서를 순회하면서 필요한 정보 추출
	// ...

	// 예시: <title> 태그 내용 추출
	title := getElementByTag(doc, "title")
	if title != nil {
		fmt.Println("페이지 제목:", title.FirstChild.Data)
	}
}

func getElementByTag(n *html.Node, tag string) *html.Node {
	if n.Type == html.ElementNode && n.Data == tag {
		return n
	}

	for c := n.FirstChild; c != nil; c = c.NextSibling {
		if res := getElementByTag(c, tag); res != nil {
			return res
		}
	}

	return nil
}

위의 코드는 파싱된 HTML 문서를 순회하며 필요한 정보를 추출하는 함수를 보여줍니다. 이 예시에서는 <title> 태그의 내용을 추출하고 출력하고 있습니다. 실제로 필요한 정보는 해당 페이지의 구조에 따라 다를 수 있으니, 필요한 태그나 속성을 직접 추출하여 사용해야 합니다.

3. 웹 스크래핑의 한계

웹 스크래핑은 강력한 기술이지만, 악의적인 목적으로 사용될 수도 있고, 웹 사이트의 이용 약관에 위반될 수도 있습니다. 따라서 웹 스크래핑을 사용할 때는 항상 해당 웹 사이트의 이용 약관을 확인하고, 사이트 관리자의 허락을 받아야 합니다.

또한, 웹 페이지의 구조나 데이터 형식이 변경될 수 있으므로, 스크래핑 코드를 유지 관리하는 것이 중요합니다. 데이터를 정확하고 안정적으로 스크래핑하기 위해서는 주기적인 코드 업데이트와 테스트가 필요합니다.

마무리

Go 언어는 웹 스크래핑을 위한 강력한 도구를 제공합니다. 이번 포스트에서는 Go 언어로 HTTP 요청을 보내고, HTML을 파싱하여 웹 스크래핑하는 방법을 알아보았습니다. 앞으로 웹 스크래핑을 위해 Go 언어를 사용할 때 이 포스트를 참고하시기 바랍니다.

참고: