[java] Jsoup을 사용하여 웹페이지 텍스트 크롤링하기

이 글에서는 Jsoup 라이브러리를 사용하여 Java 언어로 웹페이지의 텍스트를 크롤링하는 방법에 대해 알아보겠습니다.

Jsoup이란?

Jsoup은 Java 언어로 작성된 HTML 파서 라이브러리입니다. 이 라이브러리를 사용하면 Java로 웹페이지의 HTML 요소를 쉽게 파싱하고 조작할 수 있습니다.

Jsoup 설치하기

Jsoup을 사용하기 위해서는 먼저 해당 라이브러리를 내려받아야 합니다. Maven을 사용하는 경우, pom.xml 파일에 다음 의존성을 추가하세요.

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

다운로드한 라이브러리를 직접 사용하려는 경우, Jsoup 홈페이지에서 JAR 파일을 내려받아 프로젝트에 추가하세요.

웹페이지 텍스트 크롤링하기

이제 Jsoup을 사용하여 웹페이지의 텍스트를 크롤링해보겠습니다. 예를 들어, “https://example.com”이라는 웹페이지의 본문 텍스트를 가져와 출력하는 코드는 다음과 같습니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class WebCrawler {
    public static void main(String[] args) throws IOException {
        // 웹페이지 URL 지정
        String url = "https://example.com";

        // Jsoup을 사용하여 웹페이지 파싱
        Document doc = Jsoup.connect(url).get();

        // 본문 요소에 접근하여 텍스트 추출
        Element body = doc.body();
        String text = body.text();

        // 텍스트 출력
        System.out.println(text);
    }
}

위 코드를 실행하면 해당 웹페이지의 텍스트가 콘솔에 출력됩니다.

참고 자료