[java] Java에서 Jsoup 라이브러리 사용 방법

Java에서 웹 크롤링이나 HTML 파싱을 할 때 유용한 Jsoup 라이브러리에 대해 알아보겠습니다.

Jsoup이란?

Jsoup은 Java에서 HTML 문서를 파싱하고, 웹 사이트에서 데이터를 추출하는 라이브러리입니다. Jsoup을 사용하면 HTML 요소를 선택하고 조작할 수 있으며, 웹 페이지의 데이터를 쉽게 추출할 수 있습니다.

Jsoup 설치

Jsoup을 사용하기 위해 먼저 라이브러리를 설치해야 합니다. Maven이나 Gradle과 같은 빌드 도구를 사용하는 경우, pom.xml이나 build.gradle 파일에 다음과 같은 의존성을 추가하면 됩니다.

// Maven
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

// Gradle
implementation 'org.jsoup:jsoup:1.14.1'

라이브러리를 직접 추가할 경우에는 Jsoup 공식 사이트에서 최신 버전을 다운로드 받아 프로젝트에 추가합니다.

Jsoup 사용 예제

다음은 Jsoup을 사용하여 특정 웹 페이지에서 데이터를 추출하는 예제입니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            // 웹 페이지 로드
            Document doc = Jsoup.connect("https://example.com").get();

            // CSS 선택자를 사용하여 요소 선택
            Elements paragraphs = doc.select("p");

            // 선택한 요소에서 데이터 추출
            for (Element paragraph : paragraphs) {
                System.out.println(paragraph.text());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위 예제에서는 https://example.com에서 페이지를 로드하고, <p> 태그의 내용을 추출하여 출력하는 것을 보여줍니다.

결론

Jsoup은 Java에서 HTML 파싱과 웹 크롤링에 유용한 라이브러리입니다. 간편한 사용법과 다양한 기능을 제공하여 웹 데이터 추출 작업을 편리하게 수행할 수 있습니다.

더 자세한 내용은 Jsoup 공식 문서를 참고하시기 바랍니다.