[java] Jsoup을 사용하여 웹페이지 접속하기

15 Nov 2023

java

이번에는 Jsoup을 사용하여 Java에서 웹페이지에 접속하는 방법에 대해 알아보겠습니다. Jsoup은 Java로 작성된 HTML parsing 라이브러리로, 웹페이지에서 데이터를 추출하고 조작하는 데 사용됩니다.

Jsoup 라이브러리 가져오기

먼저, Jsoup 라이브러리를 프로젝트에 추가해야 합니다. 다음과 같이 Maven을 사용하는 경우, pom.xml 파일에 의존성을 추가합니다.

<dependencies>
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.13.1</version>
    </dependency>
</dependencies>

Gradle을 사용하는 경우, build.gradle 파일에 의존성을 추가합니다.

dependencies {
    implementation 'org.jsoup:jsoup:1.13.1'
}

의존성을 추가한 후, 프로젝트를 빌드하여 Jsoup 라이브러리를 가져옵니다.

웹페이지에 접속하기

이제 Jsoup을 사용하여 웹페이지에 접속해 보겠습니다. 다음은 “http://example.com” 웹페이지에 접속하는 예제 코드입니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class WebpageScraper {
    public static void main(String[] args) {
        String url = "http://example.com";

        try {
            // Jsoup을 사용하여 웹페이지에 접속
            Document doc = Jsoup.connect(url).get();

            // HTML 요소 추출
            Element titleElement = doc.getElementById("title");
            String title = titleElement.text();

            // 추출한 데이터 출력
            System.out.println("Title: " + title);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 예제 코드에서는 Jsoup.connect(url)을 통해 웹페이지에 접속하고, get() 메서드를 사용하여 페이지의 HTML을 가져옵니다. 그리고 getElementById() 메서드를 사용하여 원하는 HTML 요소를 추출한 후, 해당 요소의 텍스트를 출력합니다.

정리

이렇게 Jsoup을 사용하여 Java에서 웹페이지에 접속하는 방법을 알아보았습니다. Jsoup은 간편하고 강력한 HTML parsing 라이브러리로, 웹 크롤링이나 웹 스크래핑 등의 작업에 유용하게 사용할 수 있습니다. 더 많은 기능과 사용법은 Jsoup 공식 사이트에서 확인할 수 있습니다.

참고: 이 글은 Jsoup 1.13.1을 기준으로 작성되었습니다.

더 많은 Java 관련 기술 포스트를 보려면 Java 기술 블로그를 방문해주세요.