[java] Jsoup을 사용하여 웹페이지 응답 데이터 출력하기

15 Nov 2023

java

웹 크롤링이나 스크래핑을 하려면 웹페이지의 HTML을 파싱해서 필요한 데이터를 추출해야 합니다. Java에서는 Jsoup이라는 라이브러리를 사용하여 간단하게 웹페이지 응답 데이터를 가져올 수 있습니다. 이번 포스트에서는 Jsoup을 사용하여 웹페이지의 응답 데이터를 출력하는 방법을 소개하겠습니다.

Jsoup 설치

먼저, Jsoup을 사용하기 위해서는 해당 라이브러리를 추가로 설치해야 합니다. Maven을 사용하는 경우, pom.xml 파일에 아래와 같이 <dependency>를 추가합니다.

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

Gradle을 사용하는 경우, build.gradle 파일에 아래와 같이 의존성을 추가합니다.

implementation group: 'org.jsoup', name: 'jsoup', version: '1.13.1'

웹페이지 응답 데이터 가져오기

아래는 Jsoup을 사용하여 특정 URL의 웹페이지 응답 데이터를 가져와서 출력하는 예제 코드입니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebPageParser {
    public static void main(String[] args) {
        String url = "https://example.com";  // 가져올 웹페이지의 URL

        try {
            // Jsoup을 사용하여 웹페이지 응답 데이터를 가져옴
            Document doc = Jsoup.connect(url).get();

            // 가져온 데이터를 원하는 방식으로 파싱하여 출력
            Elements elements = doc.select("p");  // <p> 태그의 데이터만 추출
            for (Element element : elements) {
                System.out.println(element.text());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위의 예제 코드에서는 Jsoup.connect(url).get()을 사용하여 해당 URL에 GET 요청을 보내고, doc.select("p")를 사용하여 p 태그의 데이터만 추출합니다. 추출한 데이터는 반복문을 통해 하나씩 출력됩니다.

실행 결과

위의 예제 코드를 실행하면, 해당 웹페이지의 <p> 태그에 들어있는 텍스트 데이터가 출력됩니다. 가져올 웹페이지의 URL을 위의 예제 코드에서 https://example.com 부분에 원하는 URL로 변경하면 됩니다.