[java] Jsoup을 사용하여 웹페이지 제목 크롤링하기

15 Nov 2023

java

이번 포스트에서는 Java를 사용하여 Jsoup 라이브러리를 이용해 웹페이지에서 제목을 크롤링하는 방법에 대해 알아보겠습니다.

Jsoup이란?

Jsoup은 Java에서 HTML 파싱 및 조작을 쉽게 할 수 있도록 도와주는 라이브러리입니다. Jsoup을 사용하면 웹페이지의 요소를 선택하고 조작할 수 있으며, 크롤링이나 데이터 스크래핑에도 효과적으로 사용될 수 있습니다.

사용 방법

먼저, 프로젝트에 Jsoup 라이브러리를 추가해야 합니다. Maven을 사용한다면 pom.xml 파일에 다음 의존성을 추가합니다:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

Dependency를 추가했다면 크롤링을 위한 코드를 작성해보겠습니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class WebpageCrawler {
    public static void main(String[] args) {
        try {
            // 크롤링할 웹페이지의 URL 지정
            String url = "https://example.com";
            
            // Jsoup을 사용하여 웹페이지 가져오기
            Document doc = Jsoup.connect(url).get();
            
            // 웹페이지에서 제목 요소 가져오기
            Element titleElement = doc.select("title").first();
            
            // 제목 출력
            System.out.println("웹페이지 제목: " + titleElement.text());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

이 코드에서는 지정된 URL의 웹페이지를 가져와서 Document 객체로 파싱합니다. 그리고 select() 메서드를 사용하여 웹페이지의 제목을 선택하고, text() 메서드를 이용해 제목을 추출하여 출력합니다.

실행 결과

실행하면 다음과 같은 결과가 출력됩니다:

웹페이지 제목: Example Domain

마무리

이번에는 Jsoup을 사용하여 Java로 웹페이지의 제목을 크롤링하는 방법에 대해 알아보았습니다. Jsoup은 HTML 파싱 및 조작에 매우 편리한 도구이므로, 웹 크롤링이나 스크래핑 작업을 한다면 유용하게 사용될 수 있습니다. 더 많은 기능과 API는 Jsoup 공식 문서를 참고하시기 바랍니다.