[java] Jsoup을 사용하여 웹페이지 헤더 정보 추출하기

15 Nov 2023

java

이 블로그 포스트에서는 Jsoup 라이브러리를 사용하여 웹페이지의 헤더 정보를 추출하는 방법에 대해 알아보겠습니다.

Jsoup이란?

Jsoup은 Java 언어로 작성된 HTML 파싱 라이브러리입니다. 이 라이브러리를 사용하면 웹페이지의 HTML 요소를 쉽게 파싱하고 조작할 수 있습니다.

의존성 추가하기

먼저 프로젝트에 Jsoup 의존성을 추가해야 합니다. Maven 프로젝트의 경우 pom.xml 파일에 아래와 같이 의존성을 추가합니다.

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

Gradle 프로젝트의 경우 build.gradle 파일에 아래와 같이 의존성을 추가합니다.

dependencies {
    implementation 'org.jsoup:jsoup:1.14.3'
}

웹페이지 헤더 정보 추출하기

이제 Jsoup을 사용하여 웹페이지의 헤더 정보를 추출해보겠습니다. 아래는 간단한 예제 코드입니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class HeaderExtractor {
    public static void main(String[] args) {
        try {
            // 웹페이지 URL 설정
            String url = "https://example.com";
            
            // Jsoup을 사용하여 웹페이지 가져오기
            Document doc = Jsoup.connect(url).get();
            
            // 헤더 정보 추출하기
            String title = doc.title();
            String contentType = doc.contentType();
            
            // 추출한 헤더 정보 출력하기
            System.out.println("Title: " + title);
            System.out.println("Content-Type: " + contentType);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위 예제 코드에서는 https://example.com 웹페이지의 헤더 정보를 추출하여 출력합니다. doc.title()은 웹페이지의 제목을, doc.contentType()은 웹페이지의 컨텐츠 타입을 반환합니다.

정리

이번 포스트에서는 Jsoup을 사용하여 웹페이지의 헤더 정보를 추출하는 방법을 알아보았습니다. Jsoup은 간편한 API를 제공하여 HTML 파싱 작업을 쉽게 처리할 수 있습니다.

더 많은 Jsoup API와 기능에 대해서는 공식 문서를 참조하세요.

이제 여러분은 Jsoup을 사용하여 웹페이지의 헤더 정보를 추출할 수 있습니다. 웹 크롤링 및 스크래핑 작업을 수행할 때 많은 도움이 될 것입니다.