[java] Jsoup을 사용하여 웹페이지 소스코드 추출하기

15 Nov 2023

java

소개

Jsoup은 Java에서 HTML 파싱을 쉽게 할 수 있는 오픈 소스 라이브러리입니다. 이 라이브러리는 웹페이지의 소스코드를 추출하거나 원하는 정보를 파싱하는 작업에 유용하게 사용됩니다. 이번 포스팅에서는 Jsoup을 사용하여 웹페이지의 소스코드를 추출하는 방법을 알아보겠습니다.

설정

먼저, 프로젝트에 Jsoup을 추가해야 합니다. Maven 프로젝트라면 pom.xml 파일에 다음과 같은 의존성을 추가하세요:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

Gradle 프로젝트라면 build.gradle 파일에 다음과 같이 추가하세요:

dependencies {
    implementation 'org.jsoup:jsoup:1.13.1'
}

웹페이지 소스코드 추출하기

이제 Jsoup을 사용하여 웹페이지의 소스코드를 추출해 보겠습니다. 다음은 간단한 예제 코드입니다:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class Main {
    public static void main(String[] args) {
        try {
            // 웹페이지 URL 설정
            String url = "https://www.example.com";
            
            // Jsoup을 사용하여 소스코드 추출
            Document doc = Jsoup.connect(url).get();
            String sourceCode = doc.html();
            
            // 소스코드 출력
            System.out.println(sourceCode);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위 코드에서는 Jsoup.connect(url).get()을 사용하여 웹페이지에 연결하고 소스코드를 추출한 후, doc.html()을 통해 추출한 소스코드를 문자열로 얻을 수 있습니다. 마지막으로 System.out.println()으로 소스코드를 출력합니다.

위 코드를 실행하면 해당 웹페이지의 소스코드가 콘솔에 출력됩니다.

결론

Jsoup은 Java에서 웹페이지의 소스코드를 추출하고 파싱하는 작업을 쉽게 할 수 있도록 도와주는 훌륭한 라이브러리입니다. 이를 활용하여 웹크롤링이나 웹 스크래핑 등의 작업을 수행할 수 있습니다. 위의 예제 코드를 참고하여 원하는 웹페이지의 소스코드를 추출해보세요.