[java] Jsoup을 사용하여 웹페이지 내 이미지 URL 추출하기

이번에는 Jsoup 라이브러리를 사용하여 웹페이지에서 이미지 URL을 추출하는 방법에 대해 알아보겠습니다. Jsoup은 Java에서 HTML 파싱을 간편하게 해주는 라이브러리로, 웹 크롤링이나 스크래핑에 유용하게 사용됩니다.

1. Jsoup 라이브러리 추가하기

먼저, 프로젝트에 Jsoup 라이브러리를 추가해야 합니다. Maven을 사용한다면 pom.xml 파일에 다음과 같은 의존성을 추가하세요.

<dependencies>
    ...
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.14.2</version>
    </dependency>
    ...
</dependencies>

Gradle을 사용한다면 build.gradle 파일에 다음과 같은 의존성을 추가하세요.

dependencies {
    ...
    implementation 'org.jsoup:jsoup:1.14.2'
    ...
}

의존성 설정이 완료되었다면, Jsoup을 사용할 준비가 되었습니다.

2. 웹페이지에서 이미지 URL 추출하기

이제 Jsoup을 사용하여 웹페이지에서 이미지 URL을 추출할 수 있습니다. 다음은 간단한 예제 코드입니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class ImageExtractor {
    public static void main(String[] args) {
        String url = "https://www.example.com"; // 웹페이지 URL

        try {
            Document doc = Jsoup.connect(url).get();

            // img 태그 선택하기
            Elements images = doc.select("img");

            // 이미지 URL 출력하기
            for (Element image : images) {
                String imageUrl = image.attr("src");
                System.out.println(imageUrl);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 코드는 지정된 URL의 웹페이지에서 img 태그를 선택하고, 각 img 태그의 src 속성값을 추출하여 출력합니다. 웹페이지의 다른 위치에서 이미지 URL을 추출하려면 doc.select() 메서드를 사용하여 다른 선택자를 지정하면 됩니다.

3. 참고 자료