[java] Jsoup을 사용하여 웹페이지 내 이미지 URL 추출하기
이번에는 Jsoup 라이브러리를 사용하여 웹페이지에서 이미지 URL을 추출하는 방법에 대해 알아보겠습니다. Jsoup은 Java에서 HTML 파싱을 간편하게 해주는 라이브러리로, 웹 크롤링이나 스크래핑에 유용하게 사용됩니다.
1. Jsoup 라이브러리 추가하기
먼저, 프로젝트에 Jsoup 라이브러리를 추가해야 합니다. Maven을 사용한다면 pom.xml
파일에 다음과 같은 의존성을 추가하세요.
<dependencies>
...
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.2</version>
</dependency>
...
</dependencies>
Gradle을 사용한다면 build.gradle
파일에 다음과 같은 의존성을 추가하세요.
dependencies {
...
implementation 'org.jsoup:jsoup:1.14.2'
...
}
의존성 설정이 완료되었다면, Jsoup을 사용할 준비가 되었습니다.
2. 웹페이지에서 이미지 URL 추출하기
이제 Jsoup을 사용하여 웹페이지에서 이미지 URL을 추출할 수 있습니다. 다음은 간단한 예제 코드입니다.
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class ImageExtractor {
public static void main(String[] args) {
String url = "https://www.example.com"; // 웹페이지 URL
try {
Document doc = Jsoup.connect(url).get();
// img 태그 선택하기
Elements images = doc.select("img");
// 이미지 URL 출력하기
for (Element image : images) {
String imageUrl = image.attr("src");
System.out.println(imageUrl);
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
위의 코드는 지정된 URL의 웹페이지에서 img 태그를 선택하고, 각 img 태그의 src
속성값을 추출하여 출력합니다. 웹페이지의 다른 위치에서 이미지 URL을 추출하려면 doc.select()
메서드를 사용하여 다른 선택자를 지정하면 됩니다.