[java] Jsoup을 사용하여 웹페이지 내 이미지 추출하기
이 글에서는 Java 프로그래밍 언어를 사용하여 Jsoup 라이브러리를 활용하여 웹페이지에서 이미지를 추출하는 방법에 대해 알아보겠습니다. Jsoup은 오픈 소스 Java HTML 파서로, HTML 문서를 파싱해서 원하는 정보를 추출하는 데 매우 유용합니다.
Jsoup 라이브러리 추가하기
먼저, Jsoup 라이브러리를 프로젝트에 추가해야 합니다. 이를 위해 Maven 또는 Gradle을 사용할 수 있습니다. Maven을 사용하는 경우, pom.xml
파일에 다음 종속성을 추가합니다:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
Gradle을 사용하는 경우, build.gradle
파일에 다음 종속성을 추가합니다:
dependencies {
implementation 'org.jsoup:jsoup:1.13.1'
}
웹페이지에서 이미지 추출하기
이제 Jsoup을 사용하여 웹페이지에서 이미지를 추출하는 방법을 살펴보겠습니다. 다음은 주어진 웹페이지에서 모든 이미지 URL을 추출하는 예제 코드입니다:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class ImageExtractor {
public static void main(String[] args) {
String url = "https://example.com/page";
try {
Document doc = Jsoup.connect(url).get();
Elements imgTags = doc.select("img");
for (Element img : imgTags) {
String imgUrl = img.absUrl("src");
System.out.println(imgUrl);
}
} catch (IOException e) {
e.printStackTrace();
}
}
}
위의 예제 코드를 실행하면 지정된 URL에서 모든 이미지의 URL을 화면에 출력하게 됩니다.
마무리
이제 여러분은 Jsoup을 사용하여 Java로 웹페이지에서 이미지를 추출하는 방법을 알게 되었습니다. 이 기술을 응용하여 웹 크롤링, 데이터 수집 등 다양한 작업에 활용할 수 있습니다. 자세한 내용은 Jsoup 공식 문서를 참조하시기 바랍니다.
이상으로 Jsoup을 이용한 웹페이지 내 이미지 추출에 대해 알아보았습니다. 읽어주셔서 감사합니다!
참고: