[java] Java에서 Jsoup 라이브러리 사용 방법
Java에서 웹 크롤링이나 HTML 파싱을 할 때 유용한 Jsoup 라이브러리에 대해 알아보겠습니다.
Jsoup이란?
Jsoup은 Java에서 HTML 문서를 파싱하고, 웹 사이트에서 데이터를 추출하는 라이브러리입니다. Jsoup을 사용하면 HTML 요소를 선택하고 조작할 수 있으며, 웹 페이지의 데이터를 쉽게 추출할 수 있습니다.
Jsoup 설치
Jsoup을 사용하기 위해 먼저 라이브러리를 설치해야 합니다. Maven이나 Gradle과 같은 빌드 도구를 사용하는 경우, pom.xml
이나 build.gradle
파일에 다음과 같은 의존성을 추가하면 됩니다.
// Maven
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.1</version>
</dependency>
// Gradle
implementation 'org.jsoup:jsoup:1.14.1'
라이브러리를 직접 추가할 경우에는 Jsoup 공식 사이트에서 최신 버전을 다운로드 받아 프로젝트에 추가합니다.
Jsoup 사용 예제
다음은 Jsoup을 사용하여 특정 웹 페이지에서 데이터를 추출하는 예제입니다.
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupExample {
public static void main(String[] args) {
try {
// 웹 페이지 로드
Document doc = Jsoup.connect("https://example.com").get();
// CSS 선택자를 사용하여 요소 선택
Elements paragraphs = doc.select("p");
// 선택한 요소에서 데이터 추출
for (Element paragraph : paragraphs) {
System.out.println(paragraph.text());
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
위 예제에서는 https://example.com
에서 페이지를 로드하고, <p>
태그의 내용을 추출하여 출력하는 것을 보여줍니다.
결론
Jsoup은 Java에서 HTML 파싱과 웹 크롤링에 유용한 라이브러리입니다. 간편한 사용법과 다양한 기능을 제공하여 웹 데이터 추출 작업을 편리하게 수행할 수 있습니다.
더 자세한 내용은 Jsoup 공식 문서를 참고하시기 바랍니다.