[java] Jsoup을 사용하여 웹페이지 텍스트 크롤링하기
이 글에서는 Jsoup 라이브러리를 사용하여 Java 언어로 웹페이지의 텍스트를 크롤링하는 방법에 대해 알아보겠습니다.
Jsoup이란?
Jsoup은 Java 언어로 작성된 HTML 파서 라이브러리입니다. 이 라이브러리를 사용하면 Java로 웹페이지의 HTML 요소를 쉽게 파싱하고 조작할 수 있습니다.
Jsoup 설치하기
Jsoup을 사용하기 위해서는 먼저 해당 라이브러리를 내려받아야 합니다. Maven을 사용하는 경우, pom.xml
파일에 다음 의존성을 추가하세요.
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.1</version>
</dependency>
다운로드한 라이브러리를 직접 사용하려는 경우, Jsoup 홈페이지에서 JAR 파일을 내려받아 프로젝트에 추가하세요.
웹페이지 텍스트 크롤링하기
이제 Jsoup을 사용하여 웹페이지의 텍스트를 크롤링해보겠습니다. 예를 들어, “https://example.com”이라는 웹페이지의 본문 텍스트를 가져와 출력하는 코드는 다음과 같습니다.
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
public class WebCrawler {
public static void main(String[] args) throws IOException {
// 웹페이지 URL 지정
String url = "https://example.com";
// Jsoup을 사용하여 웹페이지 파싱
Document doc = Jsoup.connect(url).get();
// 본문 요소에 접근하여 텍스트 추출
Element body = doc.body();
String text = body.text();
// 텍스트 출력
System.out.println(text);
}
}
위 코드를 실행하면 해당 웹페이지의 텍스트가 콘솔에 출력됩니다.