[java] Jsoup을 사용하여 HTML 요소 선택하기

HTML 문서에서 특정 요소를 선택하려면 Jsoup 라이브러리를 사용할 수 있습니다. Jsoup은 Java로 작성된 HTML 파싱 라이브러리로, HTML 문서를 파싱하고 특정 요소를 선택하는 기능을 제공합니다.

Jsoup 라이브러리 추가하기

먼저, 프로젝트에 Jsoup 라이브러리를 추가해야 합니다. Maven을 사용하는 경우, pom.xml 파일에 다음 의존성을 추가합니다:

<dependencies>
  <dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
  </dependency>
</dependencies>

Gradle을 사용하는 경우, build.gradle 파일에 다음 의존성을 추가합니다:

dependencies {
    implementation 'org.jsoup:jsoup:1.14.1'
}

의존성을 추가한 후, 프로젝트를 빌드하여 Jsoup 라이브러리를 가져옵니다.

HTML 요소 선택하기

Jsoup을 사용하여 HTML 문서에서 특정 요소를 선택하려면 다음 단계를 따릅니다:

  1. Jsoup을 사용하여 HTML 문서를 파싱합니다.
  2. 원하는 요소를 선택하는 CSS 선택자를 사용합니다.

다음은 Jsoup을 사용하여 HTML 문서에서 h1 요소를 선택하는 간단한 예제 코드입니다:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParser {
    public static void main(String[] args) {
        String html = "<html><head><title>제목</title></head><body><h1>안녕하세요</h1></body></html>";
        
        // HTML 문서 파싱
        Document doc = Jsoup.parse(html);
        
        // h1 요소 선택
        Elements h1Elements = doc.select("h1");
        
        // 선택된 요소 출력
        for (Element element : h1Elements) {
            System.out.println(element.text());
        }
    }
}

위의 코드는 주어진 HTML 문자열을 파싱하여 h1 요소를 선택하고, 선택된 요소의 텍스트를 출력합니다. 출력 결과는 "안녕하세요"가 됩니다.

Jsoup은 다양한 CSS 선택자를 사용하여 요소를 선택할 수 있으며, 자세한 내용은 Jsoup 공식 문서를 참조하시기 바랍니다.

결론

Jsoup을 사용하여 HTML 문서에서 요소를 선택하는 방법을 살펴보았습니다. Jsoup은 간편한 API와 다양한 기능을 제공하여 HTML 파싱 작업을 쉽게 수행할 수 있도록 도와줍니다. Jsoup을 사용하여 웹 스크래핑이나 데이터 추출 등 다양한 작업을 수행할 수 있습니다.