[java] Apache Tika HTML 처리

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서를 처리하는 Java 라이브러리입니다. HTML 문서를 읽고 추출하기 위해 Apache Tika를 사용하는 방법에 대해 알아보겠습니다.

Apache Tika 라이브러리 추가

먼저 Maven이나 Gradle과 같은 빌드 도구를 사용하여 Apache Tika를 프로젝트에 추가합니다. Maven의 경우 다음과 같이 의존성을 추가할 수 있습니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

Gradle을 사용하는 경우, 다음과 같이 의존성을 추가할 수 있습니다.

implementation 'org.apache.tika:tika-core:1.27'

HTML 문서 읽기

Apache Tika를 사용하여 HTML 문서를 읽고 텍스트를 추출하는 간단한 예제를 살펴보겠습니다.

import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class HtmlProcessor {
    public static void main(String[] args) throws Exception {
        File htmlFile = new File("example.html");
        Tika tika = new Tika();
        try (InputStream input = new FileInputStream(htmlFile)) {
            String text = tika.parseToString(input);
            System.out.println("Extracted text: " + text);
        }
    }
}

위 예제에서는 Tika 클래스의 parseToString 메서드를 사용하여 HTML 파일을 읽고 텍스트를 추출했습니다.

결과 확인

위 코드를 실행하면 HTML 문서에서 추출된 텍스트가 콘솔에 출력됩니다. 이를 통해 Apache Tika를 사용하여 HTML 문서에서 텍스트를 추출하는 방법을 확인할 수 있습니다.

Apache Tika 라이브러리 추가

HTML 문서 읽기

결과 확인

참고 자료