[java] Apache Tika HTML 변환

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서를 처리하고 추출하기 위한 오픈 소스 도구입니다. 이를 사용하면 HTML 문서를 다른 형식으로 변환하는 데 도움을 받을 수 있습니다.

Apache Tika 설치하기

먼저 Apache Tika를 설치해야 합니다. Maven을 사용하는 경우, 아래와 같이 의존성을 추가할 수 있습니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

Maven을 사용하지 않는 경우 Apache Tika 다운로드 페이지에서 Tika 버전을 직접 다운로드하여 사용할 수 있습니다.

HTML 변환하기

Java 코드를 사용하여 HTML을 다른 형식으로 변환할 수 있습니다. 아래는 Apache Tika를 사용하여 HTML을 텍스트로 추출하는 예제 코드입니다.

import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.metadata.Metadata;
import java.io.FileInputStream;
import java.io.InputStream;

public class HtmlConversionExample {
    public static void main(String[] args) throws Exception {
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream("input.html")) {
            parser.parse(stream, handler, metadata);
            String text = handler.toString();
            System.out.println(text);
        }
    }
}

위의 코드에서 “input.html”은 변환하려는 HTML 파일의 경로로 대체해야 합니다.

다른 형식으로 변환

추출한 텍스트를 다른 형식으로 변환하려면 추가적인 처리가 필요합니다. 예를 들어, 추출된 텍스트를 PDF로 변환하기 위해서는 Apache PDFBox와 같은 라이브러리를 사용하여 새로운 PDF 문서를 생성해야 합니다.

마치며

Apache Tika를 사용하면 HTML과 같은 다양한 형식의 문서를 다루고 변환하는 것이 쉬워집니다. 이것은 다양한 데이터 형식을 처리해야 하는 애플리케이션 및 시스템에서 매우 유용할 수 있습니다. Apache Tika를 통해 문서 변환에 대한 다양한 요구 사항을 해결할 수 있습니다.