[java] Apache Tika PDF 변환

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서를 텍스트로 추출하는 Java 라이브러리입니다. PDF 파일을 텍스트로 추출하는데 유용하게 활용할 수 있습니다. 이번 글에서는 Apache Tika를 사용하여 PDF를 변환하는 방법에 대해 다루겠습니다.

Apache Tika 설치

Apache Tika는 Maven을 통해 간단히 추가할 수 있습니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.26</version>
</dependency>

의존성을 추가하고 Maven 프로젝트를 업데이트합니다.

PDF 변환 예제

아래는 Apache Tika를 사용하여 PDF를 변환하는 간단한 Java 예제입니다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class PdfConverter {
    public static void main(String[] args) {
        try {
            InputStream input = new FileInputStream(new File("input.pdf"));
            Parser parser = new AutoDetectParser();
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            ParseContext context = new ParseContext();
            parser.parse(input, handler, metadata, context);
            System.out.println("PDF 내용: " + handler.toString());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위 예제에서는 Apache Tika의 AutoDetectParser를 사용하여 PDF 파일을 추출하고, BodyContentHandler를 이용하여 텍스트를 추출합니다.

결론

Apache Tika를 사용하면 PDF와 같은 다양한 형식의 문서를 쉽게 텍스트로 추출할 수 있습니다. 위의 예제를 참고하여 Apache Tika를 활용하여 PDF를 텍스트로 변환해보세요.

더 많은 정보는 Apache Tika 웹사이트에서 확인할 수 있습니다.