[java] Apache Tika PDF 추출

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서를 처리하고 텍스트 추출하는 Java 라이브러리입니다. 이 라이브러리를 사용하면 PDF 문서의 텍스트를 쉽게 추출할 수 있습니다.

이번 포스트에서는 Apache Tika를 사용하여 Java 코드에서 PDF 문서의 텍스트를 추출하는 방법을 살펴보겠습니다.

Apache Tika 설치

먼저, Maven을 사용하여 Apache Tika를 프로젝트에 추가합니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

의존성을 추가한 후 Maven 프로젝트를 업데이트하면 Apache Tika가 프로젝트에 추가됩니다.

PDF 문서에서 텍스트 추출하기

이제 Apache Tika를 사용하여 PDF 문서에서 텍스트를 추출하는 방법을 알아보겠습니다. 아래는 간단한 Java 코드 예제입니다.

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class PdfTextExtractor {
    public static void main(String[] args) {
        try {
            InputStream input = new FileInputStream("path/to/your/pdf/document.pdf");
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            Parser parser = new AutoDetectParser();
            parser.parse(input, handler, metadata, new ParseContext());
            System.out.println("Extracted text: " + handler.toString());
        } catch (IOException | TikaException | SAXException e) {
            e.printStackTrace();
        }
    }
}

위 코드에서 PDF 문서의 경로를 지정하고, Apache Tika를 사용하여 텍스트를 추출합니다.

마무리

이제 Apache Tika를 사용하여 Java에서 PDF 문서의 텍스트를 추출하는 방법에 대해 알아보았습니다. Apache Tika는 다양한 형식의 문서를 처리할 수 있는 강력한 도구이며, 텍스트 추출 뿐만 아니라 메타데이터 추출 등 다양한 기능을 제공합니다.

더 많은 정보를 원하시면 Apache Tika 공식 홈페이지를 방문하시기 바랍니다.