[java] Apache Tika PDF 텍스트 추출

18 Dec 2023

java

Apache Tika는 다양한 형식의 파일에서 텍스트, 메타데이터 및 구조화된 데이터를 추출하는 오픈 소스 라이브러리입니다. 이 블로그에서는 Apache Tika를 사용하여 Java로 PDF 파일에서 텍스트를 추출하는 방법에 대해 설명하겠습니다.

1. Apache Tika 라이브러리 추가

먼저, Maven을 사용하여 Apache Tika 라이브러리를 프로젝트에 추가합니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.27</version>
</dependency>

위의 의존성을 프로젝트의 pom.xml 파일에 추가하면 Apache Tika를 사용할 수 있습니다.

2. PDF 파일에서 텍스트 추출하기

다음은 Apache Tika를 사용하여 PDF 파일에서 텍스트를 추출하는 간단한 Java 코드 예제입니다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class PdfTextExtractor {
    public static void main(String[] args) throws Exception {
        File file = new File("path/to/your/file.pdf");
        InputStream input = new FileInputStream(file);
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler(-1);
        Metadata metadata = new Metadata();
        ParseContext context = new ParseContext();
        
        parser.parse(input, handler, metadata, context);
        
        String text = handler.toString();
        System.out.println(text);
    }
}

위의 코드는 Apache Tika를 사용하여 PDF 파일의 텍스트를 추출하는 간단한 예제입니다.

Apache Tika를 사용하여 PDF 파일에서 텍스트를 추출하는 방법에 대한 간단한 소개였습니다. 더 많은 정보를 원하시거나 다른 형식의 파일에서도 텍스트를 추출하는 방법을 알고 싶다면 Apache Tika 공식 웹사이트를 참고하시기 바랍니다.