[java] Apache Tika PDF 추출
Apache Tika는 다양한 형식의 문서를 처리하고 텍스트 추출하는 Java 라이브러리입니다. 이 라이브러리를 사용하면 PDF 문서의 텍스트를 쉽게 추출할 수 있습니다.
이번 포스트에서는 Apache Tika를 사용하여 Java 코드에서 PDF 문서의 텍스트를 추출하는 방법을 살펴보겠습니다.
Apache Tika 설치
먼저, Maven을 사용하여 Apache Tika를 프로젝트에 추가합니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
의존성을 추가한 후 Maven 프로젝트를 업데이트하면 Apache Tika가 프로젝트에 추가됩니다.
PDF 문서에서 텍스트 추출하기
이제 Apache Tika를 사용하여 PDF 문서에서 텍스트를 추출하는 방법을 알아보겠습니다. 아래는 간단한 Java 코드 예제입니다.
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
public class PdfTextExtractor {
public static void main(String[] args) {
try {
InputStream input = new FileInputStream("path/to/your/pdf/document.pdf");
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(input, handler, metadata, new ParseContext());
System.out.println("Extracted text: " + handler.toString());
} catch (IOException | TikaException | SAXException e) {
e.printStackTrace();
}
}
}
위 코드에서 PDF 문서의 경로를 지정하고, Apache Tika를 사용하여 텍스트를 추출합니다.
마무리
이제 Apache Tika를 사용하여 Java에서 PDF 문서의 텍스트를 추출하는 방법에 대해 알아보았습니다. Apache Tika는 다양한 형식의 문서를 처리할 수 있는 강력한 도구이며, 텍스트 추출 뿐만 아니라 메타데이터 추출 등 다양한 기능을 제공합니다.
더 많은 정보를 원하시면 Apache Tika 공식 홈페이지를 방문하시기 바랍니다.