[java] Apache Tika PDF 텍스트 추출
Apache Tika는 다양한 형식의 파일에서 텍스트, 메타데이터 및 구조화된 데이터를 추출하는 오픈 소스 라이브러리입니다. 이 블로그에서는 Apache Tika를 사용하여 Java로 PDF 파일에서 텍스트를 추출하는 방법에 대해 설명하겠습니다.
1. Apache Tika 라이브러리 추가
먼저, Maven을 사용하여 Apache Tika 라이브러리를 프로젝트에 추가합니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.27</version>
</dependency>
위의 의존성을 프로젝트의 pom.xml 파일에 추가하면 Apache Tika를 사용할 수 있습니다.
2. PDF 파일에서 텍스트 추출하기
다음은 Apache Tika를 사용하여 PDF 파일에서 텍스트를 추출하는 간단한 Java 코드 예제입니다.
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class PdfTextExtractor {
public static void main(String[] args) throws Exception {
File file = new File("path/to/your/file.pdf");
InputStream input = new FileInputStream(file);
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(-1);
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
parser.parse(input, handler, metadata, context);
String text = handler.toString();
System.out.println(text);
}
}
위의 코드는 Apache Tika를 사용하여 PDF 파일의 텍스트를 추출하는 간단한 예제입니다.
Apache Tika를 사용하여 PDF 파일에서 텍스트를 추출하는 방법에 대한 간단한 소개였습니다. 더 많은 정보를 원하시거나 다른 형식의 파일에서도 텍스트를 추출하는 방법을 알고 싶다면 Apache Tika 공식 웹사이트를 참고하시기 바랍니다.