[java] Apache Tika PDF 변환
Apache Tika는 다양한 형식의 문서를 텍스트로 추출하는 Java 라이브러리입니다. PDF 파일을 텍스트로 추출하는데 유용하게 활용할 수 있습니다. 이번 글에서는 Apache Tika를 사용하여 PDF를 변환하는 방법에 대해 다루겠습니다.
Apache Tika 설치
Apache Tika는 Maven을 통해 간단히 추가할 수 있습니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.26</version>
</dependency>
의존성을 추가하고 Maven 프로젝트를 업데이트합니다.
PDF 변환 예제
아래는 Apache Tika를 사용하여 PDF를 변환하는 간단한 Java 예제입니다.
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class PdfConverter {
public static void main(String[] args) {
try {
InputStream input = new FileInputStream(new File("input.pdf"));
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
parser.parse(input, handler, metadata, context);
System.out.println("PDF 내용: " + handler.toString());
} catch (Exception e) {
e.printStackTrace();
}
}
}
위 예제에서는 Apache Tika의 AutoDetectParser
를 사용하여 PDF 파일을 추출하고, BodyContentHandler
를 이용하여 텍스트를 추출합니다.
결론
Apache Tika를 사용하면 PDF와 같은 다양한 형식의 문서를 쉽게 텍스트로 추출할 수 있습니다. 위의 예제를 참고하여 Apache Tika를 활용하여 PDF를 텍스트로 변환해보세요.
더 많은 정보는 Apache Tika 웹사이트에서 확인할 수 있습니다.