[java] Apache Tika 텍스트 추출

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서에서 텍스트를 추출하는 Java 라이브러리입니다. 이를 사용하여 PDF, 워드문서, HTML 등 다양한 형식의 문서로부터 텍스트를 추출할 수 있습니다.

Apache Tika를 사용하기 위해서는 먼저 Tika 라이브러리를 다운로드하여 프로젝트에 추가해야 합니다. Maven을 사용하는 경우, pom.xml 파일에 다음과 같이 의존성을 추가할 수 있습니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

의존성을 추가한 후에는 아래와 같이 간단한 코드로 Apache Tika를 사용하여 텍스트를 추출할 수 있습니다.

import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class TextExtractor {
    public static void main(String[] args) throws IOException {
        Tika tika = new Tika();
        File file = new File("path/to/your/document.pdf");
        String text = tika.parseToString(new FileInputStream(file));
        System.out.println(text);
    }
}

위 코드에서 parseToString 메서드를 사용하여 특정 문서에서 텍스트를 추출하고, 그 결과를 문자열로 반환받을 수 있습니다.

Apache Tika를 사용하여 다양한 형식의 문서에서 텍스트를 추출할 수 있는 강력한 기능을 확인할 수 있습니다.

더 자세한 내용은 Apache Tika 공식 웹사이트를 참고하세요.

이상으로 Apache Tika를 사용하여 텍스트를 추출하는 방법에 대해 알아보았습니다.