[java] Apache Tika 사용법

18 Dec 2023

java

Apache Tika는 텍스트, 메타데이터 및 기타 유형의 파일에서 컨텐츠를 추출하는 데 사용되는 오픈 소스 라이브러리입니다. Tika를 사용하면 다양한 종류의 파일에서 텍스트 정보나 메타데이터를 추출할 수 있습니다. 이 글에서는 Apache Tika를 사용하여 파일에서 텍스트 컨텐츠를 추출하는 방법을 알아보겠습니다.

Tika 설치

먼저, Maven을 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. 이를 위해 pom.xml 파일에 아래 의존성을 추가합니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

의존성을 추가한 후에 Maven 프로젝트를 업데이트하여 Tika를 다운로드하고 설치합니다.

Tika를 사용하여 텍스트 추출

다음은 Apache Tika를 사용하여 파일에서 텍스트를 추출하는 간단한 예제입니다.

import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class TikaExample {
    public static void main(String[] args) throws Exception {
        Tika tika = new Tika();
        File file = new File("path_to_your_file");
        InputStream stream = new FileInputStream(file);
        String text = tika.parseToString(stream);
        System.out.println(text);
    }
}

위 예제에서는 Tika 클래스를 사용하여 파일을 읽고, parseToString 메서드를 사용하여 파일에서 텍스트를 추출합니다. 추출된 텍스트는 콘솔에 출력됩니다.

결론

Apache Tika를 사용하면 다양한 형식의 파일에서 쉽게 텍스트나 메타데이터를 추출할 수 있습니다. Tika의 다양한 기능과 설정에 대해 더 알아보려면 공식 문서를 참고하세요.

Apache Tika 공식 사이트: https://tika.apache.org/

Apache Tika GitHub 저장소: https://github.com/apache/tika