[java] Apache Tika 의 사용 예제

17 Nov 2023

java

Apache Tika는 다양한 형식의 문서를 처리하는 자바 라이브러리입니다. 텍스트 문서, 이미지, 동영상 등 다양한 형식의 파일에서 텍스트 추출, 메타데이터 추출 및 문서 형식 인식 기능을 제공합니다. 이번 예제에서는 Apache Tika를 사용하여 텍스트 문서에서 텍스트를 추출하는 방법을 알아보겠습니다.

Tika 설치

먼저 Apache Tika를 설치해야 합니다. 아래의 의존성을 Maven 프로젝트의 pom.xml 파일에 추가하여 Tika를 사용할 수 있습니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>

Tika로 텍스트 추출하기

아래는 Apache Tika를 사용하여 텍스트를 추출하는 간단한 예제 코드입니다.

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        // 텍스트를 추출할 파일 경로
        String filePath = "path/to/your/file";

        // Tika 객체 생성
        Tika tika = new Tika();

        try {
            // 파일로부터 텍스트 추출
            String extractedText = tika.parseToString(new File(filePath));
            System.out.println(extractedText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위의 코드는 Tika를 사용하여 지정된 파일에서 텍스트를 추출합니다. filePath 변수에 추출할 파일의 경로를 지정한 후, Tika 객체를 생성합니다. tika.parseToString() 메서드를 사용하여 파일로부터 텍스트를 추출하고, 추출된 텍스트를 출력합니다.

실행 결과

위의 예제 코드를 실행하면 지정된 파일에서 텍스트가 추출되어 콘솔에 출력됩니다.

This is the extracted text from the file.

결론

이번 예제에서는 Apache Tika를 사용하여 텍스트 문서에서 텍스트를 추출하는 방법을 알아보았습니다. Tika는 다양한 형식의 파일에서 텍스트 추출과 메타데이터 추출 등 다양한 기능을 제공하므로, 문서 처리에 유용한 도구입니다.

더 많은 정보를 알고 싶다면 Apache Tika 공식 홈페이지를 참고하십시오.