[java] Apache Tika 와 정보 추출

Apache Tika는 다양한 파일 형식의 내용을 추출하는 데 사용되는 오픈 소스 라이브러리입니다. 이미지, 동영상, 문서 등의 다양한 형식의 파일로부터 텍스트, 메타데이터, 구조화된 데이터 등을 추출할 수 있습니다. 이번 포스트에서는 Apache Tika를 활용하여 Java 코드에서 정보를 추출하는 방법을 알아보겠습니다.

1. Apache Tika 라이브러리 추가

먼저 Maven 또는 Gradle과 같은 dependency management 도구를 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. 이를 위해 다음과 같은 종속성을 추가해줍니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>

2. 파일로부터 정보 추출하기

다음으로, Apache Tika를 사용하여 파일로부터 정보를 추출하는 코드를 작성해보겠습니다. 아래 예제는 특정 파일의 내용과 메타데이터를 추출하는 간단한 예제입니다.

import org.apache.tika.Tika;
import java.io.File;
import java.io.IOException;

public class TikaExample {

    public static void main(String[] args) throws IOException {
        // 파일 경로 설정
        String filePath = "path/to/your/file";
        
        // Tika 객체 생성
        Tika tika = new Tika();
        
        // 파일로부터 내용 추출
        String content = tika.parseToString(new File(filePath));
        System.out.println("Extracted Content:");
        System.out.println(content);

        // 파일로부터 메타데이터 추출
        Metadata metadata = new Metadata();
        tika.parse(new FileInputStream(new File(filePath)), metadata);
        System.out.println("Extracted Metadata:");
        for (String name : metadata.names()) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }
}

위의 예제에서는 Tika 객체를 사용하여 파일의 내용과 메타데이터를 추출하고 출력하는 방법을 보여줍니다. 코드를 실행하면 해당 파일의 내용과 메타데이터가 콘솔에 출력됩니다.

3. 추가적인 사용 예제

Apache Tika는 다양한 파일 형식을 지원하며, 각 파일 형식에 따라 다양한 정보를 추출할 수 있습니다. 아래는 다른 사용 예제들입니다.

결론

Apache Tika를 사용하면 다양한 파일 형식으로부터 내용과 메타데이터를 추출할 수 있습니다. 이번 포스트에서는 Apache Tika를 이용하여 Java 코드에서 파일로부터 정보를 추출하는 방법을 알아보았습니다. 추가적인 사용 예제를 통해 다양한 기능을 사용해보시기 바랍니다.

참고 자료