[java] Apache Tika 메타데이터 추출

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서에서 메타데이터 및 텍스트를 추출하는 Java 라이브러리입니다. 이 라이브러리를 사용하면 다양한 형식의 파일에서 메타데이터를 추출할 수 있습니다. 이번 포스트에서는 Apache Tika를 사용하여 메타데이터를 추출하는 방법에 대해 알아보겠습니다.

Apache Tika 설치

Apache Tika를 사용하기 위해 먼저 이 라이브러리를 다운로드하고 설치해야 합니다. Maven을 사용하는 경우, 아래와 같이 의존성을 추가할 수 있습니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

Gradle을 사용하는 경우, 아래와 같이 의존성을 추가할 수 있습니다.

implementation 'org.apache.tika:tika-core:1.27'

Apache Tika를 사용한 메타데이터 추출 예제

다음은 Apache Tika를 사용하여 특정 파일의 메타데이터를 추출하는 간단한 예제 코드입니다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class MetadataExtractor {
    public static void main(String[] args) throws Exception {
        File file = new File("example.docx");
        InputStream input = new FileInputStream(file);
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        parser.parse(input, handler, metadata, new ParseContext());
        
        // Print metadata
        for (String name : metadata.names()) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }
}

위 예제 코드에서는 Apache Tika의 AutoDetectParser를 사용하여 파일을 파싱하고, Metadata 객체를 사용하여 메타데이터를 추출하고 출력합니다.

결론

Apache Tika를 사용하면 다양한 형식의 문서에서 메타데이터를 추출할 수 있습니다. 이를 통해 문서 형식에 구애받지 않고 메타데이터를 효과적으로 처리할 수 있게 됩니다.

더 많은 정보를 얻고 싶다면 Apache Tika 홈페이지를 방문해 보세요.