[java] Apache Tika 와 메타데이터 추출

Apache Tika는 Java 기반의 오픈 소스 라이브러리로, 다양한 형식의 문서에서 메타데이터와 텍스트를 추출하는 데 사용됩니다. 이를 통해 문서의 형식에 관계없이 일관된 방식으로 정보를 검색하고 활용할 수 있습니다.

Tika 설치

Apache Tika를 사용하기 위해 먼저 Tika JAR 파일을 다운로드받아 설치해야 합니다. 공식 웹사이트에서 최신 버전의 Tika JAR 파일을 다운로드 받을 수 있습니다.

메타데이터 추출

Tika를 사용하여 문서에서 메타데이터를 추출하는 방법은 매우 간단합니다. 다음은 Java 코드를 통해 Tika를 사용하여 메타데이터를 추출하는 예제입니다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class MetadataExtractor {
    public static void main(String[] args) {
        try {
            File file = new File("path/to/document");
            InputStream inputStream = new FileInputStream(file);
            Metadata metadata = new Metadata();
            AutoDetectParser parser = new AutoDetectParser();
            ParseContext parseContext = new ParseContext();
            BodyContentHandler handler = new BodyContentHandler();
            
            parser.parse(inputStream, handler, metadata, parseContext);
            
            String[] metadataNames = metadata.names();
            for(String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위의 코드에서 “path/to/document” 부분에는 추출하려는 문서의 경로를 지정해야 합니다. 코드를 실행하면 문서에서 추출된 메타데이터가 콘솔에 출력됩니다.

주요 메타데이터

일반적으로 다양한 형식의 문서에서 추출할 수 있는 주요 메타데이터는 다음과 같습니다.

위의 목록은 일반적인 메타데이터입니다. 실제 문서에 따라 더 많거나 적은 메타데이터가 포함될 수 있습니다.

참고 자료