[java] Apache Tika 파일 메타데이터

18 Dec 2023

java

먼저, Maven 또는 Gradle과 같은 빌드 도구를 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. Maven을 사용하는 경우 아래와 같이 의존성을 추가할 수 있습니다:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>

이제 Apache Tika를 사용하여 파일로부터 메타데이터를 추출할 수 있습니다. 다음은 간단한 예제 코드입니다. 여기서는 PDF 파일의 메타데이터를 추출하는 방법을 보여줍니다:

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class MetadataExample {
    public static void main(String[] args) throws Exception {
        File file = new File("example.pdf");

        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        ParseContext context = new ParseContext();

        try (InputStream stream = new FileInputStream(file)) {
            parser.parse(stream, handler, metadata, context);
        }

        // Print metadata
        for (String name : metadata.names()) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }
}

이 예제는 Apache Tika를 사용하여 PDF 파일의 메타데이터를 추출하고 콘솔에 출력하는 간단한 방법을 보여줍니다.

더 자세한 내용은 Apache Tika 공식 문서를 참조하십시오: Apache Tika Documentation