[java] Apache Tika 파일 메타데이터
먼저, Maven 또는 Gradle과 같은 빌드 도구를 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. Maven을 사용하는 경우 아래와 같이 의존성을 추가할 수 있습니다:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.26</version>
</dependency>
이제 Apache Tika를 사용하여 파일로부터 메타데이터를 추출할 수 있습니다. 다음은 간단한 예제 코드입니다. 여기서는 PDF 파일의 메타데이터를 추출하는 방법을 보여줍니다:
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class MetadataExample {
public static void main(String[] args) throws Exception {
File file = new File("example.pdf");
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
ParseContext context = new ParseContext();
try (InputStream stream = new FileInputStream(file)) {
parser.parse(stream, handler, metadata, context);
}
// Print metadata
for (String name : metadata.names()) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
이 예제는 Apache Tika를 사용하여 PDF 파일의 메타데이터를 추출하고 콘솔에 출력하는 간단한 방법을 보여줍니다.
더 자세한 내용은 Apache Tika 공식 문서를 참조하십시오: Apache Tika Documentation