[java] Apache Tika 메타데이터 추출
Apache Tika는 다양한 형식의 문서에서 메타데이터 및 텍스트를 추출하는 Java 라이브러리입니다. 이 라이브러리를 사용하면 다양한 형식의 파일에서 메타데이터를 추출할 수 있습니다. 이번 포스트에서는 Apache Tika를 사용하여 메타데이터를 추출하는 방법에 대해 알아보겠습니다.
Apache Tika 설치
Apache Tika를 사용하기 위해 먼저 이 라이브러리를 다운로드하고 설치해야 합니다. Maven을 사용하는 경우, 아래와 같이 의존성을 추가할 수 있습니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
Gradle을 사용하는 경우, 아래와 같이 의존성을 추가할 수 있습니다.
implementation 'org.apache.tika:tika-core:1.27'
Apache Tika를 사용한 메타데이터 추출 예제
다음은 Apache Tika를 사용하여 특정 파일의 메타데이터를 추출하는 간단한 예제 코드입니다.
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class MetadataExtractor {
public static void main(String[] args) throws Exception {
File file = new File("example.docx");
InputStream input = new FileInputStream(file);
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
parser.parse(input, handler, metadata, new ParseContext());
// Print metadata
for (String name : metadata.names()) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
위 예제 코드에서는 Apache Tika의 AutoDetectParser
를 사용하여 파일을 파싱하고, Metadata
객체를 사용하여 메타데이터를 추출하고 출력합니다.
결론
Apache Tika를 사용하면 다양한 형식의 문서에서 메타데이터를 추출할 수 있습니다. 이를 통해 문서 형식에 구애받지 않고 메타데이터를 효과적으로 처리할 수 있게 됩니다.
더 많은 정보를 얻고 싶다면 Apache Tika 홈페이지를 방문해 보세요.