[java] Apache Tika 추출 기능

18 Dec 2023

java

Apache Tika는 다양한 형식의 파일에서 텍스트와 메타데이터를 추출하는 Java 라이브러리이다. 이 포스트에서는 Apache Tika를 사용하여 파일에서 데이터를 추출하는 방법에 대해 알아보겠다.

1. Apache Tika 라이브러리 추가

Apache Tika를 사용하기 위해서는 먼저 해당 라이브러리를 프로젝트에 추가해야 한다. Maven을 사용하는 경우, pom.xml 파일에 다음 의존성을 추가한다.

<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-core</artifactId>
   <version>1.26</version>
</dependency>
<dependency>
   <groupId>org.apache.tika</groupId>
   <artifactId>tika-parsers</artifactId>
   <version>1.26</version>
</dependency>

2. 파일에서 데이터 추출

간단한 예제로 텍스트 파일에서 텍스트와 메타데이터를 추출하는 방법을 살펴보겠다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class TikaExample {
    public static void main(String[] args) throws Exception {
        File file = new File("example.txt");
        InputStream input = new FileInputStream(file);
        Parser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        BodyContentHandler handler = new BodyContentHandler();
        ParseContext context = new ParseContext();

        parser.parse(input, handler, metadata, context);

        System.out.println("파일 내용: " + handler.toString());
        System.out.println("메타데이터: ");
        for(String name : metadata.names()) {
            System.out.println(name + ": " + metadata.get(name));
        }
    }
}

위 예제에서는 Apache Tika를 사용하여 example.txt 파일에서 텍스트와 메타데이터를 추출하는 방법을 보여주고 있다.

3. 결론

Apache Tika를 사용하면 다양한 형식의 파일에서 텍스트와 메타데이터를 쉽게 추출할 수 있다. 위의 예제를 참고하여 자신의 프로젝트에 Apache Tika를 통합해 보는 것을 권장한다.

더 많은 정보를 원한다면 Apache Tika 공식 웹사이트를 방문하면 도움이 될 수 있다.