[java] Apache Tika 와 프리젠테이션 처리

17 Nov 2023

java

Apache Tika는 다양한 형식의 문서, 이미지, 오디오, 비디오 등을 분석하고 추출하는 라이브러리입니다. 이번 포스트에서는 Apache Tika를 사용하여 프리젠테이션 파일을 처리하는 방법에 대해 알아보겠습니다.

Apache Tika란?

Apache Tika는 Apache 소프트웨어 재단에서 개발된 오픈 소스 라이브러리로, 다양한 형식의 파일에서 텍스트, 메타데이터, 구조 등을 추출할 수 있습니다. MS Office, PDF, HTML, XML, 이미지, 오디오, 비디오 등 다양한 파일 형식을 지원하며, 간단한 API를 통해 쉽게 사용할 수 있습니다.

프리젠테이션 처리하기

Apache Tika를 사용하여 프리젠테이션 파일을 처리하는 방법을 확인해봅시다.

1. Apache Tika 라이브러리 추가하기

프로젝트에 Apache Tika를 사용하기 위해서는 라이브러리를 추가해야 합니다. Maven을 사용하는 경우, pom.xml 파일에 다음 의존성을 추가해주세요.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

2. 프리젠테이션 파일 처리하기

프리젠테이션 파일을 처리하기 위해 Tika 클래스를 사용합니다. 다음은 예시 코드입니다.

import org.apache.tika.Tika;

public class PresentationProcessor {
    public static void main(String[] args) {
        Tika tika = new Tika();
        try {
            String content = tika.parseToString(new File("presentation.pptx"));
            System.out.println(content);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위 코드에서는 Tika 클래스의 parseToString() 메서드를 사용하여 프리젠테이션 파일에서 텍스트를 추출합니다. presentation.pptx 파일을 대상으로 추출한 텍스트를 콘솔에 출력합니다.

3. 메타데이터 추출하기

Apache Tika를 사용하면 프리젠테이션 파일의 메타데이터를 추출할 수도 있습니다. 다음은 예시 코드입니다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;

public class PresentationMetadataExtractor {
    public static void main(String[] args) {
        try {
            AutoDetectParser parser = new AutoDetectParser();
            Metadata metadata = new Metadata();
            ParseContext context = new ParseContext();
            BodyContentHandler handler = new BodyContentHandler();
            
            FileInputStream inputstream = new FileInputStream(new File("presentation.pptx"));
            parser.parse(inputstream, handler, metadata, context);
            inputstream.close();
            
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

위 코드에서는 AutoDetectParser 클래스를 사용하여 프리젠테이션 파일을 분석하고, Metadata 객체를 통해 추출한 메타데이터를 출력합니다.

마무리

Apache Tika를 사용하면 다양한 형식의 파일을 간편하게 처리할 수 있습니다. 이번 포스트에서는 Apache Tika를 활용하여 프리젠테이션 파일을 처리하는 방법을 소개했습니다. 추가적으로 Tika의 다른 기능과 자세한 사용법은 Apache Tika 공식 문서를 참고해주세요.