[java] Apache Tika 지원 형식

18 Dec 2023

java

Apache Tika는 다양한 파일 형식에서 텍스트, 메타데이터, 그림 등을 추출하는 라이브러리로서, Apache 라이센스로 배포되고 있습니다. Tika는 PDF, 문서 파일, 스프레드시트, 이미지, 오디오, 비디오 등 다양한 형식의 파일에서 정보를 추출할 수 있습니다.

Apache Tika가 지원하는 형식

Apache Tika는 수백 가지의 파일 형식을 지원하며, 주요 형식으로는 PDF, HTML, Microsoft Office 문서(Word, Excel, PowerPoint), OpenOffice 문서, Rich Text Format (RTF), XML 등이 있습니다. 또한, 특정 형식의 메타데이터나 텍스트를 추출하는 기능을 지원하며, 사용자가 정의한 형식의 컨텐츠를 추출할 수 있는 장점을 가지고 있습니다.

아래는 Apache Tika의 주요 형식 지원 목록입니다:

PDF
HTML
Microsoft Office 문서 (Word, Excel, PowerPoint)
OpenOffice 문서
Rich Text Format (RTF)
XML
그 밖의 다양한 형식 (e.g. EPUB, MP3, MP4 등)

Apache Tika 사용하여 텍스트 추출하기

다음은 Apache Tika를 사용하여 주어진 파일에서 텍스트를 추출하는 Java 코드의 예시입니다.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class TextExtractor {
    public static void main(String[] args) throws IOException, TikaException, SAXException {
        // 파일 경로 설정
        File file = new File("example.docx");
        
        // Tika 파서 초기화
        Parser parser = new AutoDetectParser();
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        
        // 파일 내 텍스트 추출
        try (FileInputStream inputstream = new FileInputStream(file)) {
            parser.parse(inputstream, handler, metadata, new ParseContext());
            System.out.println("추출된 텍스트: " + handler.toString());
        }
    }
}

위 코드는 Apache Tika를 사용하여 example.docx 파일에서 텍스트를 추출하는 예시입니다.

더 많은 파일 형식 및 기능에 대한 자세한 내용은 Apache Tika 공식 문서를 참고하시기 바랍니다.