[java] Apache Tika 이미지 분석

18 Dec 2023

java

Apache Tika는 다양한 형식의 파일에서 텍스트와 메타데이터를 추출하는 Java 라이브러리입니다. 이미지 처리를 위한 기능도 제공합니다. 이미지에서 텍스트를 추출하거나 메타데이터를 읽을 수 있습니다.

이미지에서 텍스트 추출

Tesseract OCR 엔진을 사용하여 Apache Tika로 이미지에서 텍스트를 추출할 수 있습니다.

import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class ImageTextExtractor {
    public static void main(String[] args) throws Exception {
        Tika tika = new Tika();
        File imageFile = new File("image.jpg");
        InputStream is = new FileInputStream(imageFile);
        String text = tika.parseToString(is);
        System.out.println("Extracted Text: " + text);
    }
}

이미지 메타데이터 읽기

또한 Apache Tika를 사용하여 이미지의 메타데이터를 읽을 수 있습니다.

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class ImageMetadataReader {
    public static void main(String[] args) throws Exception {
        Parser parser = new AutoDetectParser();
        ParseContext context = new ParseContext();
        Metadata metadata = new Metadata();
        File imageFile = new File("image.jpg");
        InputStream is = new FileInputStream(imageFile);
        BodyContentHandler handler = new BodyContentHandler();
        parser.parse(is, handler, metadata, context);
        
        // Print all metadata
        for (String name : metadata.names()) {
            System.out.println(name + ": " + metadata.get(name));
        } 
    }
}

Apache Tika를 사용하면 이미지 파일에서 텍스트를 추출하고 메타데이터를 읽을 수 있어서 이미지 기반 정보 추출에 유용한 도구입니다.

참고: Apache Tika