[java] Apache Tika 이미지 분석
Apache Tika는 다양한 형식의 파일에서 텍스트와 메타데이터를 추출하는 Java 라이브러리입니다. 이미지 처리를 위한 기능도 제공합니다. 이미지에서 텍스트를 추출하거나 메타데이터를 읽을 수 있습니다.
이미지에서 텍스트 추출
Tesseract OCR 엔진을 사용하여 Apache Tika로 이미지에서 텍스트를 추출할 수 있습니다.
import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class ImageTextExtractor {
public static void main(String[] args) throws Exception {
Tika tika = new Tika();
File imageFile = new File("image.jpg");
InputStream is = new FileInputStream(imageFile);
String text = tika.parseToString(is);
System.out.println("Extracted Text: " + text);
}
}
이미지 메타데이터 읽기
또한 Apache Tika를 사용하여 이미지의 메타데이터를 읽을 수 있습니다.
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class ImageMetadataReader {
public static void main(String[] args) throws Exception {
Parser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
Metadata metadata = new Metadata();
File imageFile = new File("image.jpg");
InputStream is = new FileInputStream(imageFile);
BodyContentHandler handler = new BodyContentHandler();
parser.parse(is, handler, metadata, context);
// Print all metadata
for (String name : metadata.names()) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
Apache Tika를 사용하면 이미지 파일에서 텍스트를 추출하고 메타데이터를 읽을 수 있어서 이미지 기반 정보 추출에 유용한 도구입니다.
참고: Apache Tika