[java] Apache Tika 이미지 변환

Apache Tika 소개

Apache Tika는 다양한 형식의 파일에서 텍스트를 추출하는 역할을 하는 자바 라이브러리입니다. 이미지 파일에 있는 텍스트를 추출하는 데도 사용할 수 있습니다.

이미지 파일에서 텍스트 추출

먼저, Maven 또는 Gradle을 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. Maven을 사용하는 경우 다음과 같이 의존성을 추가할 수 있습니다:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.27</version>
</dependency>

Gradle을 사용하는 경우 다음과 같이 의존성을 추가할 수 있습니다:

implementation group: 'org.apache.tika', name: 'tika-core', version: '1.27'
implementation group: 'org.apache.tika', name: 'tika-parsers', version: '1.27'

그 다음, 다음 코드 조각을 사용하여 이미지 파일에서 텍스트를 추출할 수 있습니다.

import org.apache.tika.Tika;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class ImageTextExtractor {
    public static void main(String[] args) throws Exception {
        File file = new File("image.png");
        Tika tika = new Tika();
        
        try (InputStream stream = new FileInputStream(file)) {
            String text = tika.parseToString(stream);
            System.out.println(text);
        }
    }
}

위의 코드는 image.png 파일에서 텍스트를 추출하고 콘솔에 출력하는 간단한 예제입니다.

Apache Tika를 사용하여 이미지 파일에서 텍스트를 추출하는 방법에 대해 알아보았습니다. 이를 활용하여 이미지에 있는 텍스트를 검색하거나 분석하는 등의 작업을 수행할 수 있습니다.

참고 자료