[java] Apache Tika 이미지 변환
Apache Tika 소개
Apache Tika는 다양한 형식의 파일에서 텍스트를 추출하는 역할을 하는 자바 라이브러리입니다. 이미지 파일에 있는 텍스트를 추출하는 데도 사용할 수 있습니다.
이미지 파일에서 텍스트 추출
먼저, Maven 또는 Gradle을 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. Maven을 사용하는 경우 다음과 같이 의존성을 추가할 수 있습니다:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.27</version>
</dependency>
Gradle을 사용하는 경우 다음과 같이 의존성을 추가할 수 있습니다:
implementation group: 'org.apache.tika', name: 'tika-core', version: '1.27'
implementation group: 'org.apache.tika', name: 'tika-parsers', version: '1.27'
그 다음, 다음 코드 조각을 사용하여 이미지 파일에서 텍스트를 추출할 수 있습니다.
import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class ImageTextExtractor {
public static void main(String[] args) throws Exception {
File file = new File("image.png");
Tika tika = new Tika();
try (InputStream stream = new FileInputStream(file)) {
String text = tika.parseToString(stream);
System.out.println(text);
}
}
}
위의 코드는 image.png
파일에서 텍스트를 추출하고 콘솔에 출력하는 간단한 예제입니다.
Apache Tika를 사용하여 이미지 파일에서 텍스트를 추출하는 방법에 대해 알아보았습니다. 이를 활용하여 이미지에 있는 텍스트를 검색하거나 분석하는 등의 작업을 수행할 수 있습니다.