[java] Apache Tika 소개
Apache Tika는 다양한 형식의 파일에서 텍스트와 메타데이터를 추출하는 오픈 소스 라이브러리입니다. Tika는 PDF, 문서, 스프레드시트, 프레젠테이션, 그림, 비디오, 오디오 등 다양한 형식의 파일에서 정보를 추출하는 기능을 제공합니다. 이러한 유연성 덕분에 Tika는 검색 엔진, 데이터 마이닝 도구, 문서 관리 시스템 등 다양한 응용 프로그램에서 널리 사용되고 있습니다.
Tika의 주요 기능
Apache Tika를 사용하면 다음과 같은 다양한 기능을 활용할 수 있습니다:
- 다양한 형식의 파일 처리: Tika는 PDF, HTML, XML, Microsoft Office 문서, OpenDocument 형식, ePub, 그리고 다른 형식의 파일에서 텍스트를 추출할 수 있습니다.
- 메타데이터 추출: Tika는 파일의 메타데이터(작성자, 날짜, 제목 등)를 추출하여 제공합니다.
- 자연어 처리 지원: Tika는 자연어 처리를 위한 기능을 제공하여 텍스트 데이터를 처리하고 분석할 수 있습니다.
Tika를 이용한 간단한 예제
다음은 Apache Tika를 사용하여 텍스트 파일에서 내용을 추출하는 간단한 Java 코드입니다:
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
public class TikaExample {
public static void main(String[] args) {
try {
Tika tika = new Tika();
InputStream inputStream = TikaExample.class.getResourceAsStream("/example.txt");
String text = tika.parseToString(inputStream);
System.out.println("Extracted text: " + text);
} catch (TikaException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
}
위 예제는 Apache Tika를 사용하여 “example.txt” 파일에서 텍스트를 추출하는 방법을 보여줍니다.