[java] Apache Tika 사용법
Apache Tika는 텍스트, 메타데이터 및 기타 유형의 파일에서 컨텐츠를 추출하는 데 사용되는 오픈 소스 라이브러리입니다. Tika를 사용하면 다양한 종류의 파일에서 텍스트 정보나 메타데이터를 추출할 수 있습니다. 이 글에서는 Apache Tika를 사용하여 파일에서 텍스트 컨텐츠를 추출하는 방법을 알아보겠습니다.
Tika 설치
먼저, Maven을 사용하여 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. 이를 위해 pom.xml
파일에 아래 의존성을 추가합니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
의존성을 추가한 후에 Maven 프로젝트를 업데이트하여 Tika를 다운로드하고 설치합니다.
Tika를 사용하여 텍스트 추출
다음은 Apache Tika를 사용하여 파일에서 텍스트를 추출하는 간단한 예제입니다.
import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class TikaExample {
public static void main(String[] args) throws Exception {
Tika tika = new Tika();
File file = new File("path_to_your_file");
InputStream stream = new FileInputStream(file);
String text = tika.parseToString(stream);
System.out.println(text);
}
}
위 예제에서는 Tika
클래스를 사용하여 파일을 읽고, parseToString
메서드를 사용하여 파일에서 텍스트를 추출합니다. 추출된 텍스트는 콘솔에 출력됩니다.
결론
Apache Tika를 사용하면 다양한 형식의 파일에서 쉽게 텍스트나 메타데이터를 추출할 수 있습니다. Tika의 다양한 기능과 설정에 대해 더 알아보려면 공식 문서를 참고하세요.
Apache Tika 공식 사이트: https://tika.apache.org/
Apache Tika GitHub 저장소: https://github.com/apache/tika