[java] Apache Tika 텍스트 추출
Apache Tika는 다양한 형식의 문서에서 텍스트를 추출하는 Java 라이브러리입니다. 이를 사용하여 PDF, 워드문서, HTML 등 다양한 형식의 문서로부터 텍스트를 추출할 수 있습니다.
Apache Tika를 사용하기 위해서는 먼저 Tika 라이브러리를 다운로드하여 프로젝트에 추가해야 합니다. Maven을 사용하는 경우, pom.xml
파일에 다음과 같이 의존성을 추가할 수 있습니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
의존성을 추가한 후에는 아래와 같이 간단한 코드로 Apache Tika를 사용하여 텍스트를 추출할 수 있습니다.
import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
public class TextExtractor {
public static void main(String[] args) throws IOException {
Tika tika = new Tika();
File file = new File("path/to/your/document.pdf");
String text = tika.parseToString(new FileInputStream(file));
System.out.println(text);
}
}
위 코드에서 parseToString
메서드를 사용하여 특정 문서에서 텍스트를 추출하고, 그 결과를 문자열로 반환받을 수 있습니다.
Apache Tika를 사용하여 다양한 형식의 문서에서 텍스트를 추출할 수 있는 강력한 기능을 확인할 수 있습니다.
더 자세한 내용은 Apache Tika 공식 웹사이트를 참고하세요.
이상으로 Apache Tika를 사용하여 텍스트를 추출하는 방법에 대해 알아보았습니다.