[java] Apache Tika 텍스트 추출 및 변환
Apache Tika는 다양한 형식의 문서에서 텍스트, 메타데이터, 그림 및 기타 구조화된 데이터를 추출하는 도구입니다. 다양한 형식의 파일에서 텍스트를 추출하거나, HTML, XML, 등의 포맷으로 변환할 수 있습니다.
Apache Tika를 사용하려면 먼저 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. Maven을 사용하는 경우 다음 종속성을 추가할 수 있습니다:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>[version]</version>
</dependency>
다음은 Apache Tika를 사용하여 텍스트를 추출하는 간단한 Java 코드의 예시입니다:
import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
public class TikaExample {
public static void main(String[] args) throws Exception {
Tika tika = new Tika();
File file = new File("path/to/your/file");
InputStream inputStream = new FileInputStream(file);
String text = tika.parseToString(inputStream);
System.out.println(text);
}
}
위 코드를 실행하면 지정된 파일에서 텍스트가 추출되어 콘솔에 출력됩니다.
Apache Tika를 사용하면 다양한 형식의 문서에서 손쉽게 텍스트를 추출하고 변환할 수 있습니다.
더 많은 정보를 원하신다면 Apache Tika 공식 웹사이트를 참조해 주세요.