[java] Apache Tika 텍스트 추출 및 변환

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서에서 텍스트, 메타데이터, 그림 및 기타 구조화된 데이터를 추출하는 도구입니다. 다양한 형식의 파일에서 텍스트를 추출하거나, HTML, XML, 등의 포맷으로 변환할 수 있습니다.

Apache Tika를 사용하려면 먼저 Apache Tika 라이브러리를 프로젝트에 추가해야 합니다. Maven을 사용하는 경우 다음 종속성을 추가할 수 있습니다:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>[version]</version>
</dependency>

다음은 Apache Tika를 사용하여 텍스트를 추출하는 간단한 Java 코드의 예시입니다:

import org.apache.tika.Tika;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

public class TikaExample {
    public static void main(String[] args) throws Exception {
        Tika tika = new Tika();
        File file = new File("path/to/your/file");
        InputStream inputStream = new FileInputStream(file);
        String text = tika.parseToString(inputStream);
        System.out.println(text);
    }
}

위 코드를 실행하면 지정된 파일에서 텍스트가 추출되어 콘솔에 출력됩니다.

Apache Tika를 사용하면 다양한 형식의 문서에서 손쉽게 텍스트를 추출하고 변환할 수 있습니다.

더 많은 정보를 원하신다면 Apache Tika 공식 웹사이트를 참조해 주세요.