[java] Apache Tika XML 텍스트 추출

18 Dec 2023

java

Apache Tika는 다양한 형식의 문서에서 텍스트, 메타데이터 및 구조화된 데이터를 추출하는 Apache 소프트웨어 재단의 오픈 소스 라이브러리입니다. 이 문서에서는 Apache Tika를 사용하여 XML 파일에서 텍스트를 추출하는 방법에 대해 설명하려고 합니다.

1. Apache Tika 라이브러리 추가

먼저, Apache Tika를 사용하기 위해 Maven 또는 Gradle과 같은 빌드 도구를 사용하여 프로젝트에 Apache Tika 라이브러리를 추가해야 합니다.

Maven을 사용하는 경우, pom.xml 파일에 다음 종속성을 추가합니다:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>

Gradle을 사용하는 경우, build.gradle 파일에 다음 의존성을 추가합니다:

implementation 'org.apache.tika:tika-core:1.26'

2. XML에서 텍스트 추출

이제 Apache Tika를 사용하여 XML 파일에서 텍스트를 추출할 수 있습니다. 다음은 간단한 Java 코드 예제입니다:

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class XmlTextExtractor {
    public static void main(String[] args) throws IOException, TikaException, SAXException {
        String xmlFilePath = "path_to_xml_file.xml";
        InputStream inputStream = new FileInputStream(xmlFilePath);
        BodyContentHandler handler = new BodyContentHandler();
        Metadata metadata = new Metadata();
        AutoDetectParser parser = new AutoDetectParser();
        parser.parse(inputStream, handler, metadata);
        System.out.println("XML에서 추출된 텍스트: " + handler.toString());
    }
}

위 예제에서는 AutoDetectParser를 사용하여 XML 파일을 파싱하고, BodyContentHandler를 사용하여 텍스트를 추출합니다. 마지막으로, 추출된 텍스트를 출력합니다.

요약

Apache Tika를 사용하여 XML 파일에서 텍스트를 추출하는 방법에 대해 살펴보았습니다. 이를 통해 다양한 형식의 문서를 처리하고 텍스트를 추출하는 데 유용한 도구를 사용할 수 있습니다.

더 많은 정보 및 자세한 내용은 Apache Tika 공식 웹사이트를 참조하십시오.