[java] Apache Tika HTML 텍스트 추출

18 Dec 2023

java

Apache Tika를 사용하기 위해서는 먼저 Maven을 이용하여 Tika 라이브러리를 프로젝트에 추가해야 합니다.

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.27</version>
</dependency>

위와 같이 Maven 프로젝트의 의존성에 Tika 라이브러리를 추가합니다.

이제 다음과 같이 Java 코드를 작성하여 HTML 문서에서 텍스트를 추출할 수 있습니다.

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;

public class HtmlTextExtractor {
    public static void main(String[] args) {
        try {
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            FileInputStream inputstream = new FileInputStream(new File("example.html"));
            ParseContext pcontext = new ParseContext();

            HtmlParser htmlparser = new HtmlParser();
            htmlparser.parse(inputstream, handler, metadata, pcontext);
            
            System.out.println("문서 내용:" + handler.toString());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 코드에서는 Apache Tika의 HtmlParser 클래스를 사용하여 HTML 문서에서 텍스트를 추출하고 있습니다. 이를 실행하면 HTML 문서의 내용이 텍스트로 추출되어 출력됩니다.

이렇듯 Apache Tika를 사용하면 HTML 문서에서 텍스트를 쉽게 추출할 수 있습니다. 또한 Tika는 다양한 형식의 문서에서도 텍스트를 추출할 수 있는 강력한 도구입니다.

더 많은 정보를 원하시면 Apache Tika 사이트를 참조하시기 바랍니다.