[java] Apache Tika HTML 텍스트 추출
Apache Tika를 사용하기 위해서는 먼저 Maven을 이용하여 Tika 라이브러리를 프로젝트에 추가해야 합니다.
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>1.27</version>
</dependency>
위와 같이 Maven 프로젝트의 의존성에 Tika 라이브러리를 추가합니다.
이제 다음과 같이 Java 코드를 작성하여 HTML 문서에서 텍스트를 추출할 수 있습니다.
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;
public class HtmlTextExtractor {
public static void main(String[] args) {
try {
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.html"));
ParseContext pcontext = new ParseContext();
HtmlParser htmlparser = new HtmlParser();
htmlparser.parse(inputstream, handler, metadata, pcontext);
System.out.println("문서 내용:" + handler.toString());
} catch (IOException e) {
e.printStackTrace();
}
}
}
위 코드에서는 Apache Tika의 HtmlParser
클래스를 사용하여 HTML 문서에서 텍스트를 추출하고 있습니다. 이를 실행하면 HTML 문서의 내용이 텍스트로 추출되어 출력됩니다.
이렇듯 Apache Tika를 사용하면 HTML 문서에서 텍스트를 쉽게 추출할 수 있습니다. 또한 Tika는 다양한 형식의 문서에서도 텍스트를 추출할 수 있는 강력한 도구입니다.
더 많은 정보를 원하시면 Apache Tika 사이트를 참조하시기 바랍니다.