[java] Apache Tika 와 웹 스크래핑

17 Nov 2023

java

Apache Tika는 다양한 파일 형식에서 텍스트를 추출하는 자바 라이브러리입니다. 이것은 웹 스크래핑과 관련하여 단순한 HTML 구문 분석보다 훨씬 강력한 기능을 제공합니다. 이번 블로그 포스트에서는 Apache Tika를 사용하여 웹 스크래핑을 하는 방법에 대해 알아보겠습니다.

Apache Tika 설정

먼저, 프로젝트에 Apache Tika를 추가해야 합니다. Maven을 사용한다면 pom.xml 파일에 다음 의존성을 추가하세요:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.26</version>
</dependency>

Gradle을 사용한다면 build.gradle 파일에 다음 의존성을 추가하세요:

implementation 'org.apache.tika:tika-core:1.26'

HTML 스크래핑 예제

다음은 간단한 HTML 웹 페이지에서 텍스트를 추출하는 예제입니다. Apache Tika를 사용하여 URL에서 HTML을 다운로드하고, Tika를 이용하여 텍스트를 추출합니다.

import org.apache.tika.Tika;
import java.io.IOException;
import java.net.URL;

public class HtmlScraper {
    public static void main(String[] args) {
        String url = "https://www.example.com";
        Tika tika = new Tika();
        
        try {
            String htmlText = tika.parseToString(new URL(url));
            System.out.println(htmlText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

위 예제에서 https://www.example.com URL로부터 HTML을 다운로드하고, parseToString() 메소드를 사용하여 텍스트를 추출합니다. 이 추출된 텍스트는 콘솔에 출력됩니다.

추가 기능

Apache Tika는 다른 파일 형식에 대한 텍스트 추출 뿐만 아니라, 메타데이터 추출 및 언어 감지 등의 다른 유용한 기능도 제공합니다. 자세한 내용은 Apache Tika 문서를 참조하세요.

결론

Apache Tika를 사용하면 다양한 파일 형식에서 텍스트를 추출하는 데 편리하고 강력한 솔루션을 제공합니다. 웹 스크래핑을 할 때 HTML 구문 분석을 위해 Apache Tika를 적극 활용해 보세요.