[java] 롬복을 사용하여 자바 웹 크롤링을 어떻게 구현하고 사용할 수 있나요?

29 Nov 2023

java

본 글에서는 롬복(Lombok) 라이브러리를 사용하여 자바 웹 크롤링을 구현하고 사용하는 방법에 대해 설명합니다.

1. 롬복(Lombok) 소개

롬복은 자바 코드를 간결하게 작성할 수 있도록 도와주는 라이브러리입니다. 롬복은 Getter, Setter, Constructor 등의 보일러플레이트 코드를 자동으로 생성해줌으로써 개발자의 생산성을 향상시킵니다.

2. 롬복을 사용한 웹 크롤링 구현

2.1. 의존성 추가

먼저, 프로젝트의 pom.xml 파일에 롬복의 의존성을 추가해야 합니다.

<dependency>
    <groupId>org.projectlombok</groupId>
    <artifactId>lombok</artifactId>
    <version>1.18.20</version>
    <scope>provided</scope>
</dependency>

2.2. 웹 페이지 크롤링 모델 생성

웹 페이지에서 필요한 정보를 추출하기 위해서는 해당 정보를 저장할 모델 클래스가 필요합니다. 롬복을 사용하여 간편하게 모델 클래스를 생성할 수 있습니다. 아래의 예제는 웹 페이지에서 추출한 제목과 URL을 저장하기 위한 모델 클래스입니다.

import lombok.Data;

@Data
public class WebPageData {
    private String title;
    private String url;
}

@Data 어노테이션은 롬복이 Getter, Setter, Equals, ToString 등의 메서드를 자동으로 생성하도록 지정하는 어노테이션입니다.

2.3. 웹 페이지 크롤링

롬복을 사용하여 웹 페이지에서 데이터를 크롤링하는 예제를 살펴보겠습니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class WebCrawler {
    public static void main(String[] args) throws IOException {
        String url = "https://example.com";
        Document doc = Jsoup.connect(url).get();

        Elements links = doc.select("a[href]");
        List<WebPageData> webPageDataList = new ArrayList<>();

        for (Element link : links) {
            String linkUrl = link.attr("abs:href");
            String title = link.text();

            WebPageData webPageData = new WebPageData();
            webPageData.setUrl(linkUrl);
            webPageData.setTitle(title);

            webPageDataList.add(webPageData);
        }

        // 웹 페이지 데이터 활용
        for (WebPageData webPageData : webPageDataList) {
            System.out.println("Title: " + webPageData.getTitle());
            System.out.println("URL: " + webPageData.getUrl());
        }
    }
}

위 예제는 JSoup 라이브러리를 사용하여 웹 페이지의 링크를 추출하고, 추출한 정보를 WebPageData 모델에 저장한 뒤 출력하는 예제입니다.

3. 정리

롬복은 자바 코드 작성을 편리하게 만들어주는 라이브러리로, 웹 크롤링과 같은 작업에서도 사용될 수 있습니다. 롬복을 사용하면 Getter, Setter 등의 보일러플레이트 코드를 작성하지 않아도 되므로 코드의 가독성과 생산성을 높일 수 있습니다.

참고 자료: