[java] 자바 소켓 프로그래밍으로 구현한 웹 크롤링 및 데이터 수집 방법

08 Dec 2023

java

이번에는 자바 소켓 프로그래밍을 활용하여 웹 크롤링과 데이터 수집을 구현해보겠습니다. 웹 크롤링이란 웹 페이지에서 정보를 수집하는 프로세스를 말하며, 이를 통해 웹 사이트의 데이터를 수집하고 가공할 수 있습니다. 자바 소켓을 사용하면 HTTP 요청을 보내고 응답을 받아 데이터를 수집할 수 있습니다.

1. 소켓 프로그래밍을 이용한 HTTP 요청

먼저, 소켓을 이용하여 HTTP GET 요청을 보내는 방법에 대해 알아보겠습니다. 아래는 예제 코드입니다.

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.Socket;

public class HTTPClient {
    public static void main(String[] args) throws IOException {
        String host = "www.example.com";
        int port = 80;
        
        Socket socket = new Socket(host, port);
        
        PrintWriter writer = new PrintWriter(socket.getOutputStream());
        writer.println("GET / HTTP/1.1");
        writer.println("Host: " + host);
        writer.println();
        writer.flush();
        
        BufferedReader reader = new BufferedReader(new InputStreamReader(socket.getInputStream()));
        String line;
        while ((line = reader.readLine()) != null) {
            System.out.println(line);
        }
        
        reader.close();
        writer.close();
        socket.close();
    }
}

이 코드는 www.example.com으로 HTTP GET 요청을 보내고 응답을 받아 콘솔에 출력하는 간단한 예제입니다. 위 코드를 실행하면 웹 페이지의 HTML 데이터를 확인할 수 있습니다.

2. 데이터 수집과 파싱

이번에는 받은 응답 데이터에서 실제로 필요한 정보를 추출하는 방법에 대해 알아보겠습니다. HTML 데이터를 파싱하여 원하는 정보를 추출하기 위해, 자바에서는 Jsoup 라이브러리를 사용할 수 있습니다. Jsoup를 사용하여 HTML 페이지에서 필요한 데이터를 추출할 수 있습니다.

아래는 Jsoup를 사용하여 웹 페이지의 제목을 추출하는 예제 코드입니다.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebScraper {
    public static void main(String[] args) throws IOException {
        String url = "http://www.example.com";
        Document doc = Jsoup.connect(url).get();
        String title = doc.title();
        System.out.println("Title: " + title);
    }
}

이 코드를 실행하면 해당 웹 페이지의 제목을 콘솔에 출력할 수 있습니다.

이제 자바 소켓 프로그래밍을 사용하여 웹 크롤링과 데이터 수집을 구현하는 방법에 대해 알아보았습니다. 소켓을 이용해 HTTP 요청을 보내고 받은 응답 데이터를 Jsoup를 활용하여 가공하면 다양한 웹 페이지로부터 필요한 정보를 수집할 수 있습니다.

위 예제 코드를 참고하여 자신만의 웹 크롤러 및 데이터 수집기를 작성해 보세요!