[파이썬] Scrapy 시각적 웹 스크레이퍼와 통합

06 Sep 2023

Scrapy

Scrapy는 파이썬으로 작성된 오픈 소스 웹 스크레이핑 프레임워크입니다. 기본적으로 HTML 소스코드를 기반으로 데이터를 수집하고 분석하는데 사용됩니다. 하지만 때로는 웹 페이지에서 시각적 요소들을 스크레이핑해야 하는 경우가 있습니다.

Scrapy는 자체적으로 시각적인 스크레이핑을 지원하지 않지만, 여러 다른 라이브러리와의 통합을 통해 이를 가능하게 할 수 있습니다.

Selenium과의 통합

Selenium은 웹 애플리케이션을 테스트하기 위해 사용되는 도구로, 웹 브라우저를 자동화하고 제어할 수 있습니다. Scrapy와 Selenium을 결합하여 시각적 웹 스크레이핑을 수행할 수 있습니다.

다음은 Selenium과 Scrapy를 함께 사용하여 시각적 요소를 스크레이핑하는 예제 코드입니다.

import scrapy
from selenium import webdriver

class MySpider(scrapy.Spider):
    name = 'my_spider'
    
    def __init__(self):
        self.driver = webdriver.Chrome()
    
    def start_requests(self):
        urls = [
            'http://example.com',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)
    
    def parse(self, response):
        self.driver.get(response.url)
        # Selenium을 사용하여 웹 페이지의 시각적 요소와 상호작용을 수행한다.
        # 예를 들어, 이미지 URL을 가져오려면:
        images = self.driver.find_elements_by_css_selector('img')
        for image in images:
            image_url = image.get_attribute('src')
            yield {'image_url': image_url}
        self.driver.quit()

위의 코드에서 Selenium의 webdriver를 사용하여 웹 브라우저를 자동으로 열고, 웹 페이지의 시각적 요소를 가져오는 작업을 수행합니다. 이후 yield 문을 사용하여 데이터를 반환합니다.

Splash와의 통합

Splash는 Scrapy와 함께 사용할 수 있는 JavaScript 렌더링 서비스입니다. Scrapy는 기본적으로 JavaScript를 실행하지 않기 때문에, JavaScript로 동적으로 생성되는 컨텐츠를 스크레이핑하기 어려울 수 있습니다. Splash를 사용하면 웹 페이지를 렌더링한 후에 스크레이핑할 수 있습니다.

다음은 Splash와 Scrapy를 함께 사용하여 시각적 요소를 스크레이핑하는 예제 코드입니다.

import scrapy
from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):
    name = 'my_spider'
    
    def start_requests(self):
        urls = [
            'http://example.com',
        ]
        for url in urls:
            yield SplashRequest(url=url, callback=self.parse)
    
    def parse(self, response):
        # Splash를 통해 렌더링된 HTML 소스코드를 분석한다.
        # 예를 들어, 이미지 URL을 가져오려면:
        images = response.css('img::attr(src)').getall()
        for image in images:
            yield {'image_url': image}

위의 코드에서 scrapy_splash 라이브러리의 SplashRequest를 사용하여 Splash 서버에 웹 페이지 렌더링을 요청하고, 반환된 HTML 소스코드를 분석하여 데이터를 가져옵니다.

결론

Scrapy는 기본적으로 HTML 소스코드를 기반으로 데이터를 스크레이핑하는 프레임워크지만, Selenium과 Splash와의 통합을 통해 시각적 웹 스크레이핑도 가능합니다. 이를 통해 보다 다양한 웹 페이지에서 데이터를 수집할 수 있으며, 다양한 데이터 분석과 웹 스크래핑 작업에 활용할 수 있습니다.