[파이썬] Scrapy XPath를 이용한 선택

06 Sep 2023

Scrapy

웹 스크래핑은 필요한 데이터를 웹 페이지로부터 추출하는 과정입니다. Python의 Scrapy 라이브러리는 강력한 웹 스크래핑 도구로 알려져 있습니다. 이 라이브러리를 사용하면 웹 페이지에서 데이터를 추출하기 위해 XPath 표현식을 사용할 수 있습니다. XPath를 사용하면 웹 페이지의 특정 요소를 선택하는 것이 간단하고 유연해집니다.

XPath란 무엇인가요?

XPath는 XML 문서를 탐색하기 위해 사용되는 언어입니다. XML은 웹 페이지의 구조를 표현하는 데 널리 사용되는 형식입니다. XPath는 XML에서 원하는 데이터를 선택하기 위한 매우 강력한 도구입니다.

Scrapy를 사용한 XPath 선택

Scrapy에서 XPath를 사용하기 위해서는 Selector 객체를 사용해야 합니다. Selector는 HTML 또는 XML 문서에서 XPath를 사용하여 원하는 요소를 선택하는 데 도움을 줍니다.

다음은 Scrapy에서 XPath를 사용하여 웹 페이지에서 이미지 URL을 추출하는 간단한 예제입니다.

import scrapy

class ImageSpider(scrapy.Spider):
    name = "image_spider"
    
    start_urls = [
        "https://example.com/images"
    ]
    
    def parse(self, response):
        image_urls = response.xpath("//img/@src").getall()
        for image_url in image_urls:
            yield {
                'image_url': image_url
            }

위 예제에서 response.xpath("//img/@src").getall() 부분은 XPath 표현식을 사용하여 웹 페이지의 모든 이미지 요소의 src 속성을 추출합니다. 추출한 이미지 URL은 image_url 필드와 함께 반환됩니다.

XPath로 요소 선택하기

XPath를 사용하여 웹 페이지에서 요소를 선택하는 방법에 대해 알아보겠습니다.

요소의 태그 선택

특정 태그를 가진 요소를 선택하려면 태그 이름을 사용하면 됩니다. 예를 들어, <div> 태그를 선택하려면 //div를 사용합니다.

response.xpath("//div")

클래스로 요소 선택

특정 클래스를 가진 요소를 선택하려면 @class 속성을 사용합니다. 예를 들어, class="title" 클래스를 가진 요소를 선택하려면 //*[@class="title"]을 사용합니다.

response.xpath("//*[contains(@class, 'title')]")

ID로 요소 선택

특정 ID를 가진 요소를 선택하려면 @id 속성을 사용합니다. 예를 들어, id="header"라는 ID를 가진 요소를 선택하려면 //*[@id="header"]을 사용합니다.

response.xpath("//*[@id='header']")

하위 요소 선택

특정 요소의 하위 요소를 선택하려면 / 연산자를 사용합니다. 예를 들어, <div> 요소의 모든 <p> 요소를 선택하려면 //div/p를 사용합니다.

response.xpath("//div/p")

위 예제는 Scrapy XPath를 이용한 선택에 대해 간단하게 설명했습니다. XPath를 사용하면 웹 페이지에서 원하는 데이터를 선택하고 추출하는 과정을 간단하게 할 수 있습니다. Scrapy의 강력한 기능과 XPath의 유연성을 활용하여 다양한 웹 스크래핑 작업을 수행할 수 있습니다.