[파이썬] Scrapy 첫 번째 스파이더 작성하기

06 Sep 2023

Scrapy

Scrapy는 파이썬으로 작성된 웹 크롤링 및 스크래핑 프레임워크입니다. 이 블로그 포스트에서는 Scrapy를 사용하여 첫 번째 스파이더를 작성하는 방법을 알아보겠습니다.

Scrapy 설치하기

먼저, Scrapy를 설치해야 합니다. 아래의 명령어를 사용하여 Scrapy를 설치할 수 있습니다.

pip install scrapy

프로젝트 생성하기

Scrapy를 사용하려면 먼저 새로운 프로젝트를 생성해야 합니다. 다음 명령어를 실행하여 새로운 Scrapy 프로젝트를 생성합니다.

scrapy startproject myproject

위의 명령어를 실행하면 myproject라는 이름의 새로운 프로젝트 폴더가 생성됩니다.

스파이더 생성하기

프로젝트 폴더로 이동한 후 다음 명령어를 실행하여 새로운 스파이더를 생성합니다.

scrapy genspider myspider example.com

위의 명령어를 실행하면 myspider.py라는 파일이 생성되며, 이 파일은 example.com 사이트를 스크랩하는 스파이더를 정의합니다.

스파이더 코드 작성하기

이제 생성된 myspider.py 파일을 수정하여 스파이더를 작성합니다. 아래는 예시 코드입니다.

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 웹 페이지에서 데이터 추출하는 로직 작성
        pass

위의 코드에서 parse 메서드는 웹 페이지의 응답을 인자로 받아 데이터 추출 로직을 작성하는 곳입니다.

스파이더 실행하기

스파이더를 실행하기 위해서는 다음 명령어를 사용합니다.

scrapy crawl myspider

위의 명령어를 실행하면 start_urls에 지정된 URL에서 데이터를 스크랩하며, parse 메서드에서 지정된 로직이 실행됩니다.

Scrapy를 사용하여 첫 번째 스파이더를 작성하는 방법에 대해 알아보았습니다. Scrapy에는 다양한 기능과 설정 옵션이 있으므로, 더 자세한 내용은 공식 문서를 참고하시기 바랍니다.