[파이썬] Scrapy와 AWS Lambda 통합

06 Sep 2023

Scrapy

이번 블로그에서는 Scrapy와 AWS Lambda를 통합하여 웹 스크레이핑 작업을 수행하는 방법에 대해 알아보겠습니다.

Scrapy 소개

Scrapy는 파이썬으로 작성된 오픈 소스 웹 스크레이핑 프레임워크로, 유연하고 강력한 기능을 제공합니다. Scrapy는 크롤링 및 데이터 추출 작업을 쉽게 할 수 있도록 도구와 API를 제공하며, 분산형 크롤링, 인증, 로그인 처리, 자동 스크롤링 등의 기능을 지원합니다.

AWS Lambda 소개

AWS Lambda는 서버 없이 코드를 실행할 수 있는 서비스로, 필요한 서버 인프라 관리 없이 코드를 배포하고 실행할 수 있습니다. Lambda 함수는 이벤트에 응답하여 실행되며, 필요한 만큼의 컴퓨팅 리소스를 자동으로 확장 및 축소합니다.

Scrapy와 AWS Lambda 통합

Scrapy는 일반적으로 로컬 환경에서 실행되지만, AWS Lambda를 사용하면 Scrapy를 서버리스 환경에서 실행할 수 있습니다. 이를 통해 관리해야 할 서버 인프라의 부담을 줄이고, 분산형 크롤링 작업을 수행할 수 있습니다.

AWS Lambda에서 Scrapy를 실행하는 방법을 살펴보겠습니다.

단계 1: Scrapy 프로젝트 생성

먼저, Scrapy 프로젝트를 생성합니다. 다음 명령을 사용하여 Scrapy를 설치합니다.

pip install Scrapy

새로운 Scrapy 프로젝트를 생성하기 위해 다음 명령을 실행합니다.

scrapy startproject myproject

단계 2: AWS Lambda 함수 생성

AWS Lambda 콘솔로 이동하여 새로운 Lambda 함수를 생성합니다. 실행할 코드는 “lambda_function.py” 파일에 작성합니다.

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 스크레이핑 작업 수행
        pass

def lambda_handler(event, context):
    # Scrapy 실행
    scrapy_cmd = ['scrapy', 'crawl', 'myspider']
    scrapy_proc = subprocess.Popen(scrapy_cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    output, error = scrapy_proc.communicate()

    # 결과 반환
    return {
        'statusCode': 200,
        'body': output.decode('utf-8')
    }

단계 3: AWS Lambda 배치

새로운 Lambda 함수를 배치하기 위해 다음 명령을 실행합니다.

aws lambda create-function --function-name my-function --runtime python3.7 --zip-file fileb://my-function.zip --handler lambda_function.lambda_handler --role arn:aws:iam::1234567890:role/lambda-role

단계 4: 이벤트 설정

Lambda 함수가 실행될 이벤트를 설정합니다. 예를 들어, CloudWatch 이벤트 또는 API Gateway와 같은 서비스에서 Lambda 함수를 트리거할 수 있습니다.

결론

이렇게하면 Scrapy를 AWS Lambda와 통합하여 서버리스 환경에서 웹 스크레이핑 작업을 수행할 수 있습니다. AWS Lambda의 유연성과 확장성을 활용하여 크롤링 작업을 간편하게 관리할 수 있습니다.