[파이썬] Scrapy와 Kubernetes 통합

06 Sep 2023

Scrapy

Scrapy는 Python으로 작성된 웹 크롤링 프레임워크로, 웹사이트에서 데이터를 추출하여 스크래핑하는 작업을 자동화할 수 있습니다. Kubernetes는 컨테이너 오케스트레이션 플랫폼으로, 애플리케이션의 배포, 확장, 관리를 쉽게 할 수 있습니다. 이 글에서는 Scrapy와 Kubernetes를 통합해서 웹 크롤링 작업을 관리하는 방법에 대해 알아보겠습니다.

Scrapy 프로젝트를 Docker 이미지로 빌드하기

먼저 Scrapy 프로젝트를 Docker 이미지로 빌드하는 방법을 알아보겠습니다. Dockerizing은 애플리케이션을 컨테이너로 패키징하는 과정입니다. Scrapy 프로젝트를 Docker 이미지로 빌드하면, 이 이미지를 Kubernetes 클러스터에서 실행할 수 있습니다.

다음은 Dockerfile의 예시입니다:

# Base image
FROM python:3.9-slim-buster

# Set working directory
WORKDIR /app

# Install dependencies
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# Copy project files
COPY . .

# Set the entry point
ENTRYPOINT ["scrapy"]
CMD ["crawl", "my_spider"]

위의 Dockerfile에서는 먼저 Python 3.9-slim-buster 이미지를 기반으로 한다고 정의합니다. 그런 다음 작업 디렉토리를 /app로 설정하고, 프로젝트에 필요한 의존성을 설치합니다. 프로젝트 파일을 작업 디렉토리로 복사하고, scrapy crawl my_spider 명령을 실행하도록 설정합니다.

이제 해당 프로젝트의 Docker 이미지를 빌드하기 위해 다음 명령을 실행합니다:

docker build -t scrapy-app .

Kubernetes에서 Scrapy 작업 관리하기

Scrapy 프로젝트의 Docker 이미지를 빌드한 후에는, 해당 이미지를 Kubernetes 클러스터에서 실행할 수 있습니다. 이를 위해 Kubernetes에서 Job 리소스를 사용하여 Scrapy 작업을 관리할 수 있습니다.

다음은 Kubernetes Job 리소스의 예시입니다:

apiVersion: batch/v1
kind: Job
metadata:
  name: scrapy-job
spec:
  template:
    spec:
      containers:
      - name: scrapy-container
        image: scrapy-app
        command: ["scrapy", "crawl", "my_spider"]
      restartPolicy: Never

위의 예시에서는 scrapy-app이라는 이름의 Docker 이미지를 사용하여 my_spider 스파이더를 실행하는 Job을 정의합니다. 이 Job은 한 번만 실행되며, 성공 또는 실패한 후에 재시작되지 않습니다.

이제 해당 Job을 Kubernetes 클러스터에서 실행하기 위해 다음 명령을 실행합니다:

kubectl apply -f scrapy-job.yaml

결론

이러한 방식으로 Scrapy와 Kubernetes를 통합하여 웹 크롤링 작업을 관리할 수 있습니다. Scrapy 프로젝트를 Docker 이미지로 빌드한 후 해당 이미지를 Kubernetes 클러스터에서 실행하여 크롤링 작업을 자동화할 수 있습니다. 이를 통해 웹 데이터 추출 작업을 쉽게 관리하고 확장할 수 있습니다.