[python] Tornado를 사용한 웹 사이트 스크랩핑

01 Dec 2023

python

Tornado는 Python으로 작성된 비동기 웹 프레임워크로, 웹 서버를 구축하고 비동기적으로 작업을 처리하는 데 사용할 수 있습니다. 이번 글에서는 Tornado를 사용하여 웹 사이트를 스크랩핑하는 방법에 대해 알아보겠습니다.

필요한 패키지 설치하기

Tornado를 사용하기 위해 아래 명령어를 통해 필요한 패키지를 설치합니다.

pip install tornado
pip install requests
pip install beautifulsoup4

tornado: Tornado 프레임워크 패키지
requests: HTTP 요청을 보내기 위한 패키지
beautifulsoup4: HTML 파싱을 위한 패키지

스크랩핑할 웹 사이트 선택하기

스크랩핑할 웹 사이트의 URL을 선택합니다. 예를 들어, “https://www.example.com”을 대상으로 스크랩핑을 진행하겠습니다.

웹 사이트 스크랩핑 코드 작성하기

아래는 Tornado를 사용하여 웹 사이트를 스크랩핑하는 간단한 예제 코드입니다.

import tornado.ioloop
import tornado.web
import requests
from bs4 import BeautifulSoup

class ScraperHandler(tornado.web.RequestHandler):
    def get(self):
        url = "https://www.example.com"
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")
        # 원하는 웹 페이지의 요소를 스크랩핑하는 코드 작성

def make_app():
    return tornado.web.Application([
        (r"/", ScraperHandler),
    ])

if __name__ == "__main__":
    app = make_app()
    app.listen(8888)
    tornado.ioloop.IOLoop.current().start()

위의 코드에서 ScraperHandler 클래스는 요청이 들어오면 지정한 URL에 GET 요청을 보내고, 응답받은 HTML을 BeautifulSoup을 사용하여 파싱합니다. 이후 원하는 웹 페이지의 요소를 스크랩핑하는 코드를 작성하여 결과를 반환하면 됩니다.

실행 및 결과 확인하기

위의 코드를 실행하고 브라우저에서 “http://localhost:8888”로 접속해보세요. Tornado 웹 서버가 실행되고, 스크랩핑한 결과가 브라우저에 출력될 것입니다.

마치며

Tornado를 사용하여 웹 사이트 스크랩핑을 하는 방법에 대해 알아보았습니다. Tornado의 비동기 처리 능력과 함께 스크랩핑에 필요한 패키지들을 활용하여 다양한 웹 사이트에서 데이터를 스크랩핑할 수 있습니다.