[python] aiohttp를 사용하여 비동기적으로 웹 크롤러 결과를 PDF 파일로 저장하기

21 Nov 2023

python

이번 포스트에서는 Python의 aiohttp 라이브러리를 사용하여 비동기적으로 웹 크롤러를 작성하고, 결과를 PDF 파일로 저장하는 방법을 알아보겠습니다.

aiohttp란?

aiohttp는 Python에서 비동기적인 웹 요청을 처리하는 라이브러리입니다. 이를 사용하면 빠르고 효율적인 웹 크롤러를 개발할 수 있습니다.

필요한 패키지 설치하기

먼저 필요한 패키지를 설치해야 합니다. 아래 명령을 사용하여 aiohttp와 pdfkit 패키지를 설치할 수 있습니다.

pip install aiohttp pdfkit

또한, PDF 파일을 생성하기 위해서는 wkhtmltopdf 프로그램이 필요합니다. 여기에서 해당 프로그램을 다운로드하여 설치해주세요.

웹 크롤러 작성하기

이제 실제로 웹 크롤러를 작성해보겠습니다. 아래는 aiohttp를 사용하여 비동기적으로 웹 페이지를 다운로드하는 간단한 예제 코드입니다.

import aiohttp
import asyncio

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def main():
    url = "https://example.com"
    html = await fetch(url)
    print(html)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

이 예제에서는 fetch() 함수를 사용하여 주어진 URL에서 HTML을 가져옵니다. main() 함수에서는 fetch() 함수를 호출하고, 반환된 HTML을 출력합니다.

HTML을 PDF로 변환하기

이제 웹페이지를 다운로드하는 대신, 해당 HTML을 PDF 파일로 변환하여 저장해보겠습니다. 이를 위해서는 pdfkit 패키지를 사용해야 합니다.

아래 예제 코드에서는 fetch() 함수가 HTML 대신 PDF 파일을 반환하도록 수정되었습니다.

import aiohttp
import asyncio
import pdfkit

async def fetch(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            html = await response.text()
            return pdfkit.from_string(html, False)

async def main():
    url = "https://example.com"
    pdf = await fetch(url)
    with open("result.pdf", "wb") as f:
        f.write(pdf)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

이제 fetch() 함수에서는 웹페이지의 HTML을 가져와 pdfkit.from_string() 함수를 사용하여 PDF 파일로 변환합니다. 그리고 main() 함수에서는 반환된 PDF를 result.pdf 파일에 저장합니다.

결론

이번 포스트에서는 aiohttp를 사용하여 비동기적으로 웹 크롤러를 작성하고, 결과를 PDF 파일로 저장하는 방법을 알아보았습니다. aiohttp를 사용하면 빠르고 효율적인 웹 크롤링 작업을 수행할 수 있으며, pdfkit를 활용하여 HTML을 PDF로 변환할 수 있습니다.

더 자세한 내용은 aiohttp 공식 문서와 pdfkit 공식 문서를 참고하시기 바랍니다.