[python] aiohttp를 사용하여 비동기적으로 웹 크롤러 결과를 데이터베이스에 저장하기

21 Nov 2023

python

이 기술 블로그 게시물에서는 aiohttp 라이브러리를 사용하여 비동기적으로 웹 크롤러 결과를 데이터베이스에 저장하는 방법에 대해 알아보겠습니다.

aiohttp 소개

aiohttp는 Python 비동기 웹 프레임워크입니다. 이 라이브러리를 사용하면 비동기 네트워크 요청을 보낼 수 있으며, 이는 웹 크롤러와 같은 태스크에서 매우 유용합니다.

비동기 웹 크롤러 예제

먼저, 어떻게 aiohttp를 사용하여 비동기 웹 크롤러를 작성할 수 있는지 살펴보겠습니다. 아래는 간단한 예제 코드입니다.

import aiohttp
import asyncio

async def fetch_page(session, url):
    async with session.get(url) as response:
        return await response.text()

async def crawl(urls):
    async with aiohttp.ClientSession() as session:
        tasks = []
        for url in urls:
            tasks.append(fetch_page(session, url))
        return await asyncio.gather(*tasks)

urls = ['https://www.example.com/page1', 'https://www.example.com/page2', 'https://www.example.com/page3']

loop = asyncio.get_event_loop()
results = loop.run_until_complete(crawl(urls))

위의 코드에서는 fetch_page 함수를 사용하여 각 URL의 페이지를 비동기적으로 가져옵니다. crawl 함수에서는 aiohttp의 ClientSession을 사용하여 여러 페이지를 병렬로 요청합니다. asyncio.gather를 통해 비동기적으로 요청을 실행하고 결과를 반환합니다.

데이터베이스에 저장하기

이제 웹 크롤러 결과를 데이터베이스에 저장하는 방법에 대해 알아보겠습니다. 데이터베이스에는 SQL 또는 NoSQL을 사용할 수 있습니다. 아래는 aiohttp 및 MongoDB를 사용하여 결과를 MongoDB에 저장하는 예제 코드입니다.

from motor import motor_asyncio
import asyncio

async def save_to_database(results):
    client = motor_asyncio.AsyncIOMotorClient('mongodb://localhost:27017')
    db = client['mydatabase']
    collection = db['mycollection']
    await collection.insert_many(results)
    client.close()

loop = asyncio.get_event_loop()
loop.run_until_complete(save_to_database(results))

위의 코드에서는 save_to_database 함수를 사용하여 motor_asyncio를 통해 비동기적으로 MongoDB에 결과를 저장합니다. AsyncIOMotorClient를 사용하여 MongoDB에 연결하고, 결과를 insert_many를 통해 데이터베이스에 저장합니다.

결론

이번 기술 블로그에서는 aiohttp를 사용하여 비동기 웹 크롤러 결과를 데이터베이스에 저장하는 방법을 알아보았습니다. aiohttp를 통해 비동기적으로 웹 요청을 실행하고, 데이터베이스에 저장하는 방법을 익힐 수 있었습니다. 이러한 기술은 대규모 데이터 수집 작업을 수행하는 데 매우 유용합니다.

참고:

목차

aiohttp 소개

비동기 웹 크롤러 예제

데이터베이스에 저장하기

결론