[python] aiohttp를 사용하여 비동기적으로 웹크롤링한 데이터 필터링하기

21 Nov 2023

python

이번에는 aiohttp를 사용하여 비동기적으로 웹크롤링한 데이터를 필터링하는 방법에 대해 알아보겠습니다.

필요한 패키지 설치하기

먼저, aiohttp 패키지를 설치해야 합니다. 아래 명령을 사용하여 설치할 수 있습니다.

pip install aiohttp

웹크롤링 및 필터링 예제

이제 aiohttp를 사용하여 웹페이지를 크롤링하고, 필터링하는 예제를 살펴보겠습니다.

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url) as response:
        if response.status == 200:
            return await response.text()

async def filter_data(url):
    async with aiohttp.ClientSession() as session:
        response_text = await fetch(session, url)
        if response_text:
            # 데이터 필터링 작업 수행
            filtered_data = response_text.filter(lambda x: x.startswith('a'))
            return filtered_data

async def main():
    url = 'http://example.com'
    filtered_data = await filter_data(url)
    print(filtered_data)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

위 예제에서는 aiohttp를 사용하여 웹페이지의 내용을 가져오는 fetch 함수와 데이터를 필터링하는 filter_data 함수를 정의합니다. filter_data 함수에서는 가져온 데이터를 필터링하여 원하는 결과를 얻을 수 있습니다.

main 함수에서는 크롤링할 URL을 지정하고, filter_data 함수를 호출한 뒤 필터링된 데이터를 출력합니다.

요약

위 예제를 통해 aiohttp를 사용하여 비동기적으로 웹크롤링한 데이터를 필터링하는 방법을 알아보았습니다. aiohttp를 활용하면 효율적이고 빠른 웹크롤링 작업을 수행할 수 있습니다.