[python] aiohttp를 사용하여 웹 페이지 스크래핑하기

21 Nov 2023

python

웹 페이지 스크래핑은 웹에서 데이터를 추출하고 분석하는 데 중요한 도구입니다. Python에서는 aiohttp라이브러리를 사용하여 비동기식 웹 요청을 보내고 응답을 받아올 수 있습니다. 이번 포스트에서는 aiohttp를 사용하여 웹 페이지에서 데이터를 스크래핑하는 방법을 알아보겠습니다.

aiohttp 소개

aiohttp는 비동기식 HTTP 클라이언트 및 서버 구현을 위한 파이썬 라이브러리입니다. asyncio와 함께 사용될 때 매우 강력한 비동기식 웹 요청 라이브러리로 작동합니다. aiohttp를 사용하면 동시에 여러 웹 요청을 보낼 수 있으며, 이는 웹 페이지 스크래핑에 매우 유용합니다.

aiohttp 설치

먼저, aiohttp를 설치해야 합니다. 아래의 명령을 사용하여 pip를 이용해 설치할 수 있습니다.

pip install aiohttp

웹 페이지 스크래핑 예제

이제 aiohttp를 사용하여 웹 페이지에서 데이터를 스크래핑하는 예제를 살펴보겠습니다. 다음은 https://www.example.com에서 페이지의 제목을 추출하는 간단한 예제입니다.

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'https://www.example.com')
        # 페이지 제목 추출
        title_start_index = html.find('<title>') + len('<title>')
        title_end_index = html.find('</title>', title_start_index)
        title = html[title_start_index:title_end_index]
        print(title)

# 이벤트 루프 생성
loop = asyncio.get_event_loop()

# main 함수 실행
loop.run_until_complete(main())

이 예제에서는 aiohttp 패키지를 임포트하고 ClientSession 객체를 사용하여 HTTP 클라이언트 세션을 생성합니다. fetch 함수는 비동기식으로 웹 페이지를 가져오는 역할을 합니다. main 함수에서는 ClientSession 객체를 생성하고 fetch 함수를 사용하여 https://www.example.com에서 웹 페이지를 가져옵니다. 그리고 페이지의 제목을 추출하여 출력합니다.

결론

aiohttp는 비동기식 웹 요청을 보내고 응답을 받아오는 데 매우 효과적인 라이브러리입니다. 이를 이용하여 웹 페이지 스크래핑을 구현할 수 있습니다. aiohttp를 사용하면 동시에 여러 웹 요청을 보낼 수 있으므로, 병렬로 여러 웹 페이지를 스크래핑하는 것도 가능합니다.