[python] aiohttp를 사용하여 비동기적으로 웹 크롤러 추출한 데이터 기반으로 기계 학습하기

21 Nov 2023

python

웹 크롤링은 웹 페이지로부터 데이터를 추출하는 프로세스를 의미합니다. 일반적으로 비동기 기술을 사용하면 여러 웹 페이지를 동시에 크롤링하여 시간을 절약할 수 있습니다. 이번 포스트에서는 aiohttp 라이브러리를 사용하여 비동기적으로 웹 크롤러를 개발하고, 추출한 데이터를 기계 학습에 활용하는 방법을 알아보겠습니다.

aiohttp 소개

aiohttp는 파이썬에서 비동기 웹 서버 및 클라이언트를 구축하기 위한 라이브러리입니다. 이 라이브러리를 사용하면 비동기적으로 여러 웹 요청을 동시에 처리할 수 있어, 크롤링 작업의 효율성을 크게 향상시킬 수 있습니다.

비동기 웹 크롤러 개발하기

첫 번째로, aiohttp를 설치해야 합니다. pip install aiohttp 명령어를 사용하여 설치합니다.

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        url = 'https://example.com'
        html = await fetch(session, url)
        print(html)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

이 코드는 aiohttp를 사용하여 비동기적으로 웹 페이지를 가져오는 예제입니다. fetch 함수는 주어진 URL로 GET 요청을 보내고, 응답을 텍스트 형태로 반환합니다. main 함수에서는 ClientSession을 사용하여 세션을 생성하고, fetch 함수를 호출하여 웹 페이지를 가져옵니다.

데이터 기반으로 기계 학습하기

웹 크롤러를 사용하여 추출한 데이터를 기반으로 기계 학습을 시행할 수 있습니다. 예를 들어, 추출한 텍스트 데이터를 자연어 처리 기술을 사용하여 특성 추출하고, 이를 사용하여 분류 또는 예측 작업을 수행할 수 있습니다.

import aiohttp
import asyncio
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        urls = ['https://example.com/page1', 'https://example.com/page2']
        texts = []
        for url in urls:
            html = await fetch(session, url)
            texts.append(html)
        
        vectorizer = TfidfVectorizer()
        vectors = vectorizer.fit_transform(texts)
        
        labels = ['category1', 'category2']
        classifier = SVC()
        classifier.fit(vectors, labels)
        
        new_url = 'https://example.com/page3'
        new_html = await fetch(session, new_url)
        new_vector = vectorizer.transform([new_html])
        
        prediction = classifier.predict(new_vector)
        print(prediction)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

위의 코드는 추출한 웹 페이지의 텍스트 데이터를 TfidfVectorizer를 사용하여 특성 벡터로 변환하고, 이를 사용하여 분류 모델을 학습하는 예제입니다. urls 변수는 크롤링할 웹 페이지들의 URL을 담고 있고, texts 리스트에 해당 URL의 html 데이터를 저장합니다. 그리고 vectorizer를 사용하여 텍스트 데이터를 벡터화하고, classifier를 사용하여 분류 모델을 학습합니다. 마지막으로 새로운 웹 페이지의 html 데이터를 가져와서 벡터화한 뒤, classifier를 사용하여 예측을 수행합니다.

결론

aiohttp를 사용하여 비동기적으로 웹 크롤러를 구현하고, 추출한 데이터를 기계 학습에 활용하는 방법을 알아보았습니다. 비동기 기술을 활용하면 웹 크롤링 작업을 효율적으로 수행할 수 있고, 기계 학습을 통해 추출한 데이터로 예측 모델을 구축할 수 있습니다. aiohttp와 기계 학습을 조합하여 다양한 웹 크롤링 및 데이터 분석 작업을 수행해보세요.