[python] 파이썬 웹 크롤링 예제: 트위터 트윗 크롤링하기

이 예제는 파이썬을 사용하여 트위터에서 특정 키워드에 대한 트윗을 수집하는 간단한 웹 크롤링 방법에 대해 소개합니다.

필요한 라이브러리 설치

우선, 웹 크롤링을 위해 BeautifulSouprequests 라이브러리를 설치합니다.

pip install beautifulsoup4
pip install requests

코드 작성

파이썬 스크립트를 작성하여 트위터로부터 트윗을 수집할 수 있습니다. 다음은 간단한 예제 코드입니다.

import requests
from bs4 import BeautifulSoup

def get_tweets(keyword):
    url = f"https://twitter.com/search?q={keyword}"

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
    }

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")

    tweet_texts = soup.find_all("p", class_="TweetTextSize")
    for tweet in tweet_texts:
        print(tweet.text)

keyword = "python"
get_tweets(keyword)

이 코드는 requests 모듈을 사용하여 트위터에서 특정 키워드에 대한 HTML 페이지를 가져온 다음, BeautifulSoup를 사용하여 해당 페이지에서 트윗을 추출합니다.

실행 결과

위 코드를 실행하면, 해당 키워드에 대한 최신 트윗이 콘솔에 출력됩니다.

이를 통해, 파이썬을 사용하여 트위터에서 트윗을 크롤링하는 간단한 예제를 살펴보았습니다.

참고 자료