[파이썬] 웹 스크래핑과 게임 정보 추출

01 Sep 2023

python

소개

웹 스크래핑은 인터넷 상의 데이터를 수집하고 분석하는 프로세스를 말합니다. 게임 정보 추출은 게임 웹사이트에서 게임의 제목, 장르, 평점 등의 정보를 추출하는 것을 의미합니다. 이러한 기술을 Python을 사용하여 직접 구현할 수 있습니다. 이 블로그 포스트에서는 Python을 사용하여 웹 스크래핑을 통해 게임 정보를 추출하는 예시 코드를 제공합니다.

설치

Python의 몇 가지 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 필요한 라이브러리를 설치합니다.

pip install requests beautifulsoup4

requests: 웹사이트의 HTML 코드를 가져오기 위한 라이브러리입니다.
beautifulsoup4: 웹사이트의 HTML 코드를 파싱하고 정보를 추출하기 위한 라이브러리입니다.

예시 코드

다음은 게임 정보를 추출하기 위한 예시 코드입니다. 이 예시 코드는 대표적인 게임 웹사이트인 “Metacritic”에서 Nintendo Switch 플랫폼의 인기 게임들의 제목과 평점을 추출하는 예시입니다.

import requests
from bs4 import BeautifulSoup

def scrape_game_info():
    # Metacritic 웹사이트의 URL
    url = "https://www.metacritic.com/browse/games/release-date/available/switch/metascore"

    # GET 요청을 보내고 HTML 코드를 가져옴
    response = requests.get(url)
    html = response.content

    # BeautifulSoup을 사용하여 HTML 코드를 파싱
    soup = BeautifulSoup(html, 'html.parser')

    # 게임 정보를 담을 리스트
    games = []

    # 게임 정보 추출
    game_list = soup.find_all('td', class_="clamp-summary-wrap")
    for game in game_list:
        title = game.find('h3').text.strip()
        score = game.find('div', class_="metascore_w").text.strip()
        games.append({"title": title, "score": score})

    return games

# 게임 정보 출력
games = scrape_game_info()
for game in games:
    print(f"게임 제목: {game['title']}, 평점: {game['score']}")

위의 코드는 Metacritic 웹사이트에서 Nintendo Switch 플랫폼의 인기 게임들의 제목과 평점을 출력하는 예시입니다. scrape_game_info 함수는 Metacritic 웹사이트에서 정보를 추출하고, 이를 games 리스트에 저장하여 반환합니다. 반환된 게임 정보를 순회하면서 제목과 평점을 출력합니다.

결론

Python을 사용하여 웹 스크래핑을 통해 게임 정보를 추출하는 방법을 살펴보았습니다. 웹 스크래핑은 다양한 웹사이트에서 데이터를 추출할 수 있는 강력한 도구입니다. 다른 웹사이트에서도 비슷한 방식으로 정보를 추출할 수 있으니, 개인적인 목적으로 사용할 때는 해당 웹사이트의 이용 약관을 확인하는 것을 권장합니다.