[파이썬] 웹 스크래핑과 게임 정보 추출
소개
웹 스크래핑은 인터넷 상의 데이터를 수집하고 분석하는 프로세스를 말합니다. 게임 정보 추출은 게임 웹사이트에서 게임의 제목, 장르, 평점 등의 정보를 추출하는 것을 의미합니다. 이러한 기술을 Python을 사용하여 직접 구현할 수 있습니다. 이 블로그 포스트에서는 Python을 사용하여 웹 스크래핑을 통해 게임 정보를 추출하는 예시 코드를 제공합니다.
설치
Python의 몇 가지 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 필요한 라이브러리를 설치합니다.
pip install requests beautifulsoup4
requests
: 웹사이트의 HTML 코드를 가져오기 위한 라이브러리입니다.beautifulsoup4
: 웹사이트의 HTML 코드를 파싱하고 정보를 추출하기 위한 라이브러리입니다.
예시 코드
다음은 게임 정보를 추출하기 위한 예시 코드입니다. 이 예시 코드는 대표적인 게임 웹사이트인 “Metacritic”에서 Nintendo Switch 플랫폼의 인기 게임들의 제목과 평점을 추출하는 예시입니다.
import requests
from bs4 import BeautifulSoup
def scrape_game_info():
# Metacritic 웹사이트의 URL
url = "https://www.metacritic.com/browse/games/release-date/available/switch/metascore"
# GET 요청을 보내고 HTML 코드를 가져옴
response = requests.get(url)
html = response.content
# BeautifulSoup을 사용하여 HTML 코드를 파싱
soup = BeautifulSoup(html, 'html.parser')
# 게임 정보를 담을 리스트
games = []
# 게임 정보 추출
game_list = soup.find_all('td', class_="clamp-summary-wrap")
for game in game_list:
title = game.find('h3').text.strip()
score = game.find('div', class_="metascore_w").text.strip()
games.append({"title": title, "score": score})
return games
# 게임 정보 출력
games = scrape_game_info()
for game in games:
print(f"게임 제목: {game['title']}, 평점: {game['score']}")
위의 코드는 Metacritic 웹사이트에서 Nintendo Switch 플랫폼의 인기 게임들의 제목과 평점을 출력하는 예시입니다. scrape_game_info
함수는 Metacritic 웹사이트에서 정보를 추출하고, 이를 games
리스트에 저장하여 반환합니다. 반환된 게임 정보를 순회하면서 제목과 평점을 출력합니다.
결론
Python을 사용하여 웹 스크래핑을 통해 게임 정보를 추출하는 방법을 살펴보았습니다. 웹 스크래핑은 다양한 웹사이트에서 데이터를 추출할 수 있는 강력한 도구입니다. 다른 웹사이트에서도 비슷한 방식으로 정보를 추출할 수 있으니, 개인적인 목적으로 사용할 때는 해당 웹사이트의 이용 약관을 확인하는 것을 권장합니다.