[파이썬] 웹 스크래핑과 연예 정보 추출
웹 스크래핑(Web Scraping)이란 인터넷에 있는 웹 페이지에서 정보를 추출하는 기술을 말합니다. 이 기술을 이용하면 웹사이트의 특정 데이터를 수집하고 분석할 수 있습니다. 이번 포스트에서는 Python을 사용하여 웹 스크래핑을 수행하고, 연예 정보를 추출하는 방법을 알아보겠습니다.
필요한 도구
웹 스크래핑을 위해서는 몇 가지 필요한 도구가 있습니다. Python에서는 다음과 같은 라이브러리들을 사용할 수 있습니다:
- Requests: HTTP 요청을 보내고 웹 페이지의 HTML 소스코드를 가져올 수 있습니다.
- BeautifulSoup: HTML 소스코드를 파싱하여 원하는 데이터를 추출할 수 있습니다.
아래는 이번 예제에서 사용할 코드입니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지 요청
url = "https://www.example.com"
response = requests.get(url)
# BeautifulSoup을 사용하여 HTML 소스코드 파싱
soup = BeautifulSoup(response.content, "html.parser")
# 연예 정보 추출
celebrity_divs = soup.find_all("div", class_="celebrity")
for div in celebrity_divs:
name = div.find("span", class_="name").text
age = div.find("span", class_="age").text
print(f"이름: {name}, 나이: {age}")
위 코드는 예시일 뿐이지만, 이를 활용해 작성하고자 하는 웹 스크래핑과 연예 정보 추출 작업에 맞게 수정하여 사용하실 수 있습니다.
실행
위 코드를 실행하기 위해서는 requests
와 beautifulsoup4
라이브러리를 설치해야 합니다. 아래 명령어를 사용하여 설치할 수 있습니다.
pip install requests beautifulsoup4
코드를 실행하기 전에는 인터넷에 연결된 상태여야 하며, url
변수를 원하는 웹 페이지 주소로 수정해야 합니다.
결론
Python을 사용하면 웹 스크래핑을 통해 다양한 정보를 추출할 수 있습니다. 이를 활용하면 원하는 데이터를 손쉽게 수집하고 분석할 수 있습니다. 위에서 소개한 예제 코드를 참고하여 여러분만의 웹 스크래핑 프로젝트를 시작해 보세요!