[파이썬] 웹 스크래핑과 드라마 정보 추출

Note: This blog post assumes basic knowledge of Python programming and web scraping concepts.

웹 스크래핑은 인터넷에서 데이터를 수집하는 프로세스를 의미합니다. 이를 사용하여 다양한 종류의 정보를 추출하거나 분석할 수 있습니다. 이번 블로그에서는 웹 스크래핑을 활용하여 드라마 정보를 추출하는 방법에 대해 알아보겠습니다.

필요한 라이브러리 설치하기

웹 스크래핑을 위해 requestsBeautifulSoup라는 라이브러리를 설치해야 합니다. 다음 명령어를 사용하여 두 라이브러리를 설치하세요.

pip install requests
pip install beautifulsoup4

두 라이브러리는 웹페이지에 요청을 보내고 HTML을 파싱하는 데 사용됩니다.

드라마 정보 웹페이지 선택하기

먼저, 드라마 정보를 크롤링할 웹페이지를 선택해야 합니다. 예를 들어, 예능박스에서 드라마 정보를 추출해보도록 하겠습니다.

HTML 파싱하기

HTML을 파싱하여 원하는 정보를 추출하는 작업을 시작해보겠습니다. 다음 예제 코드를 참조하세요.

import requests
from bs4 import BeautifulSoup

# 웹페이지에 요청 보내기
response = requests.get("http://www.yenentv.com/")

# HTML 파싱
soup = BeautifulSoup(response.content, 'html.parser')

# 원하는 정보 추출
drama_title = soup.find("h2", class_="drama-title").text
drama_description = soup.find("div", class_="drama-description").text

# 결과 출력
print(f"Drama Title: {drama_title}")
print(f"Drama Description: {drama_description}")

위 코드에서는 requests를 사용하여 웹페이지에 GET 요청을 보냅니다. 그리고 BeautifulSoup로 HTML을 파싱하여 필요한 정보를 추출합니다. 이 예제에서는 드라마 제목과 설명을 추출하고 결과를 출력합니다.

데이터 저장하기

추출한 드라마 정보를 파일에 저장하려면, 다음과 같이 코드를 수정할 수 있습니다.

import requests
from bs4 import BeautifulSoup

# 웹페이지에 요청 보내기
response = requests.get("http://www.yenentv.com/")

# HTML 파싱
soup = BeautifulSoup(response.content, 'html.parser')

# 원하는 정보 추출
drama_title = soup.find("h2", class_="drama-title").text
drama_description = soup.find("div", class_="drama-description").text

# 결과 저장
with open("drama_info.txt", "w") as file:
    file.write(f"Drama Title: {drama_title}\n")
    file.write(f"Drama Description: {drama_description}\n")

위 코드에서는 with open을 사용하여 drama_info.txt라는 파일을 열고 드라마 정보를 파일에 쓰는 작업을 수행합니다.

결론

이번 블로그에서는 웹 스크래핑과 Python을 사용하여 드라마 정보를 추출하는 방법에 대해 알아보았습니다. 웹 스크래핑은 다양한 정보를 수집하고 분석하는 데 유용한 도구입니다. 하지만, 웹페이지의 사용 약관과 법적 제약을 준수하는 것이 중요합니다.