[python] Beautiful Soup로 웹 페이지에서 특정 날짜 추출하기
이번 포스트에서는 Beautiful Soup를 사용하여 웹 페이지에서 특정 날짜를 추출하는 방법을 알아보겠습니다. Beautiful Soup는 웹 스크래핑에 매우 유용한 파이썬 라이브러리입니다.
1. Beautiful Soup 설치하기
먼저 Beautiful Soup를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup를 설치할 수 있습니다.
pip install beautifulsoup4
2. 웹 페이지에서 날짜 추출하기
Beautiful Soup를 사용하여 웹 페이지에서 날짜를 추출하는 단계는 다음과 같습니다.
- 웹 페이지의 HTML을 가져옵니다.
- Beautiful Soup을 사용하여 HTML을 구문 분석합니다.
- 원하는 요소를 찾아 해당 날짜를 추출합니다.
아래는 예시 코드입니다. 이 코드는 www.example.com에서 <p>
태그 안에 있는 날짜를 추출하는 예시입니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지의 HTML 가져오기
url = "http://www.example.com"
response = requests.get(url)
html = response.text
# Beautiful Soup을 사용하여 HTML 구문 분석
soup = BeautifulSoup(html, "html.parser")
# 날짜를 추출하는 예시 코드
date_element = soup.find('p')
date = date_element.text
print("추출된 날짜:", date)
위의 코드에서 우리는 requests
라이브러리를 사용하여 웹 페이지의 HTML을 가져옵니다. 그리고 Beautiful Soup을 사용하여 HTML을 구문 분석하고, <p>
태그를 찾아 해당 날짜를 추출합니다. 마지막으로, 추출된 날짜를 출력합니다.