[python] 파이썬 웹 클라이언트에서 웹 페이지의 HTML을 파싱하는 방법은 무엇인가요?

20 Dec 2023

python

먼저, BeautifulSoup를 사용하는 방법을 알아보겠습니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지 내용 가져오기
url = 'http://example.com'
response = requests.get(url)
html_content = response.text

# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html_content, 'html.parser')

# 필요한 데이터 추출
title = soup.title.text
paragraphs = soup.find_all('p')
# 원하는 방식으로 추출한 데이터를 사용합니다.

다음으로, lxml을 사용하는 방법은 다음과 같습니다.

from lxml import etree
import requests

# 웹 페이지 내용 가져오기
url = 'http://example.com'
response = requests.get(url)
html_content = response.text

# HTML 파싱
tree = etree.HTML(html_content)

# 필요한 데이터 추출
title = tree.findtext('.//title')
paragraphs = tree.findall('.//p')

BeautifulSoup와 lxml은 둘 다 HTML을 쉽게 파싱하고 원하는 정보를 추출할 수 있는 강력한 도구입니다. 여러 방법을 시도하여 가장 적합한 방법을 선택하는 것이 좋습니다.