Beautiful Soup은 파이썬 라이브러리로, 웹 페이지의 HTML 코드를 파싱하고 원하는 정보를 추출할 수 있습니다. 이번 포스트에서는 Beautiful Soup을 사용하여 웹 페이지에서 특정 태그로 원하는 정보를 찾는 방법에 대해 알아보겠습니다.
Beautiful Soup 설치
Beautiful Soup을 사용하기 위해선 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup을 설치하세요.
pip install beautifulsoup4
웹 페이지의 HTML 코드 가져오기
Beautiful Soup으로 웹 페이지의 HTML 코드를 파싱하기 위해서는 먼저 해당 웹 페이지의 HTML을 가져와야 합니다. 이를 위해서는 requests
라이브러리를 사용할 수 있습니다. 아래의 예시 코드를 참고하세요.
import requests
url = "https://example.com" # 원하는 웹 페이지의 URL
response = requests.get(url)
html = response.text
특정 태그로 정보 찾기
Beautiful Soup을 사용하여 원하는 태그로 정보를 찾는 방법은 매우 간단합니다. 아래의 예시 코드를 참고하세요.
from bs4 import BeautifulSoup
# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, "html.parser")
# 원하는 태그로 정보 찾기
tag = soup.find("태그명")
위의 코드에서 "태그명"
부분에는 원하는 태그 이름을 지정하면 됩니다. 결과로는 해당 태그의 첫 번째 요소가 반환됩니다.
만약 웹 페이지에 해당 태그가 여러 개 있다면, find_all
메서드를 사용하여 모든 요소를 찾을 수 있습니다.
tags = soup.find_all("태그명")
위의 코드에서 tags
변수에는 웹 페이지에서 모든 해당 태그 요소가 리스트 형태로 저장됩니다.
예시 코드
다음은 Beautiful Soup을 사용하여 웹 페이지에서 특정 태그로 정보를 찾는 예시 코드입니다.
import requests
from bs4 import BeautifulSoup
# 웹 페이지의 HTML 코드 가져오기
url = "https://example.com"
response = requests.get(url)
html = response.text
# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, "html.parser")
# 원하는 태그로 정보 찾기
tag = soup.find("h1")
# 결과 출력
print(tag.text)
위의 코드는 https://example.com
웹 페이지에서 첫 번째로 발견되는 h1
태그를 찾아 그 안의 텍스트를 출력하는 예시입니다.
마무리
Beautiful Soup을 사용하면 웹 페이지의 HTML 코드를 파싱하여 필요한 정보를 추출할 수 있습니다. 특정 태그로 정보를 찾는 방법을 익혀서 원하는 데이터를 간편하게 가져올 수 있습니다.