[python] Beautiful Soup로 웹 페이지에서 특정 태그로 찾기

30 Nov 2023

python

Beautiful Soup은 파이썬 라이브러리로, 웹 페이지의 HTML 코드를 파싱하고 원하는 정보를 추출할 수 있습니다. 이번 포스트에서는 Beautiful Soup을 사용하여 웹 페이지에서 특정 태그로 원하는 정보를 찾는 방법에 대해 알아보겠습니다.

Beautiful Soup 설치

Beautiful Soup을 사용하기 위해선 먼저 라이브러리를 설치해야 합니다. 아래의 명령어를 사용하여 Beautiful Soup을 설치하세요.

pip install beautifulsoup4

웹 페이지의 HTML 코드 가져오기

Beautiful Soup으로 웹 페이지의 HTML 코드를 파싱하기 위해서는 먼저 해당 웹 페이지의 HTML을 가져와야 합니다. 이를 위해서는 requests 라이브러리를 사용할 수 있습니다. 아래의 예시 코드를 참고하세요.

import requests

url = "https://example.com"  # 원하는 웹 페이지의 URL
response = requests.get(url)
html = response.text

특정 태그로 정보 찾기

Beautiful Soup을 사용하여 원하는 태그로 정보를 찾는 방법은 매우 간단합니다. 아래의 예시 코드를 참고하세요.

from bs4 import BeautifulSoup

# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, "html.parser")

# 원하는 태그로 정보 찾기
tag = soup.find("태그명")

위의 코드에서 "태그명" 부분에는 원하는 태그 이름을 지정하면 됩니다. 결과로는 해당 태그의 첫 번째 요소가 반환됩니다.

만약 웹 페이지에 해당 태그가 여러 개 있다면, find_all 메서드를 사용하여 모든 요소를 찾을 수 있습니다.

tags = soup.find_all("태그명")

위의 코드에서 tags 변수에는 웹 페이지에서 모든 해당 태그 요소가 리스트 형태로 저장됩니다.

예시 코드

다음은 Beautiful Soup을 사용하여 웹 페이지에서 특정 태그로 정보를 찾는 예시 코드입니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지의 HTML 코드 가져오기
url = "https://example.com"
response = requests.get(url)
html = response.text

# Beautiful Soup 객체 생성
soup = BeautifulSoup(html, "html.parser")

# 원하는 태그로 정보 찾기
tag = soup.find("h1")

# 결과 출력
print(tag.text)

위의 코드는 https://example.com 웹 페이지에서 첫 번째로 발견되는 h1 태그를 찾아 그 안의 텍스트를 출력하는 예시입니다.

마무리

Beautiful Soup을 사용하면 웹 페이지의 HTML 코드를 파싱하여 필요한 정보를 추출할 수 있습니다. 특정 태그로 정보를 찾는 방법을 익혀서 원하는 데이터를 간편하게 가져올 수 있습니다.