[python] Beautiful Soup로 웹 페이지의 부모 태그 찾기

30 Nov 2023

python

웹 스크래핑을 할 때, 웹 페이지의 특정 부모 태그를 찾아야 하는 경우가 종종 있습니다. 이때 Beautiful Soup 라이브러리를 사용하면 쉽게 웹 페이지의 부모 태그를 찾을 수 있습니다.

Beautiful Soup는 Python에서 HTML 및 XML 문서를 구문 분석하는 데 사용되는 라이브러리입니다. 이 라이브러리를 사용하여 웹 페이지의 부모 태그를 찾는 방법을 살펴보겠습니다.

설치

Beautiful Soup를 사용하기 위해서는 먼저 해당 라이브러리를 설치해야 합니다. 아래 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지의 부모 태그 찾기

Beautiful Soup를 사용하여 웹 페이지의 부모 태그를 찾기 위해서는 다음과 같은 단계를 따릅니다.

필요한 라이브러리를 가져옵니다.

from bs4 import BeautifulSoup
import requests

웹 페이지의 HTML 코드를 가져옵니다.

url = "웹 페이지 주소"
response = requests.get(url)
html = response.text

Beautiful Soup 객체를 생성합니다.

soup = BeautifulSoup(html, "html.parser")

부모 태그를 찾습니다.

parent_tags = soup.find_all("부모 태그 이름")

위의 코드에서 “부모 태그 이름”을 웹 페이지에서 찾고자 하는 부모 태그의 실제 이름으로 바꾸어야 합니다.

찾은 부모 태그를 사용하여 원하는 작업을 수행합니다.

for parent_tag in parent_tags:
    # 원하는 작업 수행

위의 코드에서는 간단하게 parent_tags 리스트를 순회하면서 원하는 작업을 수행하도록 되어 있습니다. 여기에서는 각 부모 태그를 출력하는 것으로 예시를 들었습니다. 원하는 작업에 맞게 코드를 수정하여 사용하시면 됩니다.

예제

아래는 Beautiful Soup를 사용하여 웹 페이지의 부모 태그를 찾고 출력하는 예제 코드입니다.

from bs4 import BeautifulSoup
import requests

url = "http://example.com"
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, "html.parser")

parent_tags = soup.find_all("div")

for parent_tag in parent_tags:
    print(parent_tag)

위의 코드는 “http://example.com” 페이지에서 div 태그를 가진 모든 부모 태그를 찾아 화면에 출력하는 예제입니다. 원하는 웹 페이지 주소와 태그 이름을 사용하여 코드를 수정하면 다른 웹 페이지에서도 동일한 방법으로 부모 태그를 찾을 수 있습니다.

결론

Beautiful Soup를 사용하면 웹 페이지의 부모 태그를 쉽게 찾을 수 있습니다. 위의 예제 코드와 설명을 참고하여 필요한 웹 페이지의 부모 태그를 찾아 웹 스크래핑 작업을 수행해 보세요.