[python] Beautiful Soup로 웹 페이지의 자식 태그 찾기

30 Nov 2023

python

Beautiful Soup은 파이썬 라이브러리로, 웹 스크래핑에 사용되는 매우 강력한 도구입니다. 이 라이브러리는 HTML 및 XML 문서를 파싱하고, 원하는 데이터를 추출하는 기능을 제공합니다. 이번 포스트에서는 Beautiful Soup을 사용하여 웹 페이지에서 자식 태그를 찾는 방법에 대해 알아보겠습니다.

Beautiful Soup 설치

Beautiful Soup을 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래의 명령을 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

예제 코드

다음은 Beautiful Soup을 사용하여 웹 페이지의 자식 태그를 검색하는 예제 코드입니다. 이 예제는 크롤링하려는 웹 사이트의 URL을 입력받아 해당 웹 페이지를 파싱하고, 자식 태그를 찾는 과정을 보여줍니다.

import requests
from bs4 import BeautifulSoup

def find_child_tags(url):
    # 웹 페이지 요청
    response = requests.get(url)

    # HTML 파싱
    soup = BeautifulSoup(response.text, 'html.parser')

    # 자식 태그 찾기
    children = soup.find_all('a')

    # 자식 태그 출력
    for child in children:
        print(child)

# 웹 페이지 URL 입력
url = input('웹 페이지 URL: ')

# 자식 태그 찾기 및 출력
find_child_tags(url)

실행 결과

위의 예제 코드를 실행하면, 해당 웹 페이지의 모든 자식 태그를 출력합니다. 예를 들어, ‘https://www.example.com’라는 URL을 입력했다면, 해당 웹 페이지의 모든 링크 태그를 출력할 것입니다.

결론

Beautiful Soup을 사용하면 웹 페이지의 자식 태그를 쉽게 찾을 수 있습니다. 이를 통해 웹 스크래핑 작업을 더욱 간편하게 수행할 수 있습니다. 자세한 내용은 Beautiful Soup 공식 문서를 참조하세요.