[python] Beautiful Soup로 웹 페이지의 모든 태그 개수 세기

30 Nov 2023

Beautiful Soup는 파이썬 웹 스크래핑 라이브러리로, HTML 및 XML 문서를 구문 분석하고 추출하기위한 강력한 도구입니다. 이번 예시에서는 Beautiful Soup를 사용하여 웹 페이지에서 모든 태그의 개수를 세는 방법을 살펴보겠습니다.

먼저, bs4 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 설치합니다:

pip install bs4

다음으로, requests를 사용하여 웹 페이지의 HTML 코드를 가져오는 예제 코드입니다:

import requests

url = "http://example.com"
response = requests.get(url)
html_content = response.text

그 다음, BeautifulSoup 객체를 생성하고 find_all 메서드를 사용하여 모든 태그를 찾는 예제 코드입니다:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, "html.parser")
all_tags = soup.find_all()

find_all 메서드에 아무런 인자를 지정하지 않으면 모든 태그를 찾습니다. 이제 len 함수를 사용하여 태그의 개수를 세는 예제 코드입니다:

tag_count = len(all_tags)
print("태그 개수:", tag_count)

이제 모든 태그의 개수를 프린트할 수 있습니다.

추가로, 특정 태그의 개수를 세려면 find_all 메서드에 해당 태그 이름을 인자로 지정하면 됩니다. 예를 들어, a 태그의 개수를 세는 예제 코드는 다음과 같습니다:

a_tag_count = len(soup.find_all("a"))
print("a 태그 개수:", a_tag_count)

이제 Beautiful Soup를 사용하여 웹 페이지에서 태그의 개수를 세는 방법을 알게 되셨습니다. 이를 응용하여 다양한 웹 스크래핑 작업을 수행할 수 있습니다. 자세한 내용은 Beautiful Soup 공식 문서를 참조하세요.