[python] Beautiful Soup로 웹 페이지의 모든 태그 종류 확인하기

웹 스크래핑을 하고자 할 때, 웹 페이지의 HTML 코드를 분석해야 할 때가 있습니다. 이때 Beautiful Soup라는 파이썬 라이브러리를 사용하면 편리하게 HTML을 파싱하고 원하는 정보를 추출할 수 있습니다.

Beautiful Soup를 사용하여 웹 페이지의 모든 태그 종류를 확인하는 방법에 대해서 알아보겠습니다.

설치하기

Beautiful Soup를 사용하기 위해서는 먼저 해당 라이브러리를 컴퓨터에 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

사용하기

먼저, requests 라이브러리를 사용하여 웹 페이지의 HTML 코드를 가져옵니다.

import requests

url = 'http://example.com'
response = requests.get(url)
html = response.text

다음으로, BeautifulSoup 객체를 생성하여 HTML을 파싱합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

soup 객체를 통해 웹 페이지의 태그들을 쉽게 탐색할 수 있습니다. 아래의 코드를 사용하여 모든 태그의 종류를 확인할 수 있습니다.

tags = set()

for tag in soup.find_all():
    tags.add(tag.name)

print(tags)

soup.find_all() 메서드는 웹 페이지의 모든 태그를 가져옵니다. 이후 tag.name을 통해 태그의 이름을 추출하여 tags라는 집합(set)에 추가합니다. 마지막으로 tags를 출력하면 웹 페이지의 모든 태그 종류를 확인할 수 있습니다.

위의 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.

{'a', 'html', 'body', 'title', 'h1', 'p', ...}

결론

Beautiful Soup를 사용하면 웹 페이지의 HTML을 쉽게 파싱하여 원하는 태그를 찾거나 웹 페이지의 구조를 확인할 수 있습니다. 이를 활용하여 웹 스크래핑 작업을 보다 효율적으로 수행할 수 있습니다.

참고 자료