[python] 파이썬 BeautifulSoup의 주요 메서드

04 Dec 2023

BeautifulSoup은 웹 스크래핑을 위한 파이썬 라이브러리로, HTML 및 XML 문서에서 데이터를 추출하는데 사용됩니다. BeautifulSoup에는 다양한 메서드가 있지만, 여기에서는 가장 주요한 메서드에 대해 알아보겠습니다.

1. BeautifulSoup 생성자

BeautifulSoup 객체를 생성하기 위한 메서드입니다. 파싱할 문서와 파서 종류를 인수로 받습니다.

from bs4 import BeautifulSoup

# HTML 문서 파싱
soup = BeautifulSoup(html_doc, 'html.parser')

# XML 문서 파싱
soup = BeautifulSoup(xml_doc, 'xml')

지정한 태그를 찾는 메서드입니다. 첫 번째 매칭되는 태그를 반환하며, 만약 찾지 못한 경우 None을 반환합니다.

# id 속성 값이 'content'인 태그를 찾음
tag = soup.find(id='content')

지정한 태그들을 모두 찾는 메서드입니다. 매칭되는 모든 태그를 리스트로 반환합니다.

# 'a' 태그 모두 찾기
tags = soup.find_all('a')

태그의 속성 값을 가져오는 메서드입니다. 지정한 속성의 값을 반환하며, 만약 속성이 존재하지 않을 경우 None을 반환합니다.

# 'href' 속성 값 가져오기
href = tag.get('href')

태그 안의 텍스트를 반환하는 메서드입니다. 태그의 모든 하위 텍스트를 결합하여 반환합니다.

# 태그 안의 텍스트 가져오기
text = tag.text

BeautifulSoup에는 이 외에도 다양한 메서드와 기능이 있습니다. 상세한 내용은 공식 문서를 참조하시기 바랍니다.