[파이썬] Beautiful Soup 4 Beautiful Soup과 함께 사용하는 파서

06 Sep 2023

beautiful soup

Beautiful Soup 4는 파이썬의 HTML 및 XML 분석 라이브러리로 많은 사람들이 웹 스크래핑 작업을 수행하기 위해 사용합니다. Beautiful Soup을 사용하면 웹 페이지의 데이터를 추출하고 구문 분석할 수 있으며, 파서(Parser)는 이러한 작업을 수행하는 핵심 역할을 합니다. Beautiful Soup을 사용할 때는 다양한 파서를 선택할 수 있으며, 이 글에서는 Beautiful Soup과 함께 사용하는 파서에 대해 알아보겠습니다.

html.parser

기본 파서로서 html.parser는 Beautiful Soup 패키지에 내장된 파서입니다. 이 파서는 매우 유연하고 빠른 속도를 가지며, 대부분의 HTML 문서를 처리할 수 있습니다. 다음은 html.parser를 사용하여 Beautiful Soup 객체를 생성하는 예제 코드입니다:

from bs4 import BeautifulSoup

# HTML을 파싱하고 Beautiful Soup 객체 생성
html = "<html><body><p>Hello, BeautifulSoup!</p></body></html>"
soup = BeautifulSoup(html, 'html.parser')

lxml parser

lxml은 C로 구현된 외부 라이브러리로, Beautiful Soup과 함께 사용할 수 있는 파서 중 하나입니다. lxml은 매우 빠른 속도와 강력한 기능을 제공하며, HTML 및 XML 문서를 처리하는 데 사용됩니다. 다음은 lxml 파서를 사용하여 Beautiful Soup 객체를 생성하는 예제 코드입니다:

from bs4 import BeautifulSoup

# HTML을 파싱하고 Beautiful Soup 객체 생성
html = "<html><body><p>Hello, BeautifulSoup!</p></body></html>"
soup = BeautifulSoup(html, 'lxml')

html5lib parser

html5lib 파서는 HTML5의 공식 파서인데, 아주 복잡한 HTML 문서를 파싱하는 데 사용됩니다. html5lib은 파이썬으로 작성되었으므로 순수 파이썬에 의존하기 때문에 다른 파서들보다 처리 속도가 느릴 수 있습니다. 다음은 html5lib 파서를 사용하여 Beautiful Soup 객체를 생성하는 예제 코드입니다:

from bs4 import BeautifulSoup

# HTML을 파싱하고 Beautiful Soup 객체 생성
html = "<html><body><p>Hello, BeautifulSoup!</p></body></html>"
soup = BeautifulSoup(html, 'html5lib')

위의 예제 코드에서는 Beautiful Soup 객체를 생성하기 위해 파서를 지정하며, 첫 번째 인자로 HTML 또는 XML 문자열을 전달합니다.

이렇게 Beautiful Soup과 함께 사용할 수 있는 파서를 알아보았습니다. 각각의 파서는 각자의 특징과 성능을 가지고 있으므로, 사용 시에는 파싱할 문서의 특성과 요구 사항을 고려하여 적절한 파서를 선택해야 합니다.