[파이썬] Beautiful Soup 4 정규 표현식과 함께 사용하기

06 Sep 2023

beautiful soup

Beautiful Soup 4는 HTML 및 XML 문서를 파싱하고 조작하는 파이썬 라이브러리입니다. 이 라이브러리를 사용하면 웹 스크래핑 작업을 쉽게 수행할 수 있습니다. Beautiful Soup 4에는 정규 표현식을 사용하여 원하는 데이터를 더욱 효과적으로 추출할 수 있는 강력한 기능이 있습니다.

정규 표현식과 함께 사용하기

Beautiful Soup 4에서 정규 표현식을 사용하는 방법은 간단합니다. find_all 메서드와 함께 정규 표현식을 사용하여 필터링할 수 있습니다. 이를 통해 특정 패턴을 가진 요소들만 선택하거나, 원하는 데이터를 추출할 수 있습니다.

아래는 Beautiful Soup 4와 정규 표현식을 함께 사용하는 예제 코드입니다.

import re
from bs4 import BeautifulSoup

# HTML 문서
html_doc = """
<html>
<body>
<div class="container">
    <h1>Welcome to my blog!</h1>
    <p class="post">This is my first post.</p>
    <p class="post">This is my second post.</p>
</div>
</body>
</html>
"""

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html_doc, 'html.parser')

# class가 "post"인 모든 p 요소 선택
posts = soup.find_all('p', class_=re.compile('post'))

# 결과 출력
for post in posts:
    print(post.text)

위 예제 코드에서는 find_all 메서드의 class_ 매개변수에 정규 표현식 re.compile('post')을 사용하여 class 이름이 “post”인 모든 p 요소를 선택합니다. 선택된 요소에서 text 속성을 사용하여 해당 요소의 텍스트 데이터를 추출하여 출력합니다.

이와 같은 방법으로 Beautiful Soup 4에서 정규 표현식을 사용하여 원하는 데이터를 더욱 쉽게 추출할 수 있습니다.

결론

Beautiful Soup 4는 파이썬에서 HTML 및 XML 문서를 파싱하고 조작하는데 매우 유용한 도구입니다. 이 라이브러리를 사용하면 웹 스크래핑 작업을 더욱 효율적이고 간편하게 수행할 수 있습니다. 정규 표현식과 함께 사용하면 특정 패턴을 가진 요소들을 쉽게 선택하고 데이터를 추출할 수 있습니다.