[python] 파이썬 BeautifulSoup으로 CSS 선택자 사용하기

04 Dec 2023

python

파이썬 BeautifulSoup 라이브러리는 HTML 및 XML 문서를 구문 분석하기 위한 강력한 도구입니다. 이 라이브러리를 사용하면 웹 스크래핑 작업을 쉽게 수행할 수 있습니다. 이번 포스트에서는 BeautifulSoup을 사용하여 CSS 선택자를 적용하는 방법에 대해 알아보겠습니다.

BeautifulSoup 설치

먼저 BeautifulSoup을 설치해야 합니다. pip를 사용하여 다음 명령을 실행하여 설치할 수 있습니다.

pip install beautifulsoup4

CSS 선택자 사용하기

BeautifulSoup을 사용하여 HTML 문서를 구문 분석한 후, CSS 선택자를 사용하여 특정 요소를 선택할 수 있습니다.

from bs4 import BeautifulSoup

# HTML 문서 예시
html = """
<html>
<body>
    <div class="container">
        <h1>BeautifulSoup으로 CSS 선택자 사용하기</h1>
        <ul>
            <li class="item">아이템 1</li>
            <li class="item">아이템 2</li>
            <li class="item">아이템 3</li>
        </ul>
    </div>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

# CSS 선택자를 사용하여 'h1' 태그 선택
h1_tag = soup.select_one('h1')

# CSS 선택자를 사용하여 'li' 태그 선택
li_tags = soup.select('li.item')

print(h1_tag.text)  # BeautifulSoup으로 CSS 선택자 사용하기
for li in li_tags:
    print(li.text)

위의 코드는 HTML 문서를 BeautifulSoup으로 구문 분석한 후, CSS 선택자를 사용하여 ‘h1’ 태그와 ‘li’ 태그를 선택하는 예시입니다. select_one 함수는 CSS 선택자와 일치하는 첫 번째 요소를 반환하고, select 함수는 CSS 선택자와 일치하는 모든 요소를 반환합니다.

결론

BeautifulSoup 라이브러리를 사용하면 파이썬에서 HTML 및 XML 문서를 쉽게 구문 분석할 수 있습니다. CSS 선택자를 사용하여 특정 요소를 선택하고 웹 스크래핑 작업을 수행할 수 있습니다. 이를 통해 웹 데이터를 빠르고 효율적으로 가져올 수 있습니다. BeautifulSoup 라이브러리에 대해 더 자세히 알아보고 싶다면 공식 문서를 참조해보세요.

참고 자료:

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
BeautifulSoup GitHub 저장소: https://github.com/