[python] 파이썬 BeautifulSoup으로 특정 요소 찾기

파이썬에서 웹 스크래핑을 할 때, BeautifulSoup 라이브러리는 매우 유용합니다. BeautifulSoup을 사용하면 HTML 또는 XML 문서에서 특정 요소를 찾거나 조작할 수 있습니다. 이번 포스트에서는 BeautifulSoup을 사용하여 HTML 문서에서 특정 요소를 찾는 방법을 설명하겠습니다.

BeautifulSoup 설치

먼저, BeautifulSoup를 설치해야 합니다. 아래의 명령어를 실행하여 BeautifulSoup를 설치할 수 있습니다.

pip install beautifulsoup4

예제 코드

다음은 파이썬에서 BeautifulSoup을 사용하여 특정 요소를 찾는 예제 코드입니다.

from bs4 import BeautifulSoup

# HTML 예시 코드
html = """
<html>
<head>
    <title>웹 페이지</title>
</head>
<body>
    <h1>제목</h1>
    <div class="content">
        <p>내용1</p>
        <p>내용2</p>
    </div>
</body>
</html>
"""

# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')

# 특정 요소 찾기
title = soup.find('title')
print(title.text)  # '웹 페이지'

content = soup.find('div', {'class': 'content'})
paragraphs = content.find_all('p')
for p in paragraphs:
    print(p.text)

위의 코드에서는 HTML 예시 코드에서 title 요소와 div 요소 중 class 속성이 content인 요소를 찾고, 해당 요소의 자식 요소인 p 요소들을 출력하고 있습니다.

요약

이번 포스트에서는 파이썬 BeautifulSoup 라이브러리를 사용하여 HTML 문서에서 특정 요소를 찾는 방법을 알아보았습니다. BeautifulSoup은 웹 스크래핑 과정에서 매우 유용하게 사용될 수 있으므로, 웹 데이터를 처리하는데 도움이 되는 도구입니다.


참고 자료: