[python] 파이썬 BeautifulSoup으로 특정 요소 찾기
파이썬에서 웹 스크래핑을 할 때, BeautifulSoup 라이브러리는 매우 유용합니다. BeautifulSoup을 사용하면 HTML 또는 XML 문서에서 특정 요소를 찾거나 조작할 수 있습니다. 이번 포스트에서는 BeautifulSoup을 사용하여 HTML 문서에서 특정 요소를 찾는 방법을 설명하겠습니다.
BeautifulSoup 설치
먼저, BeautifulSoup를 설치해야 합니다. 아래의 명령어를 실행하여 BeautifulSoup를 설치할 수 있습니다.
pip install beautifulsoup4
예제 코드
다음은 파이썬에서 BeautifulSoup을 사용하여 특정 요소를 찾는 예제 코드입니다.
from bs4 import BeautifulSoup
# HTML 예시 코드
html = """
<html>
<head>
<title>웹 페이지</title>
</head>
<body>
<h1>제목</h1>
<div class="content">
<p>내용1</p>
<p>내용2</p>
</div>
</body>
</html>
"""
# BeautifulSoup 객체 생성
soup = BeautifulSoup(html, 'html.parser')
# 특정 요소 찾기
title = soup.find('title')
print(title.text) # '웹 페이지'
content = soup.find('div', {'class': 'content'})
paragraphs = content.find_all('p')
for p in paragraphs:
print(p.text)
위의 코드에서는 HTML 예시 코드에서 title
요소와 div
요소 중 class
속성이 content
인 요소를 찾고, 해당 요소의 자식 요소인 p
요소들을 출력하고 있습니다.
요약
이번 포스트에서는 파이썬 BeautifulSoup 라이브러리를 사용하여 HTML 문서에서 특정 요소를 찾는 방법을 알아보았습니다. BeautifulSoup은 웹 스크래핑 과정에서 매우 유용하게 사용될 수 있으므로, 웹 데이터를 처리하는데 도움이 되는 도구입니다.
참고 자료: