Beautiful Soup은 Python의 HTML 및 XML 파싱 라이브러리로, 웹 페이지에서 데이터를 추출하는 데 매우 효과적입니다. 이번 게시물에서는 Beautiful Soup을 사용하여 웹 페이지에서 특정 아이디를 추출하는 방법을 알아보겠습니다.
1. Beautiful Soup 설치하기
Beautiful Soup을 사용하기 위해 먼저 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install beautifulsoup4
2. 웹 페이지에서 데이터 가져오기
먼저 웹 페이지의 HTML을 가져와야 합니다. requests
라이브러리를 사용하면 간단하게 웹 페이지의 HTML을 가져올 수 있습니다. 다음은 requests
라이브러리를 사용하여 웹 페이지의 HTML을 가져오는 예제입니다.
import requests
url = "https://example.com"
response = requests.get(url)
html = response.text
3. Beautiful Soup을 사용하여 아이디 추출하기
이제 Beautiful Soup을 사용하여 웹 페이지에서 특정 아이디를 추출할 수 있습니다. 추출하고자 하는 아이디의 태그와 속성을 알아야 합니다. 예를 들어, <div class="user" id="username">John</div>
에서 아이디 ‘John’을 추출하고 싶다면, div
태그의 class
와 id
속성을 활용해야 합니다.
다음은 추출한 웹 페이지 HTML에서 특정 아이디를 추출하는 예제 코드입니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
id_element = soup.find('div', {'class': 'user', 'id': 'username'})
id = id_element.text
print(id)
위 예제에서는 find
메서드를 사용하여 웹 페이지 HTML에서 div
태그이면서 class
가 ‘user’이고 id
가 ‘username’인 요소를 찾습니다. 그리고 해당 요소의 텍스트를 변수 id
에 저장합니다.
4. 실행 결과 확인하기
추출한 아이디를 출력해보면 다음과 같이 나타납니다.
John
마무리
Beautiful Soup을 사용하면 웹 페이지에서 원하는 데이터를 쉽게 추출할 수 있습니다. 이번 예제에서는 특정 아이디를 추출하는 방법을 알아보았습니다. Beautiful Soup에는 다양한 기능과 메서드가 있으므로, 원하는 데이터를 정확하게 추출하기 위해 공식 문서를 참조하는 것이 좋습니다.
참고 자료
- Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- requests 라이브러리: https://requests.readthedocs.io/