[python] Beautiful Soup로 웹 페이지에서 특정 아이디 추출하기

30 Nov 2023

python

Beautiful Soup은 Python의 HTML 및 XML 파싱 라이브러리로, 웹 페이지에서 데이터를 추출하는 데 매우 효과적입니다. 이번 게시물에서는 Beautiful Soup을 사용하여 웹 페이지에서 특정 아이디를 추출하는 방법을 알아보겠습니다.

1. Beautiful Soup 설치하기

Beautiful Soup을 사용하기 위해 먼저 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

2. 웹 페이지에서 데이터 가져오기

먼저 웹 페이지의 HTML을 가져와야 합니다. requests 라이브러리를 사용하면 간단하게 웹 페이지의 HTML을 가져올 수 있습니다. 다음은 requests 라이브러리를 사용하여 웹 페이지의 HTML을 가져오는 예제입니다.

import requests

url = "https://example.com"
response = requests.get(url)
html = response.text

3. Beautiful Soup을 사용하여 아이디 추출하기

이제 Beautiful Soup을 사용하여 웹 페이지에서 특정 아이디를 추출할 수 있습니다. 추출하고자 하는 아이디의 태그와 속성을 알아야 합니다. 예를 들어, <div class="user" id="username">John</div>에서 아이디 ‘John’을 추출하고 싶다면, div 태그의 class와 id 속성을 활용해야 합니다.

다음은 추출한 웹 페이지 HTML에서 특정 아이디를 추출하는 예제 코드입니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
id_element = soup.find('div', {'class': 'user', 'id': 'username'})
id = id_element.text

print(id)

위 예제에서는 find 메서드를 사용하여 웹 페이지 HTML에서 div 태그이면서 class가 ‘user’이고 id가 ‘username’인 요소를 찾습니다. 그리고 해당 요소의 텍스트를 변수 id에 저장합니다.

4. 실행 결과 확인하기

추출한 아이디를 출력해보면 다음과 같이 나타납니다.

John

마무리

Beautiful Soup을 사용하면 웹 페이지에서 원하는 데이터를 쉽게 추출할 수 있습니다. 이번 예제에서는 특정 아이디를 추출하는 방법을 알아보았습니다. Beautiful Soup에는 다양한 기능과 메서드가 있으므로, 원하는 데이터를 정확하게 추출하기 위해 공식 문서를 참조하는 것이 좋습니다.

참고 자료

Beautiful Soup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
requests 라이브러리: https://requests.readthedocs.io/