[python] Beautiful Soup로 웹 페이지에서 특정 태그 추출하기

30 Nov 2023

python

웹 크롤링을 하다보면 웹 페이지에서 특정 태그를 추출해야 할 때가 있습니다. 이를 위해 Beautiful Soup 라이브러리를 사용할 수 있습니다. Beautiful Soup는 HTML 또는 XML 파일에서 데이터를 추출하는 파이썬 라이브러리로, 웹 크롤링에 많이 사용됩니다.

이번에는 Beautiful Soup를 사용하여 웹 페이지에서 특정 태그를 추출하는 방법에 대해 알아보겠습니다.

1. Beautiful Soup 설치

Beautiful Soup를 사용하기 위해서는 먼저 라이브러리를 설치해야 합니다. 아래 명령을 사용하여 Beautiful Soup를 설치할 수 있습니다.

pip install beautifulsoup4

2. 웹 페이지에서 태그 추출

Beautiful Soup로 웹 페이지에서 특정 태그를 추출하는 방법은 다음과 같습니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지 요청
url = 'https://www.example.com'
response = requests.get(url)

# 웹 페이지 파싱
soup = BeautifulSoup(response.content, 'html.parser')

# 추출할 태그 선택
tag = soup.find('div', class_='content')

# 추출한 태그 출력
print(tag)

위의 코드에서는 먼저 requests 모듈을 사용하여 웹 페이지에 요청을 보냅니다. 그 후에 BeautifulSoup 객체를 생성하여 웹 페이지를 파싱합니다. 웹 페이지에서 추출하고자 하는 태그를 find 메서드를 사용하여 선택한 후, 해당 태그를 출력합니다.

위의 예제에서는 div 태그이며, class_ 매개변수를 사용하여 content 클래스를 가진 태그를 선택합니다. 실제로 사용할 때는 원하는 태그와 클래스를 찾아서 적절히 선택하면 됩니다.

3. Conclusion

Beautiful Soup는 웹 페이지에서 데이터를 추출하는 작업을 쉽게 해줍니다. 위의 방법을 사용하여 웹 페이지에서 특정 태그를 추출할 수 있으며, 이를 통해 다양한 웹 크롤링 작업을 수행할 수 있습니다. Beautiful Soup의 자세한 사용법은 공식 문서에서 확인할 수 있습니다.

더 많은 Beautiful Soup와 웹 크롤링 관련 정보는 다음 링크를 참고하세요.