[python] 파이썬 BeautifulSoup으로 웹 페이지 분석하기

04 Dec 2023

python

파이썬은 강력한 웹 스크래핑과 데이터 분석 도구로써, BeautifulSoup 라이브러리를 이용해 웹 페이지를 분석할 수 있습니다. BeautifulSoup은 HTML 구문을 파싱하여 웹 페이지의 요소를 추출하고 조작하는데 사용되는 인기있는 라이브러리입니다. 이번 블로그 포스트에서는 BeautifulSoup을 사용하여 웹 페이지를 분석하는 방법을 살펴보겠습니다.

BeautifulSoup 설치하기

먼저, BeautifulSoup을 설치해야 합니다. 아래의 명령어를 사용하여 pip를 통해 BeautifulSoup를 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지 가져오기

BeautifulSoup을 사용하기 위해서는 웹 페이지의 HTML 코드를 가져와야 합니다. 이를 위해, requests 라이브러리를 이용해서 해당 웹 페이지의 HTML 코드를 가져올 수 있습니다. 아래의 코드는 예시입니다.

import requests

url = "http://example.com"
response = requests.get(url)
html_code = response.text

웹 페이지 분석하기

이제 BeautifulSoup을 사용하여 가져온 웹 페이지의 HTML 코드를 분석할 수 있습니다. BeautifulSoup 객체를 생성하고, 원하는 요소를 추출하거나 조작할 수 있습니다. 아래의 코드는 BeautifulSoup을 사용하여 웹 페이지의 타이틀을 추출하는 예시입니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_code, "html.parser")
title = soup.title.text
print(title)

웹 페이지 요소 추출하기

BeautifulSoup을 사용하여 웹 페이지의 특정 요소를 추출하는 방법은 다양합니다. find, find_all 메소드를 사용하여 태그 이름, 클래스, 속성 등을 기반으로 원하는 요소를 찾을 수 있습니다. 아래의 코드는 웹 페이지에서 모든 링크를 추출하는 예시입니다.

links = soup.find_all("a")

for link in links:
    href = link.get("href")
    print(href)

결론

이렇게 BeautifulSoup 라이브러리를 사용하여 웹 페이지를 분석하는 방법을 살펴보았습니다. BeautifulSoup은 간단하고 직관적인 문법을 제공하여 웹 페이지의 요소를 쉽게 추출하고 조작할 수 있습니다. 다양한 웹 스크래핑 및 데이터 분석 프로젝트에 유용하게 사용될 수 있습니다.

참고 자료:

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Requests 라이브러리 공식 문서: https://requests.readthedocs.io/en/master/