[python] 파이썬 BeautifulSoup으로 웹 페이지 내용 가져오기

04 Dec 2023

python

파이썬을 사용하여 웹 페이지의 내용을 가져오는 방법은 여러 가지가 있습니다. 그 중에서도 BeautifulSoup 라이브러리를 사용하면 웹 페이지의 HTML 구조를 파싱하고 내용을 추출하기 쉽고 간편하게 할 수 있습니다.

BeautifulSoup 라이브러리 설치

아래의 명령어를 사용하여 BeautifulSoup 라이브러리를 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지의 내용 가져오기

일단 BeautifulSoup를 설치했다면, 아래와 같은 코드로 웹 페이지의 내용을 가져올 수 있습니다.

import requests
from bs4 import BeautifulSoup

# 웹 페이지의 URL
url = "https://example.com"

# HTTP GET 요청을 보냄
response = requests.get(url)

# HTTP 응답 코드 확인
if response.status_code == 200:
    # HTML을 파싱하여 BeautifulSoup 객체 생성
    soup = BeautifulSoup(response.text, "html.parser")

    # 웹 페이지의 내용 추출
    content = soup.get_text()

    # 내용 출력
    print(content)
else:
    print("Failed to retrieve the web page")

위의 코드는 requests 라이브러리를 사용하여 웹 페이지에 HTTP GET 요청을 보내고, 응답을 받아 BeautifulSoup 객체로 파싱한 후 웹 페이지의 내용을 추출하여 출력하는 예제입니다.

추가 작업

BeautifulSoup를 사용하면 웹 페이지의 다양한 요소들을 추출할 수 있습니다. 예를 들어, 웹 페이지의 제목 요소를 가져오려면 아래와 같은 코드를 추가할 수 있습니다.

# 웹 페이지의 제목 추출
title = soup.title.string

# 제목 출력
print(title)

이처럼 BeautifulSoup를 사용하면 웹 페이지의 내용을 쉽게 가져올 수 있습니다. 하지만 웹 페이지의 구조에 따라 다른 방식으로 요소를 추출해야 할 수도 있습니다. 필요한 작업에 따라 BeautifulSoup의 다양한 기능을 활용하여 웹 페이지 작업을 진행하면 됩니다.

참고 자료

BeautifulSoup 공식 문서: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
requests 라이브러리: https://requests.readthedocs.io/en/latest/