[python] 파이썬 BeautifulSoup으로 웹 사이트 추천

04 Dec 2023

python

웹 크롤링은 파이썬을 사용하는 개발자들에게 매우 유용한 도구입니다. 웹에서 데이터를 추출하고 웹 사이트를 분석할 수 있는 다양한 라이브러리와 프레임워크 중에서 BeautifulSoup은 가장 인기 있는 선택지입니다.

BeautifulSoup은 HTML이나 XML 문서를 파싱하고, 그 안에 있는 데이터를 쉽게 추출할 수 있는 파이썬 라이브러리입니다. 이 라이브러리를 사용하면 웹 사이트의 다양한 정보, 예를 들어 제목, 본문, 링크 등을 쉽게 추출할 수 있습니다.

# BeautifulSoup 라이브러리를 설치하기 위해 아래 명령어를 실행하세요.
# pip install beautifulsoup4

import requests
from bs4 import BeautifulSoup

def get_recommendations(url):
    # URL에서 HTML 페이지를 가져옵니다.
    response = requests.get(url)

    # HTML 페이지를 BeautifulSoup 객체로 파싱합니다.
    soup = BeautifulSoup(response.text, 'html.parser')

    # 추천할 웹 사이트 목록을 담을 리스트를 생성합니다.
    recommendations = []

    # 웹 사이트 추천을 위한 로직을 작성합니다.
    # 예를 들어, 'a' 태그에서 href 속성을 추출하여 추천할 사이트 주소를 가져올 수 있습니다.
    for link in soup.find_all('a'):
        href = link.get('href')
        if href.startswith('http'):
            recommendations.append(href)

    # 추천된 웹 사이트 목록을 반환합니다.
    return recommendations

# 추천할 웹 사이트를 지정하고, 추천 목록을 가져옵니다.
url = 'https://www.example.com'
recommendations = get_recommendations(url)

# 추천된 웹 사이트 목록을 출력합니다.
for site in recommendations:
    print(site)

위의 예제 코드에서는 BeautifulSoup를 사용하여 ‘https://www.example.com’ 사이트에서 추천할 다른 웹 사이트의 주소를 가져오는 함수를 작성했습니다. 이 함수를 호출하면 추천된 웹 사이트 목록이 출력됩니다.

이처럼 BeautifulSoup은 파이썬을 사용하여 웹 사이트에서 원하는 데이터를 추출하고, 다양한 작업을 자동화하는데 매우 효과적입니다. 또한 이 라이브러리는 사용하기 쉬우며, 다양한 옵션과 기능을 제공하기 때문에 웹 크롤링 작업에 아주 유용합니다.

더 자세한 내용은 BeautifulSoup 공식 문서를 참조하세요.