[python] Beautiful Soup로 웹 페이지의 모든 링크 추출하기

웹 스크레이핑은 웹 페이지의 정보를 추출하는 과정입니다. 링크 추출은 특히 웹 스크레이핑에서 많이 사용되는 기능 중 하나입니다.

Python에서는 Beautiful Soup라는 라이브러리를 사용하여 웹 페이지에서 링크를 추출할 수 있습니다. Beautiful Soup는 HTML 또는 XML 문서를 파싱하고 태그와 속성을 쉽게 탐색할 수 있는 기능을 제공합니다.

아래는 Beautiful Soup를 사용하여 웹 페이지의 모든 링크를 추출하는 간단한 예제 코드입니다.

from bs4 import BeautifulSoup
import requests

# 웹 페이지의 URL
url = "http://example.com"

# 웹 페이지에 요청을 보내고 HTML을 가져옴
response = requests.get(url)
html = response.text

# BeautifulSoup 객체를 생성하고 HTML을 파싱
soup = BeautifulSoup(html, "html.parser")

# 모든 링크 태그를 선택
link_tags = soup.find_all("a")

# 각 링크의 href 속성 값을 출력
for link in link_tags:
    href = link.get("href")
    print(href)

위의 코드에서는 먼저 requests 라이브러리를 사용하여 웹 페이지에 요청을 보내고 HTML을 가져옵니다. 그런 다음 BeautifulSoup 객체를 생성하고 HTML을 파싱합니다.

find_all 메서드를 사용하여 모든 링크 태그를 선택하고, 각 링크의 href 속성 값을 가져와서 출력합니다.

Beautiful Soup를 사용하면 웹 페이지의 다른 요소들도 손쉽게 추출할 수 있습니다. 자세한 내용은 공식 문서를 참조하시기 바랍니다.

참고 자료