[python] Beautiful Soup로 웹 페이지의 모든 링크 추출하기
Beautiful Soup은 파이썬 라이브러리로, 웹 스크래핑과 데이터 파싱에 매우 유용합니다. 이번에는 Beautiful Soup을 사용하여 웹 페이지에서 모든 링크를 추출하는 방법에 대해 알아보겠습니다.
필요한 라이브러리 설치하기
먼저, Beautiful Soup을 사용하기 위해 bs4
라이브러리를 설치해야 합니다. 다음 명령어를 사용하여 설치할 수 있습니다.
pip install bs4
웹 페이지 데이터 가져오기
Beautiful Soup을 사용하기 위해 먼저 웹 페이지의 데이터를 가져와야 합니다. 다음은 requests
라이브러리를 사용하여 웹 페이지의 데이터를 가져오는 코드입니다.
import requests
url = "https://example.com"
response = requests.get(url)
data = response.text
Beautiful Soup으로 링크 추출하기
이제 가져온 웹 페이지 데이터를 Beautiful Soup으로 파싱하여 링크를 추출할 수 있습니다. 다음은 Beautiful Soup을 사용하여 웹 페이지의 모든 링크를 추출하는 코드입니다.
from bs4 import BeautifulSoup
soup = BeautifulSoup(data, 'html.parser')
links = soup.find_all('a')
for link in links:
print(link['href'])
위의 코드는 웹 페이지의 모든 <a>
태그를 찾아 해당 태그의 href
속성값을 출력하는 예시입니다. find_all()
메서드를 사용하여 모든 태그를 찾을 수 있습니다.
실행 결과
위의 코드를 실행하면 웹 페이지에서 모든 링크가 출력됩니다. 이러한 방식으로 Beautiful Soup을 사용하여 웹 페이지의 다른 엘리먼트나 데이터를 파싱할 수도 있습니다.