[python] 페이지 추출하기

30 Nov 2023

python

이번에는 Python을 사용하여 웹 페이지를 추출해보겠습니다. Python에는 웹 스크래핑을 위한 다양한 라이브러리가 있지만, 이 예시에서는 requests와 beautifulsoup4 모듈을 사용합니다.

requests 모듈 설치하기

먼저, requests 모듈을 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install requests

beautifulsoup4 모듈 설치하기

다음으로, beautifulsoup4 모듈을 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

pip install beautifulsoup4

웹 페이지 추출하기

이제 실제로 웹 페이지를 추출해보겠습니다. 아래의 코드를 사용하여 원하는 페이지의 HTML을 가져올 수 있습니다.

import requests

url = "https://www.example.com"

response = requests.get(url)
html = response.text

print(html)

위의 코드에서는 requests 모듈을 사용하여 https://www.example.com 페이지의 HTML을 가져옵니다. response.text를 통해 웹 페이지의 텍스트를 추출한 후, print 함수를 사용하여 결과를 확인합니다.

BeautifulSoup를 이용한 데이터 추출

만약 웹 페이지에서 특정한 데이터를 추출하고 싶다면, beautifulsoup4 모듈을 사용할 수 있습니다. 아래의 코드를 사용하여 특정한 데이터를 추출해보겠습니다.

import requests
from bs4 import BeautifulSoup

url = "https://www.example.com"

response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, "html.parser")
data = soup.find("div", class_="content")

print(data.text)

위의 코드에서는 beautifulsoup4 모듈을 사용하여 https://www.example.com 페이지의 특정한 데이터를 추출합니다. find 함수와 CSS 선택자를 사용하여 원하는 요소를 선택하고, text 속성을 통해 텍스트를 추출한 후, print 함수를 사용하여 결과를 확인합니다.

이제 위의 예제 코드를 참고하여 원하는 웹 페이지를 추출해보세요. Happy Coding!

requests 모듈 설치하기

beautifulsoup4 모듈 설치하기

웹 페이지 추출하기

BeautifulSoup를 이용한 데이터 추출

참고 자료