이번 포스트에서는 파이썬을 사용하여 웹 페이지를 준비하는 방법에 대해 알아보겠습니다. 웹 페이지를 준비하는 것은 웹 테스트나 스크래핑 과정에서 매우 중요한 단계입니다.
라이브러리 설치
먼저, 웹 페이지를 다루기 위해 필요한 라이브러리를 설치해야 합니다. Python에서는 requests
와 beautifulsoup4
라이브러리를 사용하여 웹 페이지에 접근하고 데이터를 추출할 수 있습니다. 아래의 명령어를 사용하여 라이브러리를 설치합니다.
pip install requests beautifulsoup4
웹 페이지 접근
웹 페이지에 접근하기 위해서는 해당 페이지의 URL을 알아야 합니다. 예를 들어, http://example.com
이라는 웹 페이지에 접근하고자 한다면 다음과 같이 requests
라이브러리를 사용하여 접근할 수 있습니다.
import requests
url = "http://example.com"
response = requests.get(url)
print(response.text)
위의 예제 코드에서 requests.get()
함수를 사용하여 해당 URL로 GET 요청을 보내고, 응답을 받아 response
변수에 저장합니다. response.text
를 사용하면 웹 페이지의 HTML 코드를 확인할 수 있습니다.
데이터 추출
웹 페이지에 접근하여 데이터를 추출하기 위해서는 beautifulsoup4
라이브러리를 사용합니다. 아래의 예제 코드를 참고하여 데이터를 추출하는 방법을 알아보세요.
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")
# 웹 페이지에서 원하는 데이터 추출하기
title = soup.title.string
print("페이지 제목:", title)
# CSS 선택자를 사용하여 요소 추출하기
element = soup.select_one(".class_name")
print(element.text)
위의 예제 코드에서는 BeautifulSoup
클래스를 사용하여 웹 페이지의 HTML 코드를 파싱한 후, 원하는 데이터를 추출합니다. soup.title.string
을 사용하면 페이지의 제목을 추출할 수 있고, soup.select_one()
함수를 사용하여 CSS 선택자를 이용해 원하는 요소를 추출할 수 있습니다.
위 코드에서 "http://example.com"
에 접속하여 페이지를 로드하고, 해당 페이지의 제목과 .class_name
클래스를 가진 요소의 텍스트를 출력합니다.
참고 자료: