[python] 특정 웹 페이지의 텍스트 데이터 크롤링하기
목차
- 라이브러리 가져오기
- 웹 페이지에 접속하기
- 텍스트 데이터 추출하기
1. 라이브러리 가져오기
Python에서는 requests 라이브러리를 사용하여 웹 페이지에 HTTP 요청을 보내고 BeautifulSoup 라이브러리를 사용하여 HTML에서 데이터를 추출할 수 있습니다.
import requests
from bs4 import BeautifulSoup
2. 웹 페이지에 접속하기
requests 라이브러리를 사용하여 특정 웹 페이지에 HTTP GET 요청을 보내고, 응답을 받아옵니다.
url = 'https://www.example.com'
response = requests.get(url)
3. 텍스트 데이터 추출하기
BeautifulSoup를 사용하여 HTML 문서에서 원하는 데이터를 추출합니다.
soup = BeautifulSoup(response.text, 'html.parser')
text_data = soup.get_text()
print(text_data)
이제 여러분은 Python을 사용하여 웹 페이지에서 텍스트 데이터를 크롤링할 수 있게 되었습니다. 다만, 크롤링할 웹 사이트의 이용 약관을 확인하고, 웹사이트 소유자의 동의를 얻는 것이 중요합니다.
이것으로 Python을 사용하여 웹 페이지에서 텍스트 데이터를 크롤링하는 방법을 알아보았습니다. 만약 질문이 있거나 추가 정보가 필요하다면, 언제든지 물어봐 주세요!