[python] 특정 웹 페이지의 텍스트 데이터 크롤링하기

[python] 특정 웹 페이지의 텍스트 데이터 크롤링하기

15 Dec 2023

python

목차

라이브러리 가져오기
웹 페이지에 접속하기
텍스트 데이터 추출하기

1. 라이브러리 가져오기

Python에서는 requests 라이브러리를 사용하여 웹 페이지에 HTTP 요청을 보내고 BeautifulSoup 라이브러리를 사용하여 HTML에서 데이터를 추출할 수 있습니다.

import requests
from bs4 import BeautifulSoup

2. 웹 페이지에 접속하기

requests 라이브러리를 사용하여 특정 웹 페이지에 HTTP GET 요청을 보내고, 응답을 받아옵니다.

url = 'https://www.example.com'
response = requests.get(url)

3. 텍스트 데이터 추출하기

BeautifulSoup를 사용하여 HTML 문서에서 원하는 데이터를 추출합니다.

soup = BeautifulSoup(response.text, 'html.parser')
text_data = soup.get_text()
print(text_data)

이제 여러분은 Python을 사용하여 웹 페이지에서 텍스트 데이터를 크롤링할 수 있게 되었습니다. 다만, 크롤링할 웹 사이트의 이용 약관을 확인하고, 웹사이트 소유자의 동의를 얻는 것이 중요합니다.

이것으로 Python을 사용하여 웹 페이지에서 텍스트 데이터를 크롤링하는 방법을 알아보았습니다. 만약 질문이 있거나 추가 정보가 필요하다면, 언제든지 물어봐 주세요!