[파이썬] 웹 페이지의 HTML 가져오기

01 Sep 2023

python

Python은 강력한 웹 스크래핑 도구로, 인터넷에서 웹 페이지의 HTML을 손쉽게 가져올 수 있습니다. 이번 포스트에서는 Python을 사용하여 웹 페이지의 HTML을 가져오는 방법을 알아보겠습니다.

BeautifulSoup 사용하기

가장 인기 있는 Python 라이브러리인 BeautifulSoup을 사용하면 HTML에서 데이터를 추출할 수 있습니다. BeautifulSoup은 HTML 구문 분석을 처리하고, 데이터를 추출하는 데 사용됩니다.

먼저, BeautifulSoup 라이브러리를 설치해야 합니다. 다음 명령어를 사용하여 설치하세요:

pip install beautifulsoup4

그런 다음, 다음 예제 코드를 참조하여 웹 페이지의 HTML을 가져와 보겠습니다:

from bs4 import BeautifulSoup
import requests

# 웹 페이지의 URL
url = "https://www.example.com"

# 웹 페이지에 접근하여 HTML을 가져옴
response = requests.get(url)
html_content = response.text

# BeautifulSoup을 사용하여 HTML을 구문 분석
soup = BeautifulSoup(html_content, 'html.parser')

# 필요한 데이터를 추출
title = soup.title.text
paragraphs = soup.find_all('p')

# 추출된 데이터 출력
print("웹 페이지 제목:", title)
print("본문 내용:")
for p in paragraphs:
    print(p.text)

위 코드는 BeautifulSoup을 사용하여 ‘https://www.example.com’ 웹 페이지의 HTML을 가져오고, 제목과 본문의 단락들을 추출합니다. 가져온 데이터는 간단히 출력됩니다.

Requests 라이브러리 사용하기

또 다른 인기 있는 웹 스크래핑 라이브러리인 Requests를 사용하여도 웹 페이지의 HTML을 가져올 수 있습니다. Requests는 HTTP 요청을 보내고 응답을 받는 데 사용됩니다.

Requests 라이브러리를 설치하려면 다음 명령어를 실행하세요:

pip install requests

다음 예제 코드를 참조하여 Requests를 사용하여 웹 페이지의 HTML을 가져와 보겠습니다:

import requests

# 웹 페이지의 URL
url = "https://www.example.com"

# 웹 페이지에 접근하여 HTML을 가져옴
response = requests.get(url)
html_content = response.text

# 가져온 HTML 출력
print(html_content)

위 코드에서는 Requests를 사용하여 ‘https://www.example.com’ 웹 페이지에 HTTP GET 요청을 보내고, 응답으로 받은 HTML을 출력합니다.

결론

Python을 사용하여 웹 페이지의 HTML을 가져오는 방법을 알아보았습니다. BeautifulSoup 및 Requests와 같은 인기 있는 라이브러리를 사용하면 HTML 구문 분석과 데이터 추출 작업을 간단하고 효율적으로 수행할 수 있습니다. 이러한 도구들은 웹 스크래핑 및 데이터 마이닝 작업에 매우 유용합니다.