[파이썬] Beautiful Soup 4 세션 및 쿠키와 웹 스크레이핑

06 Sep 2023

beautiful soup

웹 스크레이핑은 웹페이지에서 데이터를 추출하고 가공하는 프로세스를 의미합니다. 웹 스크레이핑은 다양한 용도로 사용되는데, 예를 들어 웹사이트에서 가격 정보를 수집하거나 뉴스 기사의 제목과 요약을 추출하는 등의 작업이 가능합니다.

Python에서는 Beautiful Soup 4 라이브러리를 사용하여 웹 스크레이핑 작업을 수행할 수 있습니다. Beautiful Soup는 HTML 및 XML 문서를 파싱하고 구문 분석하기 위한 파이썬 패키지입니다. 이 패키지는 웹 스크레이핑 작업을 단순화하고 쉽게 할 수 있도록 도와줍니다.

Beautiful Soup 4 설치 및 사용법

Beautiful Soup 4를 사용하기 위해서는 아래와 같이 패키지를 설치해야 합니다.

pip install beautifulsoup4

Beautiful Soup 4를 사용하는 기본적인 방법은 아래와 같습니다.

from bs4 import BeautifulSoup

# HTML 문서를 파싱하여 BeautifulSoup 객체 생성
soup = BeautifulSoup(html_doc, 'html.parser')

# 원하는 요소를 찾고 추출
element = soup.find('element_name')

여기서 html_doc는 파싱할 HTML 문서를 나타내며, element_name은 추출하고자 하는 요소의 태그 이름입니다. find 함수를 사용하여 해당 태그의 첫 번째 요소를 찾을 수 있습니다.

세션과 쿠키

웹 스크레이핑 작업 중에는 로그인이나 세션 관리와 같은 작업이 필요할 수 있습니다. 이를 위해 Beautiful Soup 4도 세션과 쿠키를 지원합니다.

세션을 사용하여 웹 서버와의 지속적인 상호작용을 가능하게 하고, 쿠키를 사용하여 웹사이트와의 상태를 유지할 수 있습니다. 예를 들어, 로그인 페이지에 POST 요청을 전송하여 로그인을 수행하고 세션 및 쿠키를 저장한 후, 이후의 웹스크레이핑 작업을 수행할 때 해당 세션 및 쿠키를 사용할 수 있습니다.

세션 및 쿠키를 사용하는 예시는 아래와 같습니다.

import requests
from bs4 import BeautifulSoup

# 세션 시작
session = requests.Session()
    
# 로그인 페이지에 POST 요청 전송
login_data = {
    'username': 'my_username',
    'password': 'my_password'
}
response = session.post('https://example.com/login', data=login_data)

# 세션과 쿠키 저장
session.cookies.save(ignore_discard=True)

# 저장된 쿠키를 사용하여 웹페이지에 GET 요청 전송
response = session.get('https://example.com/page')

# HTML 문서를 파싱하여 BeautifulSoup 객체 생성
soup = BeautifulSoup(response.text, 'html.parser')

# 원하는 요소를 찾고 추출
element = soup.find('element_name')

위 코드에서는 requests 라이브러리를 사용하여 웹페이지에 POST 및 GET 요청을 전송하고, 응답을 받아옵니다. 세션을 사용하여 웹 서버와의 지속적인 상호작용을 가능하게 하고, 저장된 쿠키를 사용하여 세션 상태를 유지합니다.

이렇게 세션과 쿠키를 사용하여 웹 스크레이핑 작업을 수행할 수 있습니다.

결론

Beautiful Soup 4는 파이썬에서 웹 스크레이핑 작업을 손쉽게 수행할 수 있도록 도와주는 강력한 라이브러리입니다. 세션과 쿠키를 지원하여 웹 서버와의 상호작용과 상태 유지도 가능하게 해줍니다. 웹 스크레이핑에 관심이 있는 경우 Beautiful Soup 4를 활용해보세요!