[파이썬] requests-html 웹 스크레이핑 패턴 및 안티 패턴

06 Sep 2023

requests-html

웹 스크레이핑은 정보를 수집하고 분석하는 데 유용한 도구입니다. Python의 requests-html 라이브러리는 웹 스크레이핑 작업을 간편하게 만들어 줍니다. 이번 포스트에서는 requests-html을 사용하여 웹 스크레이핑을 수행하는 패턴 및 안티 패턴에 대해 알아보겠습니다.

패턴

1. 웹 페이지 가져오기

requests-html을 사용하여 웹 페이지를 가져오려면 requests 모듈과 유사한 방식으로 URL에 GET 요청을 보내야 합니다.

from requests_html import HTMLSession

session = HTMLSession()
response = session.get(url)

2. CSS 선택자로 요소 선택하기

requests-html은 CSS 선택자를 사용하여 원하는 요소를 선택할 수 있습니다. .find() 메서드를 사용하여 선택자를 전달하고, 반환된 결과는 요소의 리스트입니다.

# 단일 요소 선택
element = response.html.find('.element-class', first=True)

# 여러 요소 선택
elements = response.html.find('.element-class')

3. 요소의 속성 가져오기

특정 요소의 속성 값은 요소 객체의 attrs 속성을 통해 액세스할 수 있습니다.

# 요소의 특정 속성(예: href) 가져오기
href = element.attrs['href']

4. 텍스트 내용 가져오기

특정 요소의 텍스트 내용은 요소 객체의 text 속성을 통해 액세스할 수 있습니다.

# 요소의 텍스트 내용 가져오기
text = element.text

5. 다른 페이지로 이동하기

requests-html을 사용하여 다른 페이지로 이동하려면 absolute_links 속성을 사용하여 절대 URL을 만들면 됩니다.

# 현재 페이지의 절대 URL 얻기
current_url = response.url

# 다른 페이지로 이동하기
new_url = absolute_links.pop()
response = session.get(new_url)

안티 패턴

웹 스크레이핑을 수행할 때는 웹 사이트의 정책을 준수해야 합니다. 다음은 일반적인 웹 스크레이핑 안티 패턴의 몇 가지 예입니다.

1. 로봇 배제 표준(robots.txt) 무시

모든 웹 사이트는 로봇 배제 표준(robots.txt) 파일을 통해 크롤러에게 스크레이핑을 허용하거나 제한할 수 있습니다. 웹 사이트의 robots.txt 파일을 확인하고 스크레이핑이 허용되는지 확인해야 합니다.

2. 지속적인 크롤링

지속적인 크롤링은 대상 웹 사이트에 불필요한 트래픽을 생성하고 서버에 부하를 줄 수 있습니다. 따라서 적절한 delay나 요청 후 대기 시간을 설정하여 웹 사이트에 지속적인 부하를 주지 않도록 해야 합니다.

3. 무분별한 데이터 요청

무분별한 데이터 요청은 웹 사이트의 서버를 과부하로 만들고, 웹 사이트의 사용자 경험을 저하시킬 수 있습니다. 필요한 데이터만 요청하고, 최소한의 요청을 보내도록 주의해야 합니다.

4. 사용자 정보 수집

웹 사이트에서 사용자의 개인 정보를 수집하려는 시도는 개인 정보 보호 및 법적 문제를 일으킬 수 있습니다. 합법적인 목적으로만 웹 스크레이핑을 수행하고, 사용자의 개인 정보 보호에 주의해야 합니다.

requests-html 라이브러리를 통해 웹 스크레이핑을 수행하는 패턴과 안티 패턴에 대해 알아보았습니다. 제시한 패턴을 따르고 안티 패턴을 피하면 웹 스크레이핑 작업을 효과적으로 수행할 수 있습니다. 이러한 패턴과 안티 패턴을 유의하면서 웹 스크레이핑을 진행해 보세요.