[python] 사용자 에이전트 설정하기

웹 스크래핑을 할 때, 종종 웹 사이트가 사용자 에이전트(User-Agent)를 확인하여 자동화된 요청을 차단하는 경우가 있습니다. 이때는 사용자 에이전트를 설정하여 사람이 사용하는 것처럼 보이도록 할 수 있습니다. 파이썬으로 사용자 에이전트를 설정하는 방법에 대해 알아보겠습니다.

사용자 에이전트(User-Agent)란?

사용자 에이전트(User-Agent)는 웹 브라우저 또는 웹 크롤러가 서버에 요청을 보낼 때 식별하기 위해 사용되는 문자열입니다. 웹 서버는 사용자 에이전트를 확인하여 요청이 자동화된 것인지 판단할 수 있습니다.

파이썬에서 사용자 에이전트 설정하기

파이썬의 requests 라이브러리를 사용하여 사용자 에이전트를 설정할 수 있습니다. 다음은 사용자 에이전트를 설정하여 웹 페이지를 요청하는 간단한 예제 코드입니다.

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
}

response = requests.get('https://www.example.com', headers=headers)

print(response.text)

위 예제 코드에서는 headers 변수를 사용하여 사용자 에이전트를 설정하였습니다. 여기서는 Chrome 브라우저를 모바일로 설정한 것처럼 보이도록 하였습니다. 필요에 따라 사용자 에이전트를 원하는 대로 설정할 수 있습니다.

사용자 에이전트 설정시 주의사항

사용자 에이전트를 설정할 때는 해당 웹 사이트의 정책을 준수해야 합니다. 일부 웹 사이트는 자동화된 요청을 차단하고, 사용자 에이전트가 예상치 못한 형태인 경우에도 차단할 수 있습니다. 따라서, 웹 스크래핑을 할 경우에는 해당 웹 사이트의 로봇 배제 표준(Robots Exclusion Standard)을 확인하고, 정책을 준수해야 합니다.

참고 자료