[python] 웹 스크래핑과 보안 이슈

18 Dec 2023

python

웹 스크래핑은 웹 페이지에서 데이터를 수집하는 프로세스를 의미합니다. 이는 보안 이슈를 유발할 수 있으며, 합법적인 이슈와 불법적인 이슈가 모두 존재합니다.

웹 스크래핑의 윤리적인 측면

웹 스크래핑은 웹사이트 소유자의 동의 없이 데이터를 가져오는 것으로 여겨집니다. 사용자가 웹 페이지를 방문할 때, 그들이 읽는 내용은 보통 여러가지 권한을 필요로 합니다. 따라서 웹 스크래핑에는 권한이 없는 데이터 수집에 대한 윤리적인 이슈가 따릅니다.

보안 이슈

웹 스크래핑 프로세스는 웹 사이트의 보안에 문제를 일으킬 수 있습니다. 이는 서버에 부하를 일으킬 수 있고, 웹 사이트의 정상적인 동작에 영향을 줄 수 있습니다. 또한, 스크래핑된 데이터를 이용하여 웹사이트에 있는 사용자의 개인 정보나 민감한 데이터를 노출시킬 수도 있습니다.

보안에 대한 대응책

robots.txt 파일 사용: 이 파일은 웹사이트 소유자가 웹 크롤러가 어떤 부분을 수집해도 되는지 허용 여부를 명시하는 파일입니다.
제한된 접근: 웹 사이트는 스크래핑을 방지하기 위해 IP 주소나 요청 빈도에 대한 제한을 둘 수 있습니다.
캡차 시스템: 자동으로 데이터를 수집하는 로봇에 대한 방어 수단으로 캡차 시스템을 도입하는 것이 보편적입니다.

결론

웹 스크래핑은 윤리적인 측면과 보안 이슈를 고려해야 합니다. 웹 스크래핑을 할 때는 항상 해당 웹 사이트의 이용 약관을 숙지하고, 사용자의 개인 정보와 보안을 고려하여야 합니다.

참고문헌:

https://en.wikipedia.org/wiki/Web_scraping
https://www.cloudflare.com/learning/bots/what-is-web-scraping/