[Python활용] 10. 간단한 웹 스크래핑
웹 스크래핑이란
- 스크래핑: 웹사이트의 특정 부분만을 긁어서 데이터로 활용하는 것
- 크롤링: 웹사이트의 모든 링크를 찾아서 데이터화 하는 것
웹 스크래핑 방법
- 어떤 부분을 가져올지 정해야 한다.
- 가져올 부분이 정해지면, 해당하는 부분의 식별자(구분자)를 찾는다.
- 찾아낸 식별자를 통해 데이터를 긁어낸다.
식별자 찾기
- Chrome의 “검사” 기능을 사용
데이터 긁어내기
- requests, bs4, urllib.parse 모듈을 사용
- requests: 웹사이트 정보 요청
- bs4: HTML에서 특정 구분자로 데이터 파싱
- html5lib: bs4에서 HTML을 파싱하기 위한 라이브러리
- urllib.parse: 검색 키워드를 url 인코딩
구글에서 특정 키워드가 포함된 뉴스 가져오기
- 검색 URL을 통한 검색 설정
- q: 검색어
- tbm: 검색 분류
- num: 한번에 보여지는 검색 결과의 수
- User Agent 설정
- request 모듈에서 요청을 보낼 때 가짜 user agent 정보를 통해 브라우저에서 요청한 것처럼 입력