[python] 파이썬 웹 크롤링 예제: 구인 구직 사이트 크롤링하기

이 글에서는 파이썬을 사용하여 구인 구직 사이트를 크롤링하는 예제를 다룹니다. 크롤링을 위해 BeautifulSoup과 requests 라이브러리를 사용하여 HTML 페이지에서 원하는 정보를 추출하는 방법을 살펴보겠습니다.

목차

  1. 환경 설정
  2. 웹 페이지 요청
  3. HTML 파싱
  4. 정보 추출
  5. 결론

1. 환경 설정

먼저, BeautifulSoup을 설치합니다.

pip install beautifulsoup4

requests 라이브러리도 설치합니다.

pip install requests

2. 웹 페이지 요청

크롤링할 대상인 구인 구직 사이트의 URL을 설정하고 requests 라이브러리를 사용하여 해당 페이지에 요청을 보냅니다.

import requests

url = 'https://example.com/jobs'
response = requests.get(url)

if response.status_code == 200:
    print('요청 성공')
else:
    print('요청 실패')

3. HTML 파싱

다음으로, 요청한 HTML 페이지의 내용을 BeautifulSoup을 사용하여 파싱합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.content, 'html.parser')

4. 정보 추출

이제 soup 객체를 사용하여 필요한 정보를 추출합니다. 예를 들어, 공고 제목이 포함된 h1 태그를 추출하는 방법은 다음과 같습니다.

job_titles = soup.find_all('h1', class_='job-title')
for title in job_titles:
    print(title.text)

5. 결론

이것으로 파이썬을 사용하여 구인 구직 사이트를 크롤링하는 간단한 예제를 마무리합니다. 크롤링할 사이트에 따라 HTML 구조 및 태그 선택 방법이 달라질 수 있으므로 해당 사이트의 HTML 구조를 분석하여 적합한 크롤링 방법을 선택해야 합니다. Happy crawling!