[python] 파이썬 웹 크롤링 예제: 구인 구직 사이트 크롤링하기

15 Dec 2023

python

이 글에서는 파이썬을 사용하여 구인 구직 사이트를 크롤링하는 예제를 다룹니다. 크롤링을 위해 BeautifulSoup과 requests 라이브러리를 사용하여 HTML 페이지에서 원하는 정보를 추출하는 방법을 살펴보겠습니다.

1. 환경 설정

먼저, BeautifulSoup을 설치합니다.

pip install beautifulsoup4

requests 라이브러리도 설치합니다.

pip install requests

2. 웹 페이지 요청

크롤링할 대상인 구인 구직 사이트의 URL을 설정하고 requests 라이브러리를 사용하여 해당 페이지에 요청을 보냅니다.

import requests

url = 'https://example.com/jobs'
response = requests.get(url)

if response.status_code == 200:
    print('요청 성공')
else:
    print('요청 실패')

3. HTML 파싱

다음으로, 요청한 HTML 페이지의 내용을 BeautifulSoup을 사용하여 파싱합니다.

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.content, 'html.parser')

4. 정보 추출

이제 soup 객체를 사용하여 필요한 정보를 추출합니다. 예를 들어, 공고 제목이 포함된 h1 태그를 추출하는 방법은 다음과 같습니다.

job_titles = soup.find_all('h1', class_='job-title')
for title in job_titles:
    print(title.text)

5. 결론

이것으로 파이썬을 사용하여 구인 구직 사이트를 크롤링하는 간단한 예제를 마무리합니다. 크롤링할 사이트에 따라 HTML 구조 및 태그 선택 방법이 달라질 수 있으므로 해당 사이트의 HTML 구조를 분석하여 적합한 크롤링 방법을 선택해야 합니다. Happy crawling!

목차

1. 환경 설정

2. 웹 페이지 요청

3. HTML 파싱

4. 정보 추출

5. 결론