[python] 정규 표현식을 활용한 웹 스크래핑

12 Dec 2023

python

웹 스크래핑은 웹 사이트에서 정보를 수집하는 프로세스로, 정규 표현식은 이를 도와주는 강력한 도구입니다. 파이썬의 re 모듈을 사용하여 웹 페이지에서 데이터를 추출하는 데 유용하게 활용할 수 있습니다.

정규 표현식으로 웹 페이지에서 데이터 추출

정규 표현식은 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용됩니다. 이를 이용하면 웹 페이지에서 특정 패턴을 가진 데이터를 추출할 수 있습니다. 예를 들어, 특정 태그나 속성 안에 있는 내용을 추출하거나, 특정 형식의 이메일 주소나 전화번호를 찾아낼 수 있습니다.

다음은 파이썬에서 정규 표현식을 사용하여 웹 페이지에서 이메일 주소를 추출하는 예제입니다.

import re
import requests

# 웹 페이지에서 데이터 가져오기
url = 'https://example.com'
response = requests.get(url)
data = response.text

# 이메일 주소 추출
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', data)

for email in emails:
    print(email)

이 예제에서는 re.findall() 함수를 사용하여 정규 표현식 패턴에 맞는 이메일 주소를 추출합니다. 그 후 그 결과를 출력합니다.

결론

정규 표현식은 웹 스크래핑을 위한 강력한 도구로, 데이터 추출 및 가공에 유용하게 활용될 수 있습니다.

더 많은 정보를 원하시면, 다음을 참고하세요.