[python] 정규표현식을 이용한 URL 추출
정규표현식은 특정한 패턴을 찾거나 추출하는 데에 유용하게 사용될 수 있습니다. 이제 URL을 추출하는 경우에도 정규표현식을 사용하여 간단하게 해결할 수 있습니다. 이번 글에서는 파이썬에서 정규표현식을 이용하여 URL을 추출하는 방법에 대해 알아보겠습니다.
정규표현식 패턴
URL은 주소를 나타내는 문자열이기 때문에 특정한 패턴을 가지고 있습니다. 주로 다음과 같은 패턴을 사용하여 URL을 추출할 수 있습니다.
import re
pattern = r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+"
위의 패턴은 http://
또는 https://
로 시작하고 ://
이후에는 알파벳, 숫자, 하이픈, 마침표를 허용하는 URL을 추출하는 패턴입니다.
URL 추출하기
정규표현식 패턴을 사용하여 URL을 추출하는 방법은 간단합니다. 먼저, 정규표현식 모듈인 re
를 import 합니다. 그리고 추출할 문자열에 대해 re.findall
함수를 사용하여 URL을 추출합니다.
다음은 파이썬 코드 예시입니다.
import re
text = "더 많은 정보는 http://www.example.com 에서 확인하세요."
pattern = r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+"
urls = re.findall(pattern, text)
print(urls)
위의 코드를 실행하면 "http://www.example.com"
을 출력하게 됩니다. 입력한 텍스트에서 정규표현식 패턴에 맞는 URL을 정상적으로 추출하였습니다.
결론
정규표현식을 이용하여 URL을 추출하는 것은 파이썬에서 간단하게 할 수 있는 작업입니다. 주어진 패턴에 맞는 URL을 정확하게 추출할 수 있습니다. 정규표현식을 활용하여 텍스트에서 원하는 정보를 빠르고 쉽게 추출할 수 있습니다.