[python] 정규표현식을 이용한 URL 추출

정규표현식은 특정한 패턴을 찾거나 추출하는 데에 유용하게 사용될 수 있습니다. 이제 URL을 추출하는 경우에도 정규표현식을 사용하여 간단하게 해결할 수 있습니다. 이번 글에서는 파이썬에서 정규표현식을 이용하여 URL을 추출하는 방법에 대해 알아보겠습니다.

정규표현식 패턴

URL은 주소를 나타내는 문자열이기 때문에 특정한 패턴을 가지고 있습니다. 주로 다음과 같은 패턴을 사용하여 URL을 추출할 수 있습니다.

import re

pattern = r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+"

위의 패턴은 http:// 또는 https://로 시작하고 :// 이후에는 알파벳, 숫자, 하이픈, 마침표를 허용하는 URL을 추출하는 패턴입니다.

URL 추출하기

정규표현식 패턴을 사용하여 URL을 추출하는 방법은 간단합니다. 먼저, 정규표현식 모듈인 re를 import 합니다. 그리고 추출할 문자열에 대해 re.findall 함수를 사용하여 URL을 추출합니다.

다음은 파이썬 코드 예시입니다.

import re

text = "더 많은 정보는 http://www.example.com 에서 확인하세요."
pattern = r"https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+"

urls = re.findall(pattern, text)
print(urls)

위의 코드를 실행하면 "http://www.example.com"을 출력하게 됩니다. 입력한 텍스트에서 정규표현식 패턴에 맞는 URL을 정상적으로 추출하였습니다.

결론

정규표현식을 이용하여 URL을 추출하는 것은 파이썬에서 간단하게 할 수 있는 작업입니다. 주어진 패턴에 맞는 URL을 정확하게 추출할 수 있습니다. 정규표현식을 활용하여 텍스트에서 원하는 정보를 빠르고 쉽게 추출할 수 있습니다.