[python] 정규표현식을 이용한 홈페이지 URL 형식인 문자열 추출하기

04 Dec 2023

python

정규표현식은 특정 패턴을 찾거나 추출하는데 유용한 도구입니다. 이번에는 Python에서 정규표현식을 사용하여 홈페이지 URL 형식인 문자열을 추출하는 방법을 알아보겠습니다.

필요한 패키지 설치하기

먼저, 정규표현식을 사용하기 위해 re 모듈을 설치해야 합니다. 아래의 명령을 실행하여 패키지를 설치합니다:

pip install re

정규표현식으로 URL 형식인 문자열 추출하기

다음은 Python에서 정규표현식을 이용하여 URL 형식인 문자열을 추출하는 예제 코드입니다:

import re

def extract_url(string):
    pattern = r"https?://([^\s/$.?#].[^\s]*)"
    match = re.search(pattern, string)
    if match:
        url = match.group()
        return url

# 예제 문자열
string = "이것은 홈페이지 주소입니다: https://www.example.com"
url = extract_url(string)
print(url)  # https://www.example.com

위의 코드에서 사용한 정규표현식 패턴은 https?://([^\s/$.?#].[^\s]*) 입니다. 이 패턴은 http:// 또는 https://로 시작하며, 그 뒤에는 공백이나 URL에 사용할 수 없는 특수문자가 오지 않고 최소 한 글자 이상의 문자가 오는 형식을 찾습니다.

이제 위의 코드를 실행하면 “https://www.example.com”과 같이 URL 형식인 문자열이 추출되는 것을 확인할 수 있습니다.

마무리

이번 포스팅에서는 Python에서 정규표현식을 사용하여 홈페이지 URL 형식인 문자열을 추출하는 방법에 대해 알아보았습니다. 정규표현식은 다양한 문자열 처리 작업에서 활용할 수 있는 강력한 도구이므로, 많은 연습을 통해 숙련도를 높이시길 권장합니다.