[python] 정규표현식을 이용한 도메인 형식인 문자열 추출하기

04 Dec 2023

python

정규표현식은 문자열에서 특정 패턴을 찾거나 추출할 때 유용한 도구입니다. 이번에는 정규표현식을 사용하여 도메인 형식인 문자열을 추출하는 방법을 알아보겠습니다.

예제 코드

아래는 Python에서 정규표현식을 이용하여 도메인 형식인 문자열을 추출하는 예제 코드입니다.

import re

def extract_domain(string):
    pattern = r'(http|https)://(www\.)?(\w+\.\w+/\?)?(\w+\.\w+)'
    match = re.search(pattern, string)
    
    if match:
        return match.group(4)
    else:
        return None

# 도메인 형식인 문자열 추출하기
url = 'http://www.example.com/?q=python'
domain = extract_domain(url)
print(domain)  # 출력: example.com

위의 코드를 실행하면 URL에서 도메인 형식인 문자열을 추출하여 출력합니다. 정규표현식 패턴은 (http|https)://(www\.)?(\w+\.\w+/\?)?(\w+\.\w+)로 이루어져 있습니다.

(http|https)://는 “http://” 또는 “https://”를 의미합니다.
(www\.)?는 “www.”가 있을 수도 있고 없을 수도 있다는 것을 의미합니다.
(\w+\.\w+/\?)?는 도메인/ 형식의 문자열이 있을 수도 있고 없을 수도 있다는 것을 의미합니다.
(\w+\.\w+)는 도메인 형식인 문자열을 의미합니다.

만약 입력된 문자열이 도메인 형식이 아니라면 None을 반환합니다.

결론

정규표현식을 이용하면 도메인 형식인 문자열을 추출하는 작업을 간단하게 수행할 수 있습니다. 위의 예제 코드를 참고하여 필요한 경우 정규표현식 패턴을 수정하여 사용할 수 있습니다.

예제 코드

결론

참고 자료