[python] 정규표현식을 이용한 도메인 형식인 문자열 추출하기
정규표현식은 문자열에서 특정 패턴을 찾거나 추출할 때 유용한 도구입니다. 이번에는 정규표현식을 사용하여 도메인 형식인 문자열을 추출하는 방법을 알아보겠습니다.
예제 코드
아래는 Python에서 정규표현식을 이용하여 도메인 형식인 문자열을 추출하는 예제 코드입니다.
import re
def extract_domain(string):
pattern = r'(http|https)://(www\.)?(\w+\.\w+/\?)?(\w+\.\w+)'
match = re.search(pattern, string)
if match:
return match.group(4)
else:
return None
# 도메인 형식인 문자열 추출하기
url = 'http://www.example.com/?q=python'
domain = extract_domain(url)
print(domain) # 출력: example.com
위의 코드를 실행하면 URL에서 도메인 형식인 문자열을 추출하여 출력합니다. 정규표현식 패턴은 (http|https)://(www\.)?(\w+\.\w+/\?)?(\w+\.\w+)
로 이루어져 있습니다.
(http|https)://
는 “http://” 또는 “https://”를 의미합니다.(www\.)?
는 “www.”가 있을 수도 있고 없을 수도 있다는 것을 의미합니다.(\w+\.\w+/\?)?
는도메인/
형식의 문자열이 있을 수도 있고 없을 수도 있다는 것을 의미합니다.(\w+\.\w+)
는 도메인 형식인 문자열을 의미합니다.
만약 입력된 문자열이 도메인 형식이 아니라면 None
을 반환합니다.
결론
정규표현식을 이용하면 도메인 형식인 문자열을 추출하는 작업을 간단하게 수행할 수 있습니다. 위의 예제 코드를 참고하여 필요한 경우 정규표현식 패턴을 수정하여 사용할 수 있습니다.