[python] 정규표현식을 이용한 문장 추출

정규표현식은 문자열에서 패턴을 찾기 위해 사용되는 강력한 도구입니다. 문장을 추출하기 위해서는 문장의 시작과 끝을 나타내는 패턴을 이용해야합니다.

먼저, 파이썬의 re 모듈을 임포트합니다.

import re

다음으로, 추출하고 싶은 문장을 담고 있는 텍스트를 준비합니다.

text = "안녕하세요? 반갑습니다. 오늘은 파이썬을 학습하는 날입니다."

정규표현식을 이용하여 문장을 추출하기 위해 re.search() 함수를 사용합니다. 추출된 문장은 group() 메서드를 통해 얻을 수 있습니다.

sentence_pattern = r"[^.!?]*[.!?]"
result = re.search(sentence_pattern, text)

if result:
    sentence = result.group()
    print(sentence)  # "안녕하세요?"

위의 코드에서는 [^.!?]*[.!?] 패턴을 사용하였습니다. 이는 문장의 시작부터 마침표, 물음표, 느낌표 중 하나를 만날 때까지의 모든 문자열을 추출하는 역할을 합니다.

만약 텍스트에서 모든 문장을 추출하고 싶다면, re.findall() 함수를 사용할 수 있습니다.

sentences = re.findall(sentence_pattern, text)
print(sentences)  # ["안녕하세요?", " 반갑습니다.", " 오늘은 파이썬을 학습하는 날입니다."]

이렇게 정규표현식을 이용하여 문장을 추출할 수 있습니다. 파이썬의 re 모듈은 강력하고 유연하게 사용할 수 있으므로, 다양한 패턴에 맞게 문장을 추출할 수 있습니다.

더 자세한 내용은 파이썬 공식 문서나 정규표현식 관련 자료를 참고하시기 바랍니다.