[python] 정규표현식을 이용한 문단 추출하기
정규표현식은 많은 언어에서 사용되는 강력한 도구 중 하나입니다. 이를 이용하면 특정한 패턴을 가진 문자열을 추출하거나 조작할 수 있습니다. 이번 글에서는 Python에서 정규표현식을 이용하여 문단을 추출하는 방법을 살펴보겠습니다.
문단 추출하기
Python에서는 정규표현식을 다루기 위해 re
모듈을 사용합니다. 이 모듈에는 search()
함수가 있는데, 이를 사용하면 주어진 패턴과 일치하는 첫 번째 문자열을 찾을 수 있습니다.
아래는 정규표현식을 이용하여 문단을 추출하는 예제 코드입니다.
import re
# 추출하고자 하는 문단
text = "이것은 첫 번째 문단입니다. 두 번째 문단은 요기에 있습니다. 세 번째 문단은 여기요."
# 문단 추출을 위한 정규표현식 패턴
pattern = r"[^.]+"
# 정규표현식을 이용하여 첫 번째 문단 추출
result = re.search(pattern, text)
# 추출된 문단 출력
print(result.group())
위 코드에서는 먼저 추출하고자 하는 문단을 text
변수에 저장합니다. 그리고 문단을 추출하기 위한 정규표현식 패턴을 pattern
변수에 정의합니다. 여기서는 ‘.
’ 문자를 제외한 모든 문자열을 포함하는 패턴을 사용했습니다.
re.search(pattern, text)
를 이용하여 정규표현식과 일치하는 첫 번째 문자열을 찾습니다. 그리고 result.group()
을 통해 추출된 문단을 출력합니다.
마무리
이번에는 Python에서 정규표현식을 이용하여 문단을 추출하는 방법에 대해 알아보았습니다. 정규표현식은 다양한 문자열 작업에 활용될 수 있으며, 응용 가능한 범위는 매우 넓습니다. 정규표현식을 자세히 알아보고 활용하여 효율적인 문자열 조작을 해보시기 바랍니다.