[python] 정규표현식을 이용한 문단 추출하기

정규표현식은 많은 언어에서 사용되는 강력한 도구 중 하나입니다. 이를 이용하면 특정한 패턴을 가진 문자열을 추출하거나 조작할 수 있습니다. 이번 글에서는 Python에서 정규표현식을 이용하여 문단을 추출하는 방법을 살펴보겠습니다.

문단 추출하기

Python에서는 정규표현식을 다루기 위해 re 모듈을 사용합니다. 이 모듈에는 search() 함수가 있는데, 이를 사용하면 주어진 패턴과 일치하는 첫 번째 문자열을 찾을 수 있습니다.

아래는 정규표현식을 이용하여 문단을 추출하는 예제 코드입니다.

import re

# 추출하고자 하는 문단
text = "이것은 첫 번째 문단입니다. 두 번째 문단은 요기에 있습니다. 세 번째 문단은 여기요."

# 문단 추출을 위한 정규표현식 패턴
pattern = r"[^.]+"

# 정규표현식을 이용하여 첫 번째 문단 추출
result = re.search(pattern, text)

# 추출된 문단 출력
print(result.group())

위 코드에서는 먼저 추출하고자 하는 문단을 text 변수에 저장합니다. 그리고 문단을 추출하기 위한 정규표현식 패턴을 pattern 변수에 정의합니다. 여기서는 ‘.’ 문자를 제외한 모든 문자열을 포함하는 패턴을 사용했습니다.

re.search(pattern, text)를 이용하여 정규표현식과 일치하는 첫 번째 문자열을 찾습니다. 그리고 result.group()을 통해 추출된 문단을 출력합니다.

마무리

이번에는 Python에서 정규표현식을 이용하여 문단을 추출하는 방법에 대해 알아보았습니다. 정규표현식은 다양한 문자열 작업에 활용될 수 있으며, 응용 가능한 범위는 매우 넓습니다. 정규표현식을 자세히 알아보고 활용하여 효율적인 문자열 조작을 해보시기 바랍니다.

참고 자료