[python] 정규표현식을 이용한 반복되는 문자열 추출하기

정규표현식은 문자열에서 특정 패턴을 찾고 추출하는 데 유용한 도구입니다. 이번에는 Python에서 정규표현식을 사용하여 반복되는 문자열을 추출하는 방법을 알아보겠습니다.

정규표현식 패턴 작성하기

먼저, 반복되는 문자열을 추출하기 위해 정규표현식 패턴을 작성해야 합니다. 반복되는 문자열은 동일한 문자 또는 문자열이 연속해서 반복되는 경우를 의미합니다.

예를 들어, “hello”, “wow”, “aaa”와 같은 문자열은 반복되는 문자열입니다.

정규표현식에서 반복을 의미하는 메타문자는 {} 중괄호입니다. 중괄호 안에 숫자를 넣어 해당 패턴이 몇 번 반복되는지 지정할 수 있습니다.

만약, 2번 이상 반복되는 문자열을 추출하고 싶다면 {2,}로 표현할 수 있습니다.

예제 코드

이제 예제 코드를 통해 정규표현식을 이용하여 반복되는 문자열을 추출해보겠습니다.

import re

def extract_repeated_strings(text):
    pattern = r'(\w+)\1+'
    matches = re.findall(pattern, text)
    return matches

# 예제 텍스트
text = "hellooo, wowww, aaabbbcccc, good"

repeated_strings = extract_repeated_strings(text)
print(repeated_strings)

위의 코드에서는 r'(\w+)\1+' 정규표현식 패턴을 사용하여 반복되는 문자열을 추출합니다.

re.findall() 함수를 사용하여 일치하는 모든 패턴을 찾아 리스트로 반환합니다.

실행 결과

위의 코드를 실행하면 다음과 같은 결과를 얻을 수 있습니다.

['oo', 'www', 'bbbcccc']

위 결과에서는 ‘hellooo’, ‘wowww’, ‘aaabbbcccc’라는 반복되는 문자열이 추출되었습니다.

결론

Python에서 정규표현식을 이용하여 반복되는 문자열을 추출하는 방법을 알아보았습니다. 정규표현식 패턴을 작성하고 re.findall() 함수를 사용하여 일치하는 패턴을 추출할 수 있습니다. 정규표현식을 잘 활용하여 원하는 문자열을 추출해보세요!