[python] 정규표현식을 이용한 단어 추출하기

정규표현식은 특정한 패턴을 가진 문자열을 검색하거나 추출하는데 유용합니다. 이번 포스트에서는 Python에서 정규표현식을 사용하여 문자열에서 단어를 추출하는 방법을 알아보겠습니다.

정규표현식 패턴 만들기

Python에서는 re 모듈을 사용하여 정규표현식을 처리할 수 있습니다. 단어를 추출하기 위해서는 적절한 정규표현식 패턴을 만들어야 합니다. 예를 들어, 알파벳과 숫자로 구성된 단어를 추출하려면 다음과 같은 패턴을 사용할 수 있습니다.

import re

pattern = r'\w+'

위의 패턴 r'\w+'은 워드 문자(알파벳, 숫자, 밑줄)가 한 번 이상 반복되는 패턴을 의미합니다.

단어 추출하기

이제 패턴을 사용하여 문자열에서 단어를 추출해보겠습니다. 아래의 코드 예제를 확인해주세요.

import re

pattern = r'\w+'
text = "This is a sample text."

words = re.findall(pattern, text)
print(words)

위의 코드는 re.findall(pattern, text) 함수를 사용하여 패턴에 매칭되는 모든 단어를 추출합니다. 결과로는 ['This', 'is', 'a', 'sample', 'text']와 같이 단어가 리스트 형태로 출력됩니다.

요약

Python의 정규표현식을 활용하면 문자열에서 원하는 패턴을 추출할 수 있습니다. 위에서 설명한 방법을 사용하여 알파벳과 숫자로 구성된 단어를 추출할 수 있습니다. 정규표현식은 간단하지만 매우 강력한 도구이므로 익숙해지면 다양한 문자열 처리 작업에 유용하게 활용할 수 있습니다.

참고 자료