[python] 정규표현식을 이용한 단어 추출

정규표현식(Regular Expression)은 문자열에서 패턴을 찾고 추출하는 강력한 도구입니다. 이를 이용하여 텍스트에서 원하는 단어를 추출하는 방법을 살펴보겠습니다.

1. re 모듈 import 하기

Python에서 정규표현식을 사용하기 위해서는 re 모듈을 import해야 합니다. 다음과 같이 모듈을 import 합니다.

import re

2. 단어 추출하기

원하는 단어를 추출하기 위해서는 re.findall() 함수를 사용합니다. 이 함수는 정규표현식에 매치되는 모든 부분을 찾아 리스트로 반환합니다. 다음은 정규표현식을 이용하여 텍스트에서 모든 단어를 추출하는 예시 코드입니다.

import re

text = "Hello, World! This is a sample text."

# 정규표현식 패턴: 알파벳으로 이루어진 단어
pattern = r"\b\w+\b"

# 텍스트에서 패턴과 일치하는 단어 추출
words = re.findall(pattern, text)

print(words)

위 코드를 실행하면 다음과 같은 결과가 출력될 것입니다.

['Hello', 'World', 'This', 'is', 'a', 'sample', 'text']

3. 정규표현식 패턴 설명

위 예시 코드에서 사용된 정규표현식 패턴(\b\w+\b)은 다음과 같은 의미를 갖습니다.

즉, 위 패턴은 단어의 경계로 둘러싸인 알파벳, 숫자, 밑줄 문자로 이루어진 단어를 찾는 것을 의미합니다.

참고 자료