[python] NLTK를 사용해 텍스트의 숫자를 제거하는 방법은 무엇인가요?

30 Nov 2023

python

NLTK(Natural Language Toolkit)는 자연어 처리를 위한 파이썬 라이브러리로, 숫자 제거와 같은 텍스트 전처리 작업을 수행할 수 있습니다.

아래는 NLTK를 사용하여 텍스트에서 숫자를 제거하는 예시 코드입니다:

import re
from nltk.tokenize import word_tokenize

def remove_numbers(text):
    # 텍스트에서 숫자를 제거하는 정규식 패턴
    pattern = r'\d+'
    
    # 숫자를 제거한 텍스트를 반환
    return re.sub(pattern, '', text)

def preprocess_text(text):
    # 텍스트를 소문자로 변경
    text = text.lower()
    
    # 숫자 제거
    text = remove_numbers(text)
    
    # 토큰화
    tokens = word_tokenize(text)
    
    # 전처리된 텍스트 반환
    return tokens

# 예시 텍스트
text = "I have 3 apples and 5 oranges."

# 숫자가 제거된 전처리된 텍스트 출력
preprocessed_text = preprocess_text(text)
print(preprocessed_text)

위 예시 코드에서는 일단 텍스트를 소문자로 변경한 후 remove_numbers 함수를 사용하여 숫자를 제거합니다. 이후 텍스트를 토큰화하여 전처리된 텍스트를 얻을 수 있습니다.

출력 결과:

['i', 'have', 'apples', 'and', 'oranges', '.']

위의 출력 결과에서 확인할 수 있듯이, 숫자가 제거되고 단어 단위로 토큰화된 텍스트를 얻을 수 있습니다.

NLTK는 텍스트 전처리를 위한 다양한 기능을 제공하므로, 필요한 경우 다른 전처리 작업을 추가할 수도 있습니다. 더 자세한 정보는 NLTK 공식 문서를 참고하시기 바랍니다.

참고 문서:

NLTK 공식 문서: https://www.nltk.org/
정규식 패턴 활용: https://docs.python.org/3/library/re.html
토큰화: https://www.nltk.org/api/nltk.tokenize.html