[python] NLTK를 사용해 텍스트의 불필요한 공백을 제거하는 방법은 무엇인가요?

30 Nov 2023

python

import nltk

def remove_extra_spaces(text):
    # 텍스트의 공백을 제거한 후, 단어들을 다시 조합하여 새로운 텍스트를 생성합니다.
    tokens = nltk.word_tokenize(text)
    text_without_spaces = " ".join(tokens)
    
    return text_without_spaces

# 예시 문장
text = "   NLTK를   사용해   텍스트의   불필요한   공백을   제거하는   방법을   알아봅시다.   "

cleaned_text = remove_extra_spaces(text)
print(cleaned_text)

위의 코드를 실행하면, 불필요한 공백이 제거된 텍스트가 출력됩니다.

출력 결과:

NLTK를 사용해 텍스트의 불필요한 공백을 제거하는 방법을 알아봅시다.

NLTK 패키지의 word_tokenize 함수는 텍스트를 단어단위로 나누어주는 역할을 합니다. 그런 후 join 함수를 사용하여 단어들을 다시 조합하여 새로운 텍스트를 생성합니다. 이를 통해 불필요한 공백을 제거할 수 있습니다.