[python] NLTK를 사용해 텍스트의 불필요한 공백을 제거하는 방법은 무엇인가요?
import nltk
def remove_extra_spaces(text):
# 텍스트의 공백을 제거한 후, 단어들을 다시 조합하여 새로운 텍스트를 생성합니다.
tokens = nltk.word_tokenize(text)
text_without_spaces = " ".join(tokens)
return text_without_spaces
# 예시 문장
text = " NLTK를 사용해 텍스트의 불필요한 공백을 제거하는 방법을 알아봅시다. "
cleaned_text = remove_extra_spaces(text)
print(cleaned_text)
위의 코드를 실행하면, 불필요한 공백이 제거된 텍스트가 출력됩니다.
출력 결과:
NLTK를 사용해 텍스트의 불필요한 공백을 제거하는 방법을 알아봅시다.
NLTK 패키지의 word_tokenize
함수는 텍스트를 단어단위로 나누어주는 역할을 합니다. 그런 후 join
함수를 사용하여 단어들을 다시 조합하여 새로운 텍스트를 생성합니다. 이를 통해 불필요한 공백을 제거할 수 있습니다.