[python] NLTK를 사용해 텍스트의 특정 단어를 제거하는 방법은 무엇인가요?

30 Nov 2023

python

먼저, NLTK를 설치해야 합니다. 아래의 명령어를 사용하여 설치할 수 있습니다.

$ pip install nltk

다음으로, NLTK에서 제공하는 stopwords 모듈을 임포트합니다.

from nltk.corpus import stopwords

텍스트에서 제거하고 싶은 단어들을 변수에 저장합니다. 예를 들어, 다음과 같은 리스트를 사용할 수 있습니다.

stop_words = set(['the', 'a', 'is', 'in'])

이제, 텍스트에서 단어를 제거할 준비가 되었습니다. 텍스트를 토큰화하고, 단어들을 순회하며 제거합니다.

text = "This is a sample text."
tokens = text.split()  # 텍스트를 공백을 기준으로 토큰화

filtered_tokens = [word for word in tokens if word.lower() not in stop_words]

위 코드에서 filtered_tokens에는 ‘This’, ‘sample’, ‘text.’라는 단어들이 남게 됩니다. ‘is’와 ‘a’는 stop_words에 포함되어 있기 때문에 제거되었습니다.

이렇게 텍스트에서 특정 단어를 제거하는 방법을 알아보았습니다. NLTK를 사용하면 다양한 자연어 처리 작업을 할 수 있으니, 필요에 따라 더 많은 기능을 찾아보세요.