[파이썬][AI Chatbot] nltk 설치 방법과 다양한 예제
nltk 설치 방법:
Natural Language Toolkit (NLTK)는 파이썬의 자연어 처리 라이브러리로, 텍스트 데이터를 처리하고 분석하는 다양한 기능을 제공합니다. NLTK를 설치하려면 아래 명령을 사용하세요.
pip install nltk`
예제:
NLTK를 사용하여 텍스트 데이터를 처리하는 다양한 예제를 살펴보겠습니다.
- 토큰화(Tokenization):
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
nltk.download('punkt')
text = "Natural Language Toolkit, or NLTK, is a powerful library for working with human language data."
words = word_tokenize(text)
sentences = sent_tokenize(text)
print("단어 토큰화:", words)
print("문장 토큰화:", sentences)`
- 품사 태깅(Part-of-Speech Tagging):
import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag
nltk.download('averaged_perceptron_tagger')
text = "NLTK is useful for text analysis."
words = word_tokenize(text)
pos_tags = pos_tag(words)
print("품사 태깅:", pos_tags)`
- 불용어(Stopwords) 제거:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
text = "NLTK is a useful library for text processing."
words = word_tokenize(text)
filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]
print("불용어 제거 후:", filtered_words)`
- 워드넷(WordNet) 사용:
import nltk
from nltk.corpus import wordnet
nltk.download('wordnet')
synonyms = wordnet.synsets('happy')
print("동의어:", [lemma.name() for syn in synonyms for lemma in syn.lemmas()])`
이 예제들은 NLTK를 사용하여 텍스트 데이터를 토큰화하고 품사 태깅, 불용어 제거, 워드넷을 활용하는 방법을 보여줍니다. NLTK는 자연어 처리 작업에 다양한 기능을 제공하며, 더 많은 예제와 자세한 내용은 NLTK 공식 문서를 참고하시기 바랍니다.