[파이썬][AI Chatbot] nltk 설치 방법과 다양한 예제

nltk 설치 방법:

Natural Language Toolkit (NLTK)는 파이썬의 자연어 처리 라이브러리로, 텍스트 데이터를 처리하고 분석하는 다양한 기능을 제공합니다. NLTK를 설치하려면 아래 명령을 사용하세요.

pip install nltk` 

예제:

NLTK를 사용하여 텍스트 데이터를 처리하는 다양한 예제를 살펴보겠습니다.

  1. 토큰화(Tokenization):
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

nltk.download('punkt')

text = "Natural Language Toolkit, or NLTK, is a powerful library for working with human language data."
words = word_tokenize(text)
sentences = sent_tokenize(text)

print("단어 토큰화:", words)
print("문장 토큰화:", sentences)` 
  1. 품사 태깅(Part-of-Speech Tagging):
import nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag

nltk.download('averaged_perceptron_tagger')

text = "NLTK is useful for text analysis."
words = word_tokenize(text)
pos_tags = pos_tag(words)

print("품사 태깅:", pos_tags)` 
  1. 불용어(Stopwords) 제거:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('stopwords')

text = "NLTK is a useful library for text processing."
words = word_tokenize(text)
filtered_words = [word for word in words if word.lower() not in stopwords.words('english')]

print("불용어 제거 후:", filtered_words)` 
  1. 워드넷(WordNet) 사용:
import nltk
from nltk.corpus import wordnet

nltk.download('wordnet')

synonyms = wordnet.synsets('happy')
print("동의어:", [lemma.name() for syn in synonyms for lemma in syn.lemmas()])` 

이 예제들은 NLTK를 사용하여 텍스트 데이터를 토큰화하고 품사 태깅, 불용어 제거, 워드넷을 활용하는 방법을 보여줍니다. NLTK는 자연어 처리 작업에 다양한 기능을 제공하며, 더 많은 예제와 자세한 내용은 NLTK 공식 문서를 참고하시기 바랍니다.