[python] NLTK를 사용해 텍스트의 형태소를 원형으로 변환하는 방법은 무엇인가요?
- 필요한 모듈 가져오기:
import nltk
from nltk.stem import WordNetLemmatizer
- WordNetLemmatizer 초기화:
lemmatizer = WordNetLemmatizer()
- 텍스트를 토큰화하고 형태소를 원형으로 변환:
text = "The cats are playing in the garden"
tokens = nltk.word_tokenize(text)
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
여기서, lemmatized_tokens
은 텍스트의 형태소가 원형으로 변환된 결과입니다. 위의 예제에서는 ‘cats’와 ‘playing’이 각각 ‘cat’와 ‘play’로 변환되었습니다.
참고: 이 방법은 WordNetLemmatizer를 사용하여 형태소를 변환합니다. WordNetLemmatizer는 품사 정보를 고려하지 않고 단어를 원형으로 변환합니다. 따라서, 텍스트에서 명사, 동사, 형용사 등의 품사 정보를 유지하고 싶다면, 형태소 분석기를 사용해야 합니다.
더 자세한 내용은 NLTK의 공식 문서를 참조하시기 바랍니다.
참고 문서: https://www.nltk.org/api/nltk.stem.html#module-nltk.stem.wordnet