[python] NLTK를 사용해 텍스트의 형용사를 추출하는 방법은 무엇인가요?
- 필요한 패키지 가져오기:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
- 텍스트를 토큰화하고 품사 태깅하기:
text = "NLTK를 사용하여 텍스트 형용사를 추출하는 방법을 알려주세요."
tokens = word_tokenize(text)
tagged_words = pos_tag(tokens)
- 형용사 추출하기:
adjectives = [word for word, pos in tagged_words if pos.startswith('JJ')]
위의 코드를 실행하면 adjectives
변수에 텍스트에서 추출된 형용사들이 리스트로 저장됩니다.
다음은 위에서 사용된 각 단계에 대한 설명입니다:
nltk
패키지를 가져옵니다. 이 패키지는 텍스트 처리 작업을 위한 다양한 도구와 데이터를 제공합니다.word_tokenize()
함수를 사용하여 텍스트를 단어로 토큰화합니다.pos_tag()
함수를 사용하여 단어에 품사 태그를 부착합니다. 이 함수는 단어와 해당 단어의 품사를 튜플로 반환합니다.pos_tag()
함수의 결과를 이용하여 형용사인 단어들을 추출합니다. 품사 태그가 ‘JJ’로 시작하는 단어들이 형용사입니다.
위의 방법을 사용하면 NLTK를 이용해 텍스트에서 형용사를 추출할 수 있습니다.