[python] NLTK를 사용해 문장의 주어를 추출하는 방법은 무엇인가요?

30 Nov 2023

python

NLTK에서 제공하는 품사 태깅 기능을 사용하여 문장의 주어를 추출할 수 있습니다.

NLTK에서는 주어를 나타내는 품사 태그로 “NNP” (단수 고유 명사)를 사용합니다. 따라서, 문장에 있는 단어들을 태깅한 후 “NNP” 태그를 가진 단어를 주어로 인식할 수 있습니다.

아래는 코드 예시입니다.

import nltk

sentence = "나는 학교에 갔다."

# 문장을 토큰화하여 단어로 나누기
tokens = nltk.word_tokenize(sentence)

# 단어들에 품사 태깅하기
tagged_words = nltk.pos_tag(tokens)

# 'NNP' 태그를 가진 단어 추출하기
subjects = [word for word, tag in tagged_words if tag == 'NNP']

print(subjects)

위 코드에서는 입력된 문장을 토큰화하고 각 단어에 품사 태깅을 적용합니다. 그 후, ‘NNP’ 태그를 가진 단어들을 주어로 인식하여 추출합니다.

참고자료:

NLTK 공식 문서: https://www.nltk.org/
NLTK POS 태그: https://www.nltk.org/book/ch05.html

NLTK를 사용하면 문장의 구조를 분석하고 원하는 정보를 추출할 수 있습니다. 주어 추출 외에도 목적어, 동사 등 다양한 정보를 추출할 수 있으니, 필요에 따라 NLTK의 다른 기능을 활용해보세요.