[python] NLTK를 사용해 텍스트의 명사를 추출하는 방법은 무엇인가요?

30 Nov 2023

python

NLTK(Natural Language Toolkit)는 파이썬에서 자연어 처리 작업을 수행하기 위한 라이브러리입니다. 텍스트에서 명사를 추출하는 방법을 알아보겠습니다.

먼저, NLTK 라이브러리를 설치하고 가져옵니다. 다음과 같이 명령을 실행합니다:

pip install nltk

그 다음, 아래의 코드를 사용하여 텍스트에서 명사를 추출할 수 있습니다:

import nltk
from nltk import word_tokenize, pos_tag

def extract_nouns(text):
    tokens = word_tokenize(text)  # 텍스트를 토큰화합니다.
    tagged = pos_tag(tokens)  # 토큰에 품사 태깅을 수행합니다.
    nouns = [word for word, pos in tagged if pos.startswith('NN')]  # 명사만 선택합니다.
    return nouns

text = "NLTK를 사용해 텍스트의 명사를 추출하는 방법을 알아보겠습니다."
nouns = extract_nouns(text)
print(nouns)

출력 결과는 다음과 같을 것입니다:

['NLTK', '텍스트', '명사', '방법']

위 코드에서 extract_nouns 함수는 주어진 텍스트를 토큰화하고 품사 태깅을 수행한 후, 명사만을 추출하여 반환합니다. 이를 위해 pos_tag 함수를 사용하고, 명사의 품사 태그는 ‘NN’으로 시작하는 경우를 선택합니다.

NLTK를 사용하여 텍스트의 명사를 추출하는 방법에 대해 알아보았습니다. NLTK에 대한 자세한 내용은 [NLTK 공식 웹사이트][nltk]를 참조하십시오.