[python] 파이썬 네이처언어 프로세싱 라이브러리를 이용한 키워드 추출

21 Dec 2023

python

이번 포스트에서는 파이썬의 Natural Language Toolkit (NLTK) 라이브러리를 이용하여 문장 또는 문서에서 키워드를 추출하는 방법에 대해 살펴보겠습니다.

1. NLTK 소개

NLTK는 자연어 처리를 위한 파이썬 라이브러리로, 문장 토큰화, 형태소 분석, 개체명 인식 등의 다양한 기능을 제공합니다. 가장 널리 사용되는 자연어 처리 도구 중 하나이며, 텍스트 마이닝, 정보 검색, 기계 학습 등에 활용됩니다.

NLTK를 사용하기 위해서는 먼저 필요한 패키지를 설치해야 합니다. 아래의 명령어를 사용하여 NLTK를 설치합니다.

pip install nltk

2. 키워드 추출

NLTK를 사용하여 키워드를 추출하는 방법은 여러 가지가 있지만, 가장 널리 사용되는 방법 중 하나는 문서에서 가장 중요한 명사를 추출하는 것입니다. 이를 위해 NLTK의 토큰화와 품사 태깅을 이용할 수 있습니다.

import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

def extract_keywords(text):
    tokens = word_tokenize(text)
    tagged = pos_tag(tokens)
    
    keywords = [word for word, pos in tagged if pos in ['NN', 'NNS', 'NNP', 'NNPS']]
    
    return keywords

위의 코드는 NLTK를 사용하여 문장에서 명사를 추출하는 간단한 함수를 보여줍니다. 이 함수를 사용하면 원하는 텍스트에서 키워드를 추출할 수 있습니다.

3. 예제

아래의 예제를 통해 실제로 텍스트에서 키워드를 추출하는 방법을 살펴보겠습니다.

text = "파이썬은 자연어 처리에 널리 사용되는 프로그래밍 언어이다. NLTK를 이용하면 텍스트에서 키워드를 쉽게 추출할 수 있다."
keywords = extract_keywords(text)
print(keywords)

위의 예제를 실행하면 해당 텍스트에서 추출된 키워드들이 출력될 것입니다.

4. 결론

이렇게 NLTK를 사용하여 파이썬에서 텍스트에서 키워드를 추출하는 방법을 알아보았습니다. NLTK를 이용하면 간단한 자연어 처리 작업을 쉽게 수행할 수 있으며, 텍스트 마이닝이나 정보 검색과 같은 다양한 응용 분야에 활용할 수 있습니다.

더 많은 정보와 사용 예제는 NLTK 공식 문서를 참고하시기 바랍니다.

자연어 처리를 위한 NLTK 공식 문서