Gensim을 활용하여 문서의 키워드 추출하기
텍스트 데이터에서 중요한 키워드를 추출하는 것은 정보 검색, 텍스트 분류, 요약 등 다양한 자연어 처리 작업에서 중요한 과정입니다. 이번 글에서는 파이썬의 Gensim 라이브러리를 활용하여 문서의 키워드를 추출하는 방법에 대해 알아보겠습니다.
1. Gensim 라이브러리 설치하기
Gensim은 파이썬에서 토픽 모델링 및 자연어 처리를 위한 라이브러리입니다. 먼저 Gensim을 설치해야 합니다. 다음 명령어를 사용하여 Gensim을 설치하세요.
pip install gensim
2. 문서 전처리하기
키워드 추출을 위해 먼저 문서를 전처리해야 합니다. 전처리 단계에서는 텍스트를 토큰화하고 불용어(stop words)를 제거하는 작업 등을 수행합니다. 이를 위해 NLTK 라이브러리를 함께 사용하겠습니다. NLTK를 설치하려면 다음 명령어를 사용하세요.
pip install nltk
NLTK를 설치한 후에는 다음 코드를 사용하여 문서를 전처리하세요.
import nltk
from gensim.utils import simple_preprocess
from nltk.corpus import stopwords
nltk.download('stopwords')
def preprocess_document(document):
# 텍스트를 소문자로 변환하고 특수 문자 제거
processed_document = document.lower()
processed_document = re.sub(r'\W', ' ', processed_document)
# 토큰화 및 불용어 제거
stop_words = set(stopwords.words('english'))
tokens = simple_preprocess(processed_document)
processed_tokens = [token for token in tokens if token not in stop_words]
return processed_tokens
3. 키워드 추출하기
전처리된 문서를 기반으로 Gensim을 사용하여 키워드를 추출할 수 있습니다. 다음은 Gensim의 Phrases
와 TextRank
를 사용하여 키워드를 추출하는 예시입니다.
from gensim.models import Phrases
from gensim.summarization import keywords
def extract_keywords(document):
# 문서를 전처리하기
processed_document = preprocess_document(document)
# 키워드 추출을 위해 문장을 합치기
sentence = ' '.join(processed_document)
# 키워드 추출하기
keyword_list = keywords(sentence, scores=True)
return keyword_list
위 코드를 사용하여 문서에서 키워드를 추출할 수 있습니다.
마무리
이번 글에서는 Gensim을 사용하여 문서의 키워드를 추출하는 방법을 알아보았습니다. Gensim은 토픽 모델링이나 자연어 처리 작업에 많이 활용되는 라이브러리로, 더욱 다양한 기능과 예제를 제공하고 있습니다. Gensim의 공식 문서를 참고하여 추가적인 사용법을 익히시길 권장합니다.