SpaCy를 사용하여 텍스트에 대한 주요 핵심 키워드 추출(Keyword Extraction)

24 Sep 2023

spacy

텍스트 데이터에서 핵심 키워드를 추출하는 것은 정보 검색, 텍스트 분석 및 자연어 처리의 중요한 작업입니다. SpaCy는 파이썬 기반의 오픈 소스 자연어 처리 도구로, 신뢰할 수 있는 키워드 추출 알고리즘을 제공합니다. 이 튜토리얼에서는 SpaCy를 사용하여 텍스트에서 핵심 키워드를 추출하는 방법을 다루겠습니다.

SpaCy 설치

먼저, SpaCy를 설치해야 합니다. 아래의 명령어를 사용하여 SpaCy를 설치합니다.

pip install spacy

또한, SpaCy의 영어 언어 모델을 설치해야 합니다. 아래의 명령어를 사용하여 영어 언어 모델을 설치합니다.

python -m spacy download en_core_web_sm

텍스트에서 핵심 키워드 추출하기

이제 SpaCy를 사용하여 텍스트에서 핵심 키워드를 추출해 봅시다. 먼저, 다음과 같이 SpaCy를 로드합니다.

import spacy

nlp = spacy.load('en_core_web_sm')

다음으로, 추출할 텍스트를 SpaCy의 nlp 객체에 적용합니다. 키워드 추출에 가장 중요한 부분은 텍스트를 토큰화하고, 명사, 형용사 등과 같은 중요한 품사를 포함하는 토큰을 선택하는 것입니다. 이를 위해 SpaCy의 nlp 객체에 텍스트를 입력하고, 토큰화 및 품사 판별 과정을 거치면 됩니다.

text = "SpaCy를 사용하여 텍스트에 대한 주요 핵심 키워드 추출하는 방법을 알아보겠습니다."

doc = nlp(text)

keywords = []
for token in doc:
    if token.pos_ in ['NOUN', 'PROPN', 'ADJ']:
        keywords.append(token.text)

print(keywords)

위의 코드는 주어진 텍스트에서 명사(NOUN), 고유 명사(PROPN), 형용사(ADJ)에 해당하는 토큰을 추출하여 keywords 리스트에 저장합니다.

출력 결과로는 다음과 같은 리스트가 반환됩니다.

['SpaCy', '텍스트', '주요', '핵심', '키워드', '추출', '방법']

이 리스트는 텍스트에서 추출한 핵심 키워드들을 담고 있습니다.

마무리

이제 SpaCy를 사용하여 텍스트에서 핵심 키워드를 추출하는 방법을 알아보았습니다. SpaCy의 다양한 기능과 알고리즘을 활용하면 자연어 처리 작업을 보다 간편하고 효과적으로 수행할 수 있습니다. 키워드 추출은 정보 검색, 텍스트 분석 및 요약 등 다양한 응용 분야에서 유용하게 활용될 수 있습니다.

#NLP #키워드추출