[python] 파이썬 네이처언어 프로세싱 라이브러리를 이용한 개체명 인식
네이처언어 프로세싱 라이브러리 중에서는 NLTK(Natural Language Toolkit), spaCy, Stanford NER 등이 널리 사용됩니다.
일반적으로 SpaCy를 사용해 개체명 인식을 수행하는 절차는 다음과 같습니다:
- SpaCy를 설치하고 텍스트를 로드합니다.
import spacy nlp = spacy.load("en_core_web_sm") text = "Apple is looking at buying U.K. startup for $1 billion" doc = nlp(text)
- SpaCy의 개체명 인식을 이용하여 텍스트에서 개체를 식별합니다.
for ent in doc.ents: print(ent.text, ent.label_)
이와 같이 SpaCy를 사용하면 쉽게 개체명 인식을 수행할 수 있습니다. 때로는 모델을 추가로 훈련시켜 도메인 특정한 개체명을 인식할 수도 있습니다.
개체명 인식은 정보추출, 문서요약, 질문응답시스템, 검색엔진 등과 같은 NLP 응용프로그램에서 중요한 작업으로 활용됩니다.