[python] 파이썬 네이처언어 프로세싱 라이브러리를 이용한 개체명 인식

네이처언어 프로세싱 라이브러리 중에서는 NLTK(Natural Language Toolkit), spaCy, Stanford NER 등이 널리 사용됩니다.

일반적으로 SpaCy를 사용해 개체명 인식을 수행하는 절차는 다음과 같습니다:

  1. SpaCy를 설치하고 텍스트를 로드합니다.
     import spacy
     nlp = spacy.load("en_core_web_sm")
     text = "Apple is looking at buying U.K. startup for $1 billion"
     doc = nlp(text)
    
  2. SpaCy의 개체명 인식을 이용하여 텍스트에서 개체를 식별합니다.
     for ent in doc.ents:
         print(ent.text, ent.label_)
    

이와 같이 SpaCy를 사용하면 쉽게 개체명 인식을 수행할 수 있습니다. 때로는 모델을 추가로 훈련시켜 도메인 특정한 개체명을 인식할 수도 있습니다.

개체명 인식은 정보추출, 문서요약, 질문응답시스템, 검색엔진 등과 같은 NLP 응용프로그램에서 중요한 작업으로 활용됩니다.