[파이썬][AI Chatbot] spaCy의 토큰화 예제

18 Aug 2023

챗봇

spaCy는 파이썬에서 자연어 처리 작업을 수행하기 위한 강력한 라이브러리입니다. 토큰화(tokenization)는 spaCy에서 자연어 문장을 단어 또는 토큰으로 분리하는 과정을 의미합니다. 아래는 spaCy를 사용한 토큰화 예제입니다.

먼저, spaCy를 설치합니다:

pip install spacy`

다음으로, spaCy의 영어 모델을 다운로드 받습니다:

python -m spacy download en_core_web_sm`

그리고 아래는 spaCy를 사용한 토큰화 예제 코드입니다:

import spacy

## spaCy 모델 로드
nlp = spacy.load("en_core_web_sm")

## 텍스트를 spaCy 문서로 변환
text = "Hello, world! This is a sample sentence."
doc = nlp(text)

## 문장의 각 토큰 출력
for token in doc:
    print(token.text)` 

이 코드는 입력 텍스트를 spaCy의 영어 모델을 사용하여 토큰화하고, 토큰화된 각 토큰을 출력하는 예제입니다. 예를 들어, "Hello, world! This is a sample sentence."라는 텍스트를 토큰화하면 다음과 같은 결과가 출력될 수 있습니다:

`Hello
,
world
!
This
is
a
sample
sentence
.` 

spaCy는 강력한 토큰화 기능 외에도 다양한 자연어 처리 작업을 지원합니다. 토큰화 외에도 형태소 분석, 품사 태깅, 개체명 인식 등의 작업을 수행할 수 있습니다.