[파이썬][AI Chatbot] spaCy의 토큰화 예제

spaCy는 파이썬에서 자연어 처리 작업을 수행하기 위한 강력한 라이브러리입니다. 토큰화(tokenization)는 spaCy에서 자연어 문장을 단어 또는 토큰으로 분리하는 과정을 의미합니다. 아래는 spaCy를 사용한 토큰화 예제입니다.

먼저, spaCy를 설치합니다:

pip install spacy` 

다음으로, spaCy의 영어 모델을 다운로드 받습니다:

python -m spacy download en_core_web_sm` 

그리고 아래는 spaCy를 사용한 토큰화 예제 코드입니다:

import spacy

## spaCy 모델 로드
nlp = spacy.load("en_core_web_sm")

## 텍스트를 spaCy 문서로 변환
text = "Hello, world! This is a sample sentence."
doc = nlp(text)

## 문장의 각 토큰 출력
for token in doc:
    print(token.text)` 

 코드는 입력 텍스트를 spaCy의 영어 모델을 사용하여 토큰화하고, 토큰화된  토큰을 출력하는 예제입니다. 예를 들어, "Hello, world! This is a sample sentence."라는 텍스트를 토큰화하면 다음과 같은 결과가 출력될  있습니다:
`Hello
,
world
!
This
is
a
sample
sentence
.` 

spaCy는 강력한 토큰화 기능 외에도 다양한 자연어 처리 작업을 지원합니다. 토큰화 외에도 형태소 분석, 품사 태깅, 개체명 인식 등의 작업을 수행할 수 있습니다.