[python] NLTK를 사용해 텍스트의 워드 클라우드를 생성하는 방법은 무엇인가요?

30 Nov 2023

python

먼저, 필요한 패키지를 설치해야 합니다. 터미널에서 다음 명령을 실행하여 설치하세요.

pip install nltk
pip install matplotlib
pip install wordcloud

NLTK를 import하고 텍스트 데이터를 로드한 후, 텍스트를 전처리해야 합니다. 전처리에는 토큰화와 불용어 제거가 일반적으로 수행됩니다. 토큰화는 텍스트를 단어로 나누는 작업이고, 불용어 제거는 의미 없는 단어를 제거하는 작업입니다. 다음은 예제입니다.

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# NLTK의 불용어를 다운로드합니다.
nltk.download('stopwords')

# 텍스트 데이터를 로드합니다.
text = "텍스트 데이터를 입력하세요."

# 텍스트를 소문자로 변환합니다.
text = text.lower()

# 토큰화합니다.
tokens = word_tokenize(text)

# 불용어를 제거합니다.
stop_words = set(stopwords.words('korean'))
filtered_tokens = [word for word in tokens if word not in stop_words]

이제 워드 클라우드를 생성할 준비가 되었습니다. 워드 클라우드를 생성하기 위해 WordCloud 객체를 생성하고, generate_from_text() 메서드를 사용하여 텍스트를 기반으로 워드 클라우드를 생성합니다. 마지막으로, plt.imshow()를 사용하여 생성된 워드 클라우드를 표시합니다.

# 워드 클라우드 생성
wordcloud = WordCloud(width=800, height=800, background_color='white').generate_from_text(' '.join(filtered_tokens))

# 워드 클라우드 표시
plt.figure(figsize=(8, 8), facecolor=None)
plt.imshow(wordcloud)
plt.axis("off")
plt.tight_layout(pad=0)

# 생성된 워드 클라우드를 저장합니다.
plt.savefig('wordcloud.png')
plt.show()

위의 코드를 실행하면 텍스트 데이터를 기반으로 워드 클라우드가 생성되고, 만들어진 워드 클라우드가 ‘wordcloud.png’ 파일로 저장됩니다.

위의 코드를 사용하여 NLTK를 통해 텍스트의 워드 클라우드를 생성할 수 있습니다. NLTK의 다양한 기능을 활용하여 자연어 처리 작업에 유용하게 활용할 수 있습니다.

참고자료: