[python] 주피터 노트북에서 텍스트 처리하기

14 Dec 2023

python

주피터 노트북은 데이터 과학 및 기계 학습과 같은 작업에 이상적인 도구입니다. 특히 텍스트 처리 작업을 수행하는 데 매우 유용합니다.

텍스트 읽기

텍스트 파일을 읽어들이는 것은 데이터 분석의 첫 번째 단계입니다. 아래는 주피터 노트북에서 텍스트 파일을 읽는 간단한 예제입니다.

with open('파일경로/파일이름.txt', 'r', encoding="utf-8") as file:
    data = file.read()
print(data)

텍스트 전처리

텍스트 데이터를 전처리하여 노이즈를 줄이고 분석에 적합한 형태로 변환하는 것이 중요합니다. 주피터 노트북에서 간단한 텍스트 전처리 작업을 보여드리겠습니다.

import re

# 특수 문자 제거
cleaned_data = re.sub(r'[^\w\s]', '', data)

# 소문자 변환
cleaned_data = cleaned_data.lower()

print(cleaned_data)

자연어 처리 도구 활용

텍스트 처리에는 자주 사용되는 도구들이 있습니다. 주피터 노트북에서 NLTK(Natural Language Toolkit)와 같은 도구를 사용하여 텍스트 데이터를 처리할 수 있습니다.

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('stopwords')

# 불용어 제거
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(cleaned_data)
filtered_data = [word for word in word_tokens if not word in stop_words]

print(filtered_data)

텍스트를 처리하는 다양한 방법이 있지만, 주피터 노트북을 활용하면 텍스트 데이터를 쉽게 읽고 전처리할 수 있습니다.

자세한 내용은 다음 참고 자료를 참조하세요:

NLTK 공식 홈페이지: NLTK
Python 문서: 파일 읽기와 쓰기
파이썬을 이용한 자연어 처리 첫걸음: 파이썬을 이용한 자연어 처리 첫걸음

텍스트 처리에 관한 주피터 노트북 활용 방법에 대한 기본적인 내용은 이렇습니다. 원하는 결과를 얻기 위해 다양한 방법을 시도해 보시기 바랍니다.