[파이썬] 텍스트 전처리

16 Sep 2021

텍스트 전처리

얻어낸 데이터가 필요에 맞게 전처리 되지 않은 상태일 때 , 사용하고자하는 용도에 맞게

토큰화(tokenization), 정제(cleaning), 정규화(nomalization)하는 일을 해야함

** 여기서 토큰화란, 주어진 말뭉치를 토큰(token)이라는 단위로 나누는 작업을 말함.

토큰 단위는 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의

여기서, 영어는 띄어쓰기로 구분하기 쉬운데, 한글을 구분하기가 어렵다.

이유는 영어는 띄어쓰기가 정확하게 들어가 있어야 해석이 되는데

한글은 띄어쓰기가 없어도 의미가 해석이 가능함에 있다

ex ) hi my name is ahn -> himynameisahn, 안녕 나의 이름은 안이야 -> 안녕나의이름은안이야

import nltk  
from nltk.tokenize import WordPunctTokenizer 
## 단어 토큰화 함수

– 단어 토큰화에서 고려해야할 점

ex) 온점(.)같은경우는 문장을 구분해주는 역할을 해 문장의 경계를 알 수 있는데 도움을 줌

ex) m.p.h, Ph.D, AT&T 등

ex) i am -> i`m , we are -> we’re 등등

import nltk
from nltk.tokenize import sent_tokenize ## 이걸 사용하면 가능

Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma) 은

konlp패키지의 한국어 분석도구