[파이썬] TEXT RANK
TEXT RANK
TEXTRANK는 pagerank 라는 페이지의 중요도를 매기는 알고리즘을 텍스트에 적용시켜 만든 알고리즘이다.
- 단어 TEXTRANK
각각의 단어를 정점으로 잡고, 한 문장 내에서 같이 등장하는 동시 출현 빈도를 가지고 간선을 구축할 수 있다. 이 때 랭크 값이 각 단어의 중요도를 표현하므로 주요 키워드를 추출할 수 있다.
- 문장 TEXTRANK
문장을 정점으로 잡는데 단어는 동시 출현 빈도를 봤다면 문장은 문장간의 유사도를 가지고 간선을 구축한다. 이 때 랭크값은 문장의 중요도를 표현하므로 중요도가 높은 문장을 추려내서 새로운 글을 만들게 되며 텍스트 요약을 한다.
한국어 텍스트에 적용
- 형태소 분석 작업
- 조사나 어미 등 불용어 처리
- 형용사, 명사, 동사만 남김
- tf-idf 를 이용해 가중치를 계산
- 그래프 생성
- TEXTRANK 적용