[python] TEXT RANK

TEXT RANK

TEXTRANK는 pagerank 라는 페이지의 중요도를 매기는 알고리즘을 텍스트에 적용시켜 만든 알고리즘이다.

각각의 단어를 정점으로 잡고, 한 문장 내에서 같이 등장하는 동시 출현 빈도를 가지고 간선을 구축할 수 있다. 이 때 랭크 값이 각 단어의 중요도를 표현하므로 주요 키워드를 추출할 수 있다.

문장을 정점으로 잡는데 단어는 동시 출현 빈도를 봤다면 문장은 문장간의 유사도를 가지고 간선을 구축한다. 이 때 랭크값은 문장의 중요도를 표현하므로 중요도가 높은 문장을 추려내서 새로운 글을 만들게 되며 텍스트 요약을 한다.

한국어 텍스트에 적용

  1. 형태소 분석 작업
  2. 조사나 어미 등 불용어 처리
  3. 형용사, 명사, 동사만 남김
  4. tf-idf 를 이용해 가중치를 계산
  5. 그래프 생성
  6. TEXTRANK 적용