[파이썬] 추상적 요약과 생성적 요약

04 Sep 2023

python

추상적 요약과 생성적 요약은 자연어 처리 분야에서 사용되는 요약 기술입니다. 이 두 개념은 텍스트 데이터의 핵심 내용을 요약하여 이해하기 쉽게 만들어주는 중요한 방법론입니다.

추상적 요약 (Abstractive Summarization)

추상적 요약은 원본 텍스트에서 높은 수준의 일반화된 내용을 추론하여 요약을 생성하는 방법입니다. 이 방법은 기존에 단순히 문장의 일부분을 추출하는 추출적 요약과는 달리, 원본 텍스트의 의미를 재구성하여 요약을 생성합니다.

예를 들어, “강아지는 가장 좋은 친구입니다” 라는 문장을 추상적 요약하는 경우, “강아지는 사람의 가장 좋은 친구입니다” 와 같은 요약 결과를 얻을 수 있습니다. 이러한 방법론은 딥러닝 모델을 활용하여 시퀀스 투 시퀀스 (Sequence-to-Sequence) 모델을 구성하는 등의 방법을 사용하여 구현할 수 있습니다.

생성적 요약 (Extractive Summarization)

생성적 요약은 원본 텍스트에서 문장이나 구문을 직접 추출하여 요약하는 방법입니다. 이 방법은 원본 텍스트 내에서 중요한 내용을 찾아내어 이를 그대로 요약으로 사용합니다.

예를 들어, “강아지는 가장 좋은 친구입니다” 라는 문장을 생성적 요약하는 경우, “강아지”, “좋은 친구”와 같은 키워드를 추출하여 이를 요약으로 사용할 수 있습니다. 이러한 방법론은 문장 분할 (Sentence Tokenization) 및 문장 중요도 평가 (Sentence Importance Scoring) 기법을 사용하여 구현할 수 있습니다.

추상적 요약과 생성적 요약은 각각 다른 방식으로 텍스트 데이터를 처리하고 요약을 생성합니다. 각각의 방법은 문맥에 맞는 요약 결과를 만들어내기에 문제에 따라 적절한 방법을 선택하여 사용해야 합니다.

# 예시 추상적 요약
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained('t5-base')
model = T5ForConditionalGeneration.from_pretrained('t5-base')

article = "강아지는 가장 좋은 친구입니다."
inputs = tokenizer.encode("summarize: " + article, return_tensors="pt")
outputs = model.generate(inputs, max_length=200, num_beams=5, early_stopping=True)
summary = tokenizer.decode(outputs[0])

print(summary)

# 예시 생성적 요약
from transformers import BartTokenizer, BartForConditionalGeneration

tokenizer = BartTokenizer.from_pretrained('bart-large-cnn')
model = BartForConditionalGeneration.from_pretrained('bart-large-cnn')

article = "강아지는 가장 좋은 친구입니다."
inputs = tokenizer.encode("summarize: " + article, return_tensors="pt")
outputs = model.generate(inputs, max_length=200, num_beams=5, early_stopping=True)
summary = tokenizer.decode(outputs[0])

print(summary)

위의 코드는 Hugging Face Transformers 라이브러리를 사용하여 추상적 요약과 생성적 요약을 구현한 예시입니다. 실제로는 학습된 모델이 필요하지만, 이는 참고용으로 코드를 제공한 것이므로 실제 사용에는 해당 모델을 학습하고 사용해야 합니다.

추상적 요약과 생성적 요약은 텍스트 데이터를 효과적으로 요약하는 방법론입니다. 이러한 요약 기술은 정보 검색, 문서 요약, 의견 마이닝 등 다양한 자연어 처리 문제에서 유용하게 활용될 수 있습니다.