Extractive Summarization as Text Matching论文阅读笔记

传统的抽取式文本摘要方法主要关注sentence-level,但研究表明这种方法可能不是最优的。作者提出了一种summary-level的摘要方法,将摘要生成转化为文本匹配问题。首先,使用BERTSUM模型对文档中的句子进行评分并选取相关句子作为候选摘要。然后,通过Siamese-BERT模型计算候选摘要与原文档的相似度,以选择最佳摘要。这种方法在训练时优化目标,确保参考摘要得分最高且高质量摘要的相似度更高。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Motivation:

一般的抽取式文本摘要方法都是sentence-level的,即对每个句子进行打分,然后选出一些句子来构成摘要。作者通过实验验证了这种sentence-level的抽取式方法可能并不是最优的,因此作者提出一种summary-level的抽取式摘要方法,将文本摘要转化为一个文本匹配问题,使得选出的摘要与原始文档在语义空间中尽可能的相似。

Method

这篇文章其实一共分为两步,第一步是生成候选摘要,第二步是利用文本匹配的方法对候选摘要重排。
第一步生成候选摘要其实还是sentence-level的,首先使用一个content-selection模块( BERTSUM 模型)对文档中的每个句子打分,提取出与文档内容最相关的ext个句子,去掉不相关的句子。然后从这ext个句子中随机选出sel个句子进行组合,并按照原始文档的顺序重新组织,最后一共得到CextselC_{ext}^{sel}Cextsel个候选
第二步从候选摘要中选出最佳摘要,这一步是summary-level的,使用Siamese-BERT模型对原文档D和候选摘要C进行文本匹配,即用siamese-bert分别将D和C编码成向量,计算编码后的向量的余弦相似度,得到相似度得分f(D,C)f(D,C)f(D,C)
训练时的损失函数公式如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里的候选摘要按照rouge得分降序排序
目标是使得参考摘要得分最高,同时使得越好的摘要相似度得分越高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值