论文解读之Generative Dense Retrieval: Memory Can Be a Burden

最新推荐文章于 2025-08-26 23:28:21 发布

原创

最新推荐文章于 2025-08-26 23:28:21 发布 · 1k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#检索系统 #稠密检索 #全文检索 #生成式检索 #信息系统

本次论文解读，博主带来生成式稠密检索：记忆可能成为一种负担的论文分享

一、简介

生成式检索根据给定的查询，自回归地检索相关的文档标识符，在小规模的文档库中表现不错，通过使用模型参数记忆文档库，生成式检索实现了查询和文档之间的深层次交互。

但是，这种记忆机制存在一些问题：1.对文档的细粒度特征记忆准确性不足2.当文档库规模变大时，记忆混淆情况加重3.新文档加入时记忆力更新的耗费很大，因为当新的文档到来时，文档聚簇树需要被更新，模型也需要被再次训练来记住所有的文档。

本论文中，作者提出生成式稠密检索范式，从粗到细粒度的匹配路径上，利用稠密检索和生成式检索两种方式进行优劣互补。

具体来说：首先使用有限的记忆容量实现了查询到相关的文档簇的匹配，再将不用记忆力的稠密检索引入了细粒度的簇内匹配，即从簇到相关的文档。

二、相关工作

2.1 稠密检索

使用二编码器结构来提取查询和文档的稠密语义表示，使用相似度如欧氏距离来计算这些特征之间的相似度，排序后给出匹配的结果。

但是，存在一些问题。比如，大多数查询和多个文档在语义空间上很接近，但是这些文档彼此在语义空间上不一定很接近，因此，使用一个查询通过匹配机制将所有的相关的文档进行召回是很困难的。

2.2 生成式检索

使用自回归模型，结合K近邻算法来产生带有层次信息的识别符，存在简介中提出的问题，在博主的上一篇博客中详细介绍过。

三、实验方法

3.1 两种机制的应用顺序

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。