EBR开山之作：Embedding-based Retrieval in Facebook Search

Braylon1002

于 2024-02-22 20:03:27 发布

阅读量1.0k

点赞数 21

CC 4.0 BY-SA版权

分类专栏：推荐系统文章标签： embedding retrieval 推荐系统算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40742298/article/details/136242105

本文介绍了个人随笔中关于信息检索模型的关键点，包括双塔结构的损失函数、正负样本策略、特征工程（如文本、位置和社会嵌入），以及索引优化（IVF/PQ等）和全链路召回优化方法。着重于模型融合、hardsamplemining和人工评分反馈以提升效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

- 简介

简介

个人的随笔，读者需要基本了解IR领域的基本知识和概念，本文主要记录了我觉得该工作一些重要的点。和大家共勉。

1 模型

在这里插入图片描述

标准的双塔结构

1.1 损失函数

搜索相关性以pair-wise的形式进行建模，选择的是Triple loss形式：

loss = max(0, sim(u, x_pos) - sim(u, x_neg) + M)

1.2 正负样本选择

结论：

【正样本】点击样本>展现样本

这里衡量的是对模型影响力

【负样本】随机负采样>曝光未点击

召回阶段固然曝光未点击一定是负样本，但是召回的最重要任务是保证分布接近线上的样本分布，所以要让模型“见见世面”，故负采样更重要。

hard negative mining

随机负采样会导致样本学习过于简单，虽然这样对模型是有正向影响的，不过需要套让模型感受到世界的参差。

作者提出两种

online：在线一般是batch内其他用户的正例当作负例池随机采，本文提到选相似度最高的作为hard样本，同时强调了最多不能超过两个hard样本。

offline：考虑到在线batch的容量太小，在离线阶段可以从全量池子里选择。做法是对每个query的Top-k结果利用hard selection strategy找到hard样本，并重复上述过程。作者提到要从101-500个中进行采集，太靠前也许根本不是负例。另外还有两个经验性的结论：（1）easy： hard = 100： 1 （2）先训练easy再训练hard 效果< 先训练hard再训练easy

h

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。