推荐系统6--Wide&Deep与Deep&Cross模型（综合原始特征及交叉特征）

最新推荐文章于 2025-03-27 15:37:09 发布

Evey_zhang

最新推荐文章于 2025-03-27 15:37:09 发布

阅读量837

点赞数

CC 4.0 BY-SA版权

分类专栏：推荐系统文章标签：机器学习深度学习推荐算法

本文链接：https://blog.csdn.net/weixin_41403341/article/details/125095835

本文介绍了Wide&Deep模型和Deep&Cross模型，强调了它们在推荐系统中的应用。Wide部分擅长处理稀疏特征，Deep部分用于挖掘特征的深层交叉。Deep&Cross模型的Cross Network能自动进行特征交互，提高模型的非线性学习能力，简化人工特征工程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，前言

记忆能力：模型直接学习并利用历史数据中物品和特征的“共现频率”的能力。
泛化能力：模型传递特征的相关性，以及挖掘稀疏甚至从未出现过的稀疏特征与最终标签相关性的能力。

二，Wide&Deep模型

在这里插入图片描述
单层的Wide层善于处理大量的稀疏的id类特征，Deep部分善于处理深层的特征交叉，挖掘在特征背后的数据模型。

2.1 Wide 部分

Wide部分是一个广义的线性模型，公式如下：
在这里插入图片描述
输入的 $x=[x_{1},x_{2},...,x_{d}]$ 包括原始特征和转换的特征，还有一些离散的id类特征（神经网络那边不喜欢这种高稀疏的离散id特征，但是wide这边喜欢）。其中一种比较重要的转换操作就是cross-product trainsformation(原始特征的交互特征)，公式如下:
在这里插入图片描述
如果两个特征同时为1的时候，这个特征就是1，否则就是0，这是一种组合，往往我们在特征工程的时候会做一些这种特征。比如：And(gender=female, language=en)=1, 当且仅当gender=female, language=en的时候，否则就是0.
对于wide部分训练时候使用的优化器是带正则的FTRL算法。FTRL 算法是一个稀疏性很好，精度又不错的随机梯度下降方法，该算法是非常注重模型稀疏性质的。Wide部分模型训练完之后留下来的特征都是非常重要的。模型的"记忆能力"就可以理解为发现“直接的”，“暴力的”，“显然的”关联规则的能力。

2.2 Deep部分

该部分主要是一个Embeding+MLP的神经网络模式。大规模稀疏特征通过embedding转化为低维稠密特征，然后特征进行拼接输入到MLP中，挖掘在特征背后的数据模式。
在这里插入图片描述
输入的特征有两类：一类是数值型特征，一类是类别型特征。DNN模型随着层数的增加，中间的特征就越抽象，也就提高了模型的泛化能力。对于Deep部分的DNN，作者使用的是AdaGrad优化器。这样做是为了使模型可以得到更加精确的解。

2.3 wide&Deep部分

W&D模型将两部分的输出的结果结合起来联合训练，将deep部分和wide部分的输出重新使用一个逻辑回归模型做最终的预测，输出概率值。联合训练的数学形式如下：
在这里插入图片描述
联合训练(joint)和集成训练（ensemble）的区别：
在集成训练中，单个模型分开独立训练，只是在预测阶段多个模型结合在一起。联合训练中，wide,deep，以及最后的sum层所有的参数，在训练过程中一起进行训练。

3.4 Wide&Deep工业使用经验

1，wide端和deep端接收的特征是不一样的。wide端一般会接收一些重要的交互特征，高维的稀疏离散特征，而deep端接收的是连续特征。
2，wide端和deep端使用的梯度下降方式不一样。wide端使用带L1正则的那种方式，L1有特征选择作用，更加注重特征的稀疏性；deep端使用的是普通的梯度下降方式，带L2正则。
3，wide端直接与输出连接。
4，wide & deep 是一种架构，并不一定非得是上面图中的形式，要结合具体业务进行灵活改造。有些特征如果即不适合wide也不适合deep,而是适合FM,那么就把这部分特征经过一个FM,与wide &deep 端的输出拼起来得到最后的输出。

三，Deep&Cross模型的结构原理

Wide&Deep 模型提出之后，出现了各种基于Wide或者Deep 部分进行改进的模型。其中比较经典的就是Deep&Cross模型。Deep&Cross模型针对W&D的wide部分进行了改进，用一个Cross Network替换掉之前的wide部分，来自动进行特征之间的交叉，并且网络的时间和空间复杂度都是线性的。 其网络结构如下：
在这里插入图片描述