2021-03-24

最新推荐文章于 2025-08-21 16:45:09 发布

原创最新推荐文章于 2025-08-21 16:45:09 发布 · 156 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习

神经FM（NFM）模型通过引入特征交叉池化层，将FM的低阶特征交互与DNN的高阶特征交互相结合。NFM在保留线性部分的同时，使用神经网络替换FM中的二阶交互，以表达更复杂的特征结构。Bi-Interaction层通过元素积而非内积来捕捉特征交互，提高了模型的计算效率。NFM的前向预测公式整合了线性项、神经网络和Bi-Interaction层的输出，从而能更好地拟合复杂的数据模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NFM

1、背景

传统的FM模型仅局限于线性表达和二阶交互，无法胜任生活中各种具有复杂结构和规律性的真实数据，针对FM的这点不足，作者提出了一种将FM融合进DNN的策略，通过引进了一个特征交叉池化层的结构，使得FM与DNN进行了完美衔接，这样就组合了FM的建模低阶特征交互能力和DNN学习高阶特征交互和非线性的能力，形成了深度学习时代的神经FM模型(NFM)。
那么NFM具体是怎么做的呢？首先看一下NFM的公式：
$y^NFM(x)=w0+∑i=1nwixi+f(x) \hat{y}_{N F M}(\mathbf{x})=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+f(\mathbf{x})$
我们对比FM，就会发现变化的是第三项，前两项还是原来的，因为我们说FM的一个问题，就是只能到二阶交叉，且是线性模型，这是他本身的一个局限性，而如果想突破这个局限性，就需要从他的公式本身下点功夫，作者在这里改进的思路就是用一个表达能力更强的函数来替代原FM中二阶隐向量内积的部分。

而这个表达能力更强的函数呢，我们很容易就可以想到神经网络来充当，因为神经网络理论上可以拟合任何复杂能力的函数，所以作者真的就把这个 $f (x)$ 换成了一个神经网络。

2、模型结构

模型代码依然是将线性结构和更高阶的分开。 #### 线性部分：

def get_linear_logits(dense_input_dict, sparse_input_dict, sparse_feature_columns):
    concat_dense_inputs = Concatenate(axis=1)(list(dense_input_dict.values()))
    dense_logits_output = Dense(1)(concat_dense_inputs)
    linear_embedding_layers = build_embedding_layers(sparse_feature_columns, sparse_input_dict, is_linear=True)
    sparse_1d_embed = []
    for fc in sparse_feature_columns:
        feat_input = sparse_input_dict[fc.name]
        embed = Flatten()(linear_embedding_layers[fc.name](feat_input))
        sparse_1d_embed.append(embed)
    sparse_logits_output = Add()(sparse_1d_embed)
    linear_part = Add()([dense_logits_output, sparse_logits_output])
    return linear_part

Bi-Interaction层

$f_{B I}\left(\mathcal{V}_{x}\right)=\sum_{i=1}^{n} \sum_{j=i+1}^{n} x_{i} \mathbf{v}_{i} \odot x_{j} \mathbf{v}_{j}$

$⊙\odot$ 表示两个向量的元素积操作，即两个向量对应维度相乘得到的元素积向量（可不是点乘呀），其中第 $k$ 维的操作：
$\left(v_{i} \odot v_{j}\right)_{k}=\boldsymbol{v}_{i k} \boldsymbol{v}_{j k}$

这便定义了在embedding空间特征的二阶交互，这个不仔细看会和感觉FM的最后一项很像，但是不一样，一定要注意这个地方不是两个隐向量的内积，而是元素积，也就是这一个交叉完了之后k个维度不求和，最后会得到一个 $k$ 维向量，而FM那里内积的话最后得到一个数，在进行两两Embedding元素积之后，对交叉特征向量取和，得到该层的输出向量，很显然，输出是一个 $k$ 维的向量。

Bi-Interaction层不需要额外的模型学习参数，更重要的是它在一个线性的时间内完成计算，和FM一致的，即时间复杂度为 $O(kNx)O\left(k N_{x}\right)$ ， $N_x$ 为embedding向量的数量。参考FM，可以将上式转化为：
$f_{B I}\left(\mathcal{V}_{x}\right)=\frac{1}{2}\left[\left(\sum_{i=1}^{n} x_{i} \mathbf{v}_{i}\right)^{2}-\sum_{i=1}^{n}\left(x_{i} \mathbf{v}_{i}\right)^{2}\right]$

class BiInteractionPooling(Layer):
    def __init__(self):
        super(BiInteractionPooling, self).__init__()

    def call(self, inputs):
        concated_embeds_value = inputs # B x n x k
        square_of_sum = tf.square(tf.reduce_sum(concated_embeds_value, axis=1, keepdims=False)) # B x k
        sum_of_square = tf.reduce_sum(concated_embeds_value * concated_embeds_value, axis=1, keepdims=False) # B x k
        cross_term = 0.5 * (square_of_sum - sum_of_square) # B x k

        return cross_term

    def compute_output_shape(self, input_shape):
        return (None, input_shape[2])


def get_bi_interaction_pooling_output(sparse_input_dict, sparse_feature_columns, dnn_embedding_layers):
    sparse_kd_embed = []
    for fc in sparse_feature_columns:
        feat_input = sparse_input_dict[fc.name]
        _embed = dnn_embedding_layers[fc.name](feat_input) # B x 1 x k
        sparse_kd_embed.append(_embed)
    concat_sparse_kd_embed = Concatenate(axis=1)(sparse_kd_embed) # B x n x k
    
    pooling_out = BiInteractionPooling()(concat_sparse_kd_embed)

    return pooling_out

隐藏层

隐藏层就是标准的DNN结构。

前向预测公式

$y^NFM(x)=w0+∑i=1nwixi+hTσL(WL(…σ1(W1fBI(Vx)+b1)…)+bL) \begin{aligned} \hat{y}_{N F M}(\mathbf{x}) &=w_{0}+\sum_{i=1}^{n} w_{i} x_{i} \\ &+\mathbf{h}^{T} \sigma_{L}\left(\mathbf{W}_{L}\left(\ldots \sigma_{1}\left(\mathbf{W}_{1} f_{B I}\left(\mathcal{V}_{x}\right)+\mathbf{b}_{1}\right) \ldots\right)+\mathbf{b}_{L}\right) \end{aligned}$