Recommendation Unlearning 论文笔记

pou6

已于 2024-03-31 15:18:41 修改

阅读量498

点赞数

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

于 2023-11-16 19:11:17 首次发布

本文链接：https://blog.csdn.net/m0_66184663/article/details/134391735

本文介绍了一个名为RecEraser的框架，用于解决推荐任务中的机器unlearning问题。框架包括数据划分（UBP,IBP,InBP）、子模型训练和基于注意力的自适应聚合。实验结果显示，RecEraser在推荐性能和unlearning效率上优于其他方法，尤其在InBP划分下表现最佳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文贡献

对于 Recommendation Unlearning，目标一般是以下三个

Movielens-10m的实验结果如下(RecEraser使用InBP划分)

推荐性能:

unlearning性能:

消融研究

1.数据划分方法（以Movielens-1m为例）

2.聚合方法

划分的子模型数量影响

本文贡献

第一个解决推荐任务中机器unlearning的工作。提出了一个通用框架RecEraser
设计了三种数据划分策略，并提出了一种基于注意力的自适应聚合方法来进一步提高RecEraser的性能
在三个数据集和三个有代表性的推荐模型上进行了的实验。结果表明，RecEraser不仅可以实现有效的学习，而且在推荐性能方面优于最先进的学习框架。

对于 Recommendation Unlearning，目标一般是以下三个

unlearning的数据必须是真正的被废除，并且不影响模型参数
unlearning的过程需要尽量快
unlearning后的模型要和从头训练的模型性能相当

RecEraser框架介绍

RecEraser有三个核心部分

数据划分->子模型训练->基于注意力的自适应聚合

当需要unlearning时，只需要重新训练某个子模型

1.数据划分

本文提出三种方法

即基于用户的划分（UBP），基于物品的划分（IBP）和基于u-i交互的划分（InBP）（基于U/I/In的相似性）

(1)UBP

UBP数据划分前的准备工作：

预训练user embeddings $\overline{\mathbf{P}}=\{\overline{\mathbf{p}}_1,\overline{\mathbf{p}}_2,\cdots,\overline{\mathbf{p}}_m\}$ （使用WMF生成）

user-item交互矩阵 $\mathbf{Y}$

划分后集合总数 $K$

划分后每个集合最大容量 $t$

步骤：

1.从所有Users中随机选择 $K$ 个users： $\mathbf{A}=\{a_1,a_2,\cdots,a_K\}$

2.对于 $\mathbf{A}$ 中每一个用户 $a_i$ ，计算他与所有其他用户 $u$ 的欧几里得距离，公式如下

$dist(a_i,u) =\left \| \overline{\mathbf{p}}_{a_i}-\overline{{\mathbf{p}}}_{u}\right \|_2=\sqrt{\sum^n_{j=1}(\overline{p}_{{a_i},j}-\overline{p}_{{u},j})^2}$

然后按升序排列得到 $E_s$

3.根据 $E_s$ ,将 $Y_u$ 按距离从小到大的顺序装入 $S_i$ 分片，每个分片里元素数量不能超过 $t$

4.根据公式重新计算各个集合 $S_i$ 的 $a_i$ ，回到第（2）步，直到达到循环上限或 $a_i$ 不再变化

$a_i=\frac{\sum_{j\in S_i}\overline{p}_j}{|S_i|}$

(2)IBP

IBP的步骤和UBP类似，在此不赘述

(3)InBP

InBP数据划分前的准备工作：

预训练user embeddings $\overline{\mathbf{P}}=\{\overline{\mathbf{p}}_1,\overline{\mathbf{p}}_2,\cdots,\overline{\mathbf{p}}_m\}$ （使用WMF生成）

预训练item embeddings $\overline{\mathbf{Q}}=\{\overline{\mathbf{q}}_1,\overline{\mathbf{q}}_2,\cdots,\overline{\mathbf{q}}_n\}$ （使用WMF生成）

user-item交互矩阵 $\mathbf{Y}$

划分后集合总数 $K$

划分后每个集合最大容量 $t$

步骤：

1.从所有交互矩阵 $\mathbf{Y}$ 中随机选择 $K$ 个u-i交互 $a_i$ ： $\mathbf{A}=\{a_1,a_2,\cdots,a_K\}$

2.对于 $\mathbf{A}$ 中每一个交互 $a_i$ ，计算他与所有其他交互 $y_{uv}$ 的欧几里得距离，公式如下:

$dist(a_i,y_{uv})=\left \| \overline{\mathbf{p}}_i -\overline{\mathbf{p}}_u\right \|_2\times \left \| \overline{\mathbf{q}}_i -\overline{\mathbf{q}}_v\right \|_2\\=\sqrt{\sum^n_{j=1}(\overline{p}_{i,j}-\overline{p}_{u,j})^2}\times \sqrt{\sum^n_{j=1}(\overline{q}_{i,j}-\overline{q}_{v,j})^2}$

然后按升序排列得到 $E_s$

3.根据 $E_s$ ,将 $y_{uv}$ 按距离从小到大的顺序装入 $S_i$ 分片，每个分片里元素数量不能超过 $t$

4.根据公式重新计算各个集合 $S_i$ 的 $a_i$ ，回到第（2）步，直到达到循环上限或 $a_i$ 不再变化

$a_i=(\frac{\sum_{j\in S_i}\overline{p}_j}{|S_i|},\frac{\sum_{j\in S_i}\overline{q}_j}{|S_i|})$

2. 子模型训练

本文中的RecEraser只是一个框架，中间的子模型训练方法自定义,本文使用三个推荐模型BPR,WMF,LightGCN

3. 基于注意力的自适应聚合

不同的子模型应该对不同的u-i的预测有不同的贡献, 例如，如果分片 $S_i$ 比分片 $S_j$ 包含更多的用户 $u$ 的交互，则在预测 $u$ 的偏好时， $M_i$ 的权重大于 $M_j$ 的权重。

首先考虑到不同子模型学习到的embedding $\mathbf{P }$ 、 $\mathbf{Q}$ 在不同的空间，首先将它们转移到同一个表示空间中:

$\mathbf{P}^i_{tr} =\mathbf{W}^i\mathbf{P}^i+\mathbf{b}^i$

$\mathbf{Q}^i_{tr} =\mathbf{W}^i\mathbf{Q}^i+\mathbf{b}^i$

然后聚合embedding

$\mathbf{P}=\sum {^K_{i=1}\alpha _i \mathbf{P}^i_{tr}}$

$\mathbf{Q}=\sum {^K_{i=1}\beta _i \mathbf{Q}^i_{tr}}$

$\alpha ^*_i=h^\top_1\sigma (\mathbf{W}_1\mathbf{p}^i_{tr}+\mathbf{b}_1);\alpha _i=\frac{\textup{exp}(\alpha^*_i )}{\sum^K_{j=1}\textup{exp}(\alpha^*_j )}$

$\beta ^*_i=h^\top_2\sigma (\mathbf{W}_2\mathbf{p}^i_{tr}+\mathbf{b}_2);\beta _i=\frac{\textup{exp}(\beta^*_i )}{\sum^K_{j=1}\textup{exp}(\beta^*_j )}$