目录
对于 Recommendation Unlearning,目标一般是以下三个
Movielens-10m的实验结果如下(RecEraser使用InBP划分)
本文贡献
- 第一个解决推荐任务中机器unlearning的工作。提出了一个通用框架RecEraser
- 设计了三种数据划分策略,并提出了一种基于注意力的自适应聚合方法来进一步提高RecEraser的性能
- 在三个数据集和三个有代表性的推荐模型上进行了的实验。结果表明,RecEraser不仅可以实现有效的学习,而且在推荐性能方面优于最先进的学习框架。
对于 Recommendation Unlearning,目标一般是以下三个
- unlearning的数据必须是真正的被废除,并且不影响模型参数
- unlearning的过程需要尽量快
- unlearning后的模型要和从头训练的模型性能相当
RecEraser框架介绍
RecEraser有三个核心部分
数据划分->子模型训练->基于注意力的自适应聚合
当需要unlearning时,只需要重新训练某个子模型
1.数据划分
本文提出三种方法
即基于用户的划分(UBP),基于物品的划分(IBP)和基于u-i交互的划分(InBP)(基于U/I/In的相似性)
(1)UBP
UBP数据划分前的准备工作:
预训练user embeddings (使用WMF生成)
user-item交互矩阵
划分后集合总数
划分后每个集合最大容量
步骤:
1.从所有Users中随机选择个users:
2.对于中每一个用户
,计算他与所有其他用户
的欧几里得距离,公式如下
然后按升序排列 得到
3.根据,将
按距离从小到大的顺序装入
分片,每个分片里元素数量不能超过
4.根据公式重新计算各个集合的
,回到第(2)步,直到达到循环上限或
不再变化
(2)IBP
IBP的步骤和UBP类似,在此不赘述
(3)InBP
InBP数据划分前的准备工作:
预训练user embeddings (使用WMF生成)
预训练item embeddings (使用WMF生成)
user-item交互矩阵
划分后集合总数
划分后每个集合最大容量
步骤:
1.从所有交互矩阵中随机选择
个u-i交互
:
2.对于中每一个交互
,计算他与所有其他交互
的欧几里得距离,公式如下:
然后按升序排列 得到
3.根据,将
按距离从小到大的顺序装入
分片,每个分片里元素数量不能超过
4.根据公式重新计算各个集合的
,回到第(2)步,直到达到循环上限或
不再变化
2. 子模型训练
本文中的RecEraser只是一个框架,中间的子模型训练方法自定义,本文使用三个推荐模型BPR,WMF,LightGCN
3. 基于注意力的自适应聚合
不同的子模型应该对不同的u-i的预测有不同的贡献, 例如,如果分片比分片
包含更多的用户
的交互,则在预测
的偏好时,
的权重大于
的权重。
首先考虑到不同子模型学习到的embedding 、
在不同的空间,首先将它们转移到同一个表示空间中:
然后聚合embedding
也就是说在这一层用深度学习的方法,用P、Q去和交互矩阵Y对比,然后计算loss优化权重参数
实验部分
数据集
先预处理数据集将详细评级转换为指示用户是否与项目交互的0或1
用于训练子模型的推荐模型:
BPR
WMF
LightGCN
对于每个子模型,评分函数被定义为
用于测试unlearning的其他方法
Retrain:重新训练
SISA: 将训练数据随机分割成碎片,然后通过平均值聚合所有子模型的结果以进行最终预测。
GraphEraser:针对图数据量身定制的最先进的方法,它使用节点聚类方法进行图分区,并使用静态加权聚合方法进行预测。
Movielens-10m的实验结果如下(RecEraser使用InBP划分)
推荐性能:
无论用哪种推荐模型RecEraser的推荐性能均优于另外两种unlearning方法且劣于重新训练的模型,在另外两个数据集上也是一样的结果
unlearning性能:
RecEraser与重新训练相比,节省大量时间
消融研究
1.数据划分方法(以Movielens-1m为例)
三种数据划分方法都比随机划分性能优越,其中InBP最好
2.聚合方法
本文提出的Attention-based Adaptive Aggregation(AttAgg)比另外两种性能优越
划分的子模型数量影响
子模型数量增加,unlearning所需时间减少,但是性能下降,因为子模型数量太多会打散数据中相关联的信息