文献阅读:Neural Network Diffusion


论文简介

  • 作者
    Kai Wang1 Dongwen Tang1 Boya Zeng2 Yida Yin3 Zhaopan Xu1 Yukun Zhou1 Zelin Zang1 Trevor Darrell3 Zhuang Liu4∗Yang You1∗

  • 发表期刊or会议
    《arxiv》

  • 发表时间
    2024


动机:为什么作者想要解决这个问题?

扩散模型在图像和视频领域取得成功。扩散模型的反向过程是逐步去噪,这和神经网络的训练类似,即参数从初始化到特定分布。

因此,作者提出p-diff,利用扩散模型生成高性能的神经网络参数。


贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 证明扩散模型不仅能在图像、视频生成领域取得成功,还能有效生成高性能的神经网络参数,为扩散模型在深度学习参数生成领域的应用开辟了新方向
  • 设计了由自编码器和扩散模型组成的 p-diff 框架。首先,我们在神经网络参数的一个子集上训练自编码器,以提取它们的潜在表示。然后,训练扩散模型,使其能够从随机噪声中生成这些潜在表示。这使我们能够从随机噪声中合成新的潜在表示,并将这些表示输入经过训练的自编码器的解码器,从而生成新的高性能模型参数

规划:他们如何完成工作?

p-diff由参数自编码器参数生成两部分组成:

参数自编码器:

  • 数据准备:首先训练目标任务模型到收敛,然后额外微调300步,保存目标任务模型的参数子集作为训练数据
  • 训练过程:将参数子集 flatten 为 1D 向量,编码器提取潜在表示,解码器重构参数;通过向参数向量和潜在表示添加高斯噪声增强鲁棒性,以 L2 损失最小化为目标训练

参数生成:

  • 因参数空间维度高,直接在参数空间训练扩散模型内存成本过高,故在自编码器提取的潜在表示上应用扩散模型
  • 扩散模型训练目标简化为均方误差(MSE),学习从随机噪声生成潜在表示;推理时,随机噪声经扩散模型反向过程生成潜在表示,再通过解码器得到新参数
  • 参数是1D向量,因此自编码器和扩散模型均采用1D卷积
    在这里插入图片描述

理由:通过什么实验验证它们的工作结果

  • 数据集

  • 参数子集数据集
    在目标任务上训练一个模型,直到它收敛。然后额外微调300个epoch。
    论文中,默认只生成模型参数的子集(resnet18的第16、17的 BN),因此微调的时候冻结其他参数,只更新参数子集
    在这里插入图片描述
    共6种模型结构,6种数据集。应该是训练了36个参数子集数据集;猜测给每个数据集都训练了AE和diffusion

  • 参数全集数据集
    和子集数据集一样,只不过微调的时候是微调整个模型
    在这里插入图片描述
    共5种模型结构,2种模型数据集。应该是训练了10个参数全集数据集

  • 基础实验

    • Baseline
      ①original:原始模型在验证集上达到的最高准确率。这里的 “原始模型” 即前文提到的、经过微调后保存的 300 个检查点模型
      ②ensemble:对多个模型的参数(权重)取平均值,合并为一个新的模型,再用这个合并模型进行预测并计算性能
    • 实验一:部分参数生成性能
    • 实验二:全模型参数生成性能
  • 消融实验

    • 噪声增强:训练的时候在参数和表示上加了噪声,现在分别消融验证噪声是否有用
    • 训练数据集时候的优化器:看训练数据集时候的优化器是否会影响性能
    • 数据集的数量:默认是300个模型参数数据,修改数量,看是否会影响生成性能
    • 在哪些层上使用p-diff:默认训练数据是在resnet18的第16和17个BN层。现在尝试生成其他深度的BN层和其他类型的层
      需要明确:训练数据是16和17层的BN,然后生成其他深度的BN和其他类型的层,还是训练数据也要改变?
  • 验证原始参数,加噪参数和生成参数之间的差异

    • 实验配置:数据集CIFAR100,模型结构Resnet18,300个模型参数(该参数仅仅是Resnet18第16、17BN层的参数)
    • 相似度指标:交并比
    • 测量新颖性:计算原始模型、加噪模型、生成模型之间的相似性【例如300个原始模型,任意模型计算与剩下299个模型的相似性;理论上应该有300个加噪模型,然后第一个加噪模型和300个原始模型计算相似度,取最大值;第二个和300个原始模型计算相似性,取最大值,以此类推……;生成模型同样道理】
    • 训练不足的原始模型是否会对生成模型的新颖性带来影响
    • 原始模型多样性是否会对生成模型的新颖性带来影响:通过改变微调时的学习率,通常学习率越大,会导致原始模型差异越大,即越多样
    • 噪声增强是否会对生成模型的新颖性带来影响
    • 模型参数生成的轨迹
    • 原始模型的数量K对生成模型新颖性带来的影响

自己的看法(作者如何得到的创新思路)


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值