论文简介
-
作者
Kai Wang1 Dongwen Tang1 Boya Zeng2 Yida Yin3 Zhaopan Xu1 Yukun Zhou1 Zelin Zang1 Trevor Darrell3 Zhuang Liu4∗Yang You1∗ -
发表期刊or会议
《arxiv》 -
发表时间
2024
动机:为什么作者想要解决这个问题?
扩散模型在图像和视频领域取得成功。扩散模型的反向过程是逐步去噪,这和神经网络的训练类似,即参数从初始化到特定分布。
因此,作者提出p-diff,利用扩散模型生成高性能的神经网络参数。
贡献:作者在这篇论文中完成了什么工作(创新点)?
- 证明扩散模型不仅能在图像、视频生成领域取得成功,还能有效生成高性能的神经网络参数,为扩散模型在深度学习参数生成领域的应用开辟了新方向
- 设计了由自编码器和扩散模型组成的 p-diff 框架。首先,我们在神经网络参数的一个子集上训练自编码器,以提取它们的潜在表示。然后,训练扩散模型,使其能够从随机噪声中生成这些潜在表示。这使我们能够从随机噪声中合成新的潜在表示,并将这些表示输入经过训练的自编码器的解码器,从而生成新的高性能模型参数
规划:他们如何完成工作?
p-diff由参数自编码器
和参数生成
两部分组成:
参数自编码器:
- 数据准备:首先训练目标任务模型到收敛,然后额外微调300步,保存目标任务模型的参数子集作为训练数据
- 训练过程:将参数子集 flatten 为 1D 向量,编码器提取潜在表示,解码器重构参数;通过向参数向量和潜在表示添加高斯噪声增强鲁棒性,以 L2 损失最小化为目标训练
参数生成:
- 因参数空间维度高,直接在参数空间训练扩散模型内存成本过高,故在自编码器提取的潜在表示上应用扩散模型
- 扩散模型训练目标简化为均方误差(MSE),学习从随机噪声生成潜在表示;推理时,随机噪声经扩散模型反向过程生成潜在表示,再通过解码器得到新参数
- 参数是1D向量,因此自编码器和扩散模型均采用1D卷积
理由:通过什么实验验证它们的工作结果
-
数据集
-
参数子集数据集
在目标任务上训练一个模型,直到它收敛。然后额外微调300个epoch。
论文中,默认只生成模型参数的子集(resnet18的第16、17的 BN),因此微调的时候冻结其他参数,只更新参数子集
共6种模型结构,6种数据集。应该是训练了36个参数子集数据集;猜测给每个数据集都训练了AE和diffusion -
参数全集数据集
和子集数据集一样,只不过微调的时候是微调整个模型
共5种模型结构,2种模型数据集。应该是训练了10个参数全集数据集 -
基础实验
- Baseline
①original:原始模型在验证集上达到的最高准确率。这里的 “原始模型” 即前文提到的、经过微调后保存的 300 个检查点模型
②ensemble:对多个模型的参数(权重)取平均值,合并为一个新的模型,再用这个合并模型进行预测并计算性能 - 实验一:部分参数生成性能
- 实验二:全模型参数生成性能
- Baseline
-
消融实验
- 噪声增强:训练的时候在参数和表示上加了噪声,现在分别消融验证噪声是否有用
- 训练数据集时候的优化器:看训练数据集时候的优化器是否会影响性能
- 数据集的数量:默认是300个模型参数数据,修改数量,看是否会影响生成性能
- 在哪些层上使用p-diff:默认训练数据是在resnet18的第16和17个BN层。现在尝试生成其他深度的BN层和其他类型的层
需要明确:训练数据是16和17层的BN,然后生成其他深度的BN和其他类型的层,还是训练数据也要改变?
-
验证原始参数,加噪参数和生成参数之间的差异
- 实验配置:数据集CIFAR100,模型结构Resnet18,300个模型参数(该参数仅仅是Resnet18第16、17BN层的参数)
- 相似度指标:交并比
- 测量新颖性:计算原始模型、加噪模型、生成模型之间的相似性【例如300个原始模型,任意模型计算与剩下299个模型的相似性;理论上应该有300个加噪模型,然后第一个加噪模型和300个原始模型计算相似度,取最大值;第二个和300个原始模型计算相似性,取最大值,以此类推……;生成模型同样道理】
- 训练不足的原始模型是否会对生成模型的新颖性带来影响
- 原始模型多样性是否会对生成模型的新颖性带来影响:通过改变微调时的学习率,通常学习率越大,会导致原始模型差异越大,即越多样
- 噪声增强是否会对生成模型的新颖性带来影响
- 模型参数生成的轨迹
- 原始模型的数量K对生成模型新颖性带来的影响
自己的看法(作者如何得到的创新思路)
- Hyper-Representations as Generative Models: Sampling Unseen Neural Network Weights是设计三种采样方法,从超表征中采样,然后用解码器将采样结果解码回模型参数。
而本论文是设计了一个扩散模型,通过扩散模型生成“潜在表示”,然后用解码器解码回模型参数 - 此外Hyper-Representations as Generative Models: Sampling Unseen Neural Network Weights的编解码器是基于transformer的,而本论文是基于1D卷积
- 采用的数据集也不一样