文献阅读：Neural Network Diffusion

一去不复返的通信er

已于 2025-07-12 17:43:55 修改

阅读量1k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：智简网络&语义通信文献阅读文章标签：人工智能机器学习深度学习算法

于 2025-07-11 14:49:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42980908/article/details/149243502

智简网络&语义通信文献阅读专栏收录该内容

32 篇文章

订阅专栏

目录

论文简介

作者
Kai Wang1 Dongwen Tang1 Boya Zeng2 Yida Yin3 Zhaopan Xu1 Yukun Zhou1 Zelin Zang1 Trevor Darrell3 Zhuang Liu4∗Yang You1∗
发表期刊or会议
《arxiv》
发表时间
2024

动机：为什么作者想要解决这个问题？

扩散模型在图像和视频领域取得成功。扩散模型的反向过程是逐步去噪，这和神经网络的训练类似，即参数从初始化到特定分布。

因此，作者提出p-diff，利用扩散模型生成高性能的神经网络参数。

贡献：作者在这篇论文中完成了什么工作(创新点)？

证明扩散模型不仅能在图像、视频生成领域取得成功，还能有效生成高性能的神经网络参数，为扩散模型在深度学习参数生成领域的应用开辟了新方向
设计了由自编码器和扩散模型组成的 p-diff 框架。首先，我们在神经网络参数的一个子集上训练自编码器，以提取它们的潜在表示。然后，训练扩散模型，使其能够从随机噪声中生成这些潜在表示。这使我们能够从随机噪声中合成新的潜在表示，并将这些表示输入经过训练的自编码器的解码器，从而生成新的高性能模型参数

规划：他们如何完成工作？

p-diff由参数自编码器和参数生成两部分组成：

参数自编码器：

数据准备：首先训练目标任务模型到收敛，然后额外微调300步，保存目标任务模型的参数子集作为训练数据
训练过程：将参数子集 flatten 为 1D 向量，编码器提取潜在表示，解码器重构参数；通过向参数向量和潜在表示添加高斯噪声增强鲁棒性，以 L2 损失最小化为目标训练

参数生成：

因参数空间维度高，直接在参数空间训练扩散模型内存成本过高，故在自编码器提取的潜在表示上应用扩散模型
扩散模型训练目标简化为均方误差（MSE），学习从随机噪声生成潜在表示；推理时，随机噪声经扩散模型反向过程生成潜在表示，再通过解码器得到新参数
参数是1D向量，因此自编码器和扩散模型均采用1D卷积

理由：通过什么实验验证它们的工作结果

数据集
参数子集数据集
在目标任务上训练一个模型，直到它收敛。然后额外微调300个epoch。
论文中，默认只生成模型参数的子集（resnet18的第16、17的 BN），因此微调的时候冻结其他参数，只更新参数子集

共6种模型结构，6种数据集。应该是训练了36个参数子集数据集；猜测给每个数据集都训练了AE和diffusion
参数全集数据集
和子集数据集一样，只不过微调的时候是微调整个模型

共5种模型结构，2种模型数据集。应该是训练了10个参数全集数据集
基础实验
- Baseline
  ①original：原始模型在验证集上达到的最高准确率。这里的 “原始模型” 即前文提到的、经过微调后保存的 300 个检查点模型
  ②ensemble：对多个模型的参数（权重）取平均值，合并为一个新的模型，再用这个合并模型进行预测并计算性能
- 实验一：部分参数生成性能
- 实验二：全模型参数生成性能
消融实验
- 噪声增强：训练的时候在参数和表示上加了噪声，现在分别消融验证噪声是否有用
- 训练数据集时候的优化器：看训练数据集时候的优化器是否会影响性能
- 数据集的数量：默认是300个模型参数数据，修改数量，看是否会影响生成性能
- 在哪些层上使用p-diff：默认训练数据是在resnet18的第16和17个BN层。现在尝试生成其他深度的BN层和其他类型的层
  需要明确：训练数据是16和17层的BN，然后生成其他深度的BN和其他类型的层，还是训练数据也要改变？
验证原始参数，加噪参数和生成参数之间的差异
- 实验配置：数据集CIFAR100，模型结构Resnet18,300个模型参数（该参数仅仅是Resnet18第16、17BN层的参数）
- 相似度指标：交并比
- 测量新颖性：计算原始模型、加噪模型、生成模型之间的相似性【例如300个原始模型，任意模型计算与剩下299个模型的相似性；理论上应该有300个加噪模型，然后第一个加噪模型和300个原始模型计算相似度，取最大值；第二个和300个原始模型计算相似性，取最大值，以此类推……；生成模型同样道理】
- 训练不足的原始模型是否会对生成模型的新颖性带来影响
- 原始模型多样性是否会对生成模型的新颖性带来影响：通过改变微调时的学习率，通常学习率越大，会导致原始模型差异越大，即越多样
- 噪声增强是否会对生成模型的新颖性带来影响
- 模型参数生成的轨迹
- 原始模型的数量K对生成模型新颖性带来的影响

自己的看法(作者如何得到的创新思路)

Hyper-Representations as Generative Models: Sampling Unseen Neural Network Weights是设计三种采样方法，从超表征中采样，然后用解码器将采样结果解码回模型参数。
而本论文是设计了一个扩散模型，通过扩散模型生成“潜在表示”，然后用解码器解码回模型参数
此外Hyper-Representations as Generative Models: Sampling Unseen Neural Network Weights的编解码器是基于transformer的，而本论文是基于1D卷积
采用的数据集也不一样

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。