参数初始化Weight Initialization

RezoLee

于 2020-11-29 13:38:05 发布

阅读量379

点赞数

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：神经网络深度学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LK007CX/article/details/110310404

AI 专栏收录该内容

12 篇文章

订阅专栏

本文探讨了深度学习模型参数初始化的重要性，包括全零初始化的问题、随机初始化的适用性以及Xavier初始化的基本原理。Xavier初始化旨在保持层间方差一致，适合线性函数和tanh激活，但对ReLU激活不理想。He初始化是对Xavier方法的改进，特别考虑了ReLU的非线性，提出不同的高斯和均匀分布初始化方式。在使用ReLU激活函数时，推荐采用He初始化。此外，预训练模型的参数也可用于新任务的初始化。总结来说，正确的参数初始化对模型训练的效率和准确性至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参数初始化Weight Initialization

全零初始化：无法进行模型训练
随机初始化：使用小的随机数（高斯分布，零均值，1e-2标准差）初始化
小网络可以，对于深度网络有问题。网络输出数据分布的方差会随着神经元的个数而改变。
Xavier初始化
- 为保证前向传播和反向传播时每一层的方差一致。根据每层的输入个数和输出个数来决定参数随机初始化的分布范围。
  高斯分布的权重初始化为：高斯分布的随机数乘上
  $2nin+nout\frac{\sqrt{2}}{\sqrt{n_{in}+n_{out}}}$
  其中： $n_{in}$ 和 $n_{out}$ 分别表示该层输入和输出的参数（权重）个数。

注：原论文是基于线性函数推导的，同时在tanh激活函数上有很好的效果，但不适用于ReLU激活函数。

He参数初始化
对Xavier方法的改进，将ReLU非线性映射造成的影响考虑进参数初始化中。
高斯分布的权重初始化为：高斯分布的随机数乘上 $2nin\frac{\sqrt{2}}{\sqrt{n_{in}}}$
均匀分布的权重初始化为：均匀分布的随机数乘上 $2nin\frac{\sqrt{2}}{\sqrt{n_{in}}}$

小结：

使用ReLU（without BN）激活函数时，最好选用He初始化方法，将参数初始化为服从高斯分布或者均匀分布的较小随机数
借助预训练模型中参数作为新任务参数初始化的方式也是一种简便易行且有效的模型参数初始化方法
一般情况下，偏置设为0

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。