神经网络参数初始化方法

最新推荐文章于 2025-05-26 13:47:24 发布

原创最新推荐文章于 2025-05-26 13:47:24 发布 · 4.3k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #网络参数 #网络权重 #参数初始化

推荐算法与Tensorflow 同时被 3 个专栏收录

104 篇文章

订阅专栏

机器学习相关

91 篇文章

订阅专栏

算法工程师面试

41 篇文章

订阅专栏

神经网络训练的过程就是对网络权重不断学习更新的过程，网络初始权重对网络的训练非常重要。不合适的初始化方法可能会导致网络参数传播过程中产生梯度消失、梯度爆炸等现象。

常用的初始化方法有随机初始化、Xavier初始化、he初始化等

1 零初始化

对于逻辑回归，网络权重是可以初始化为0的；对于深度神经网络，网络权重和偏置是不可以一起初始化为0的，不然会造成每层的网络所有节点输出是一致的，具体分析可以参考神经网络权重为什么不能初始化为0？。

2 随机初始化

随机初始化的时候常常采用高斯或均匀分布初始化网络权重。这种方法相对0初始化要好许多，但是在遇到激活函数为sigmoid / tanh的时候，可能会出现梯度消失和梯度爆炸现象。

以四层网络，参数为 $w_1, b_1, w_2, b_2, w_3, b_3, w_4, b_4$ ，激活函数为sigmoid， $\sigma(x) = \frac{1}{1+e^{-x}}$ 。

$y_i = \sigma(z_i)$

$z_i = w_i y_{i-1} + b_i$

sigmoid函数求导数 $\sigma^{'} = \sigma (1-\sigma)$ 后，峰值为0.25；损失函数C对 $b_1$ 的导数为

$\frac{\partial C}{\partial b_1} = \frac{\partial C}{\partial y_4} \frac{\partial y_4}{\partial z_4} \frac{\partial z_4}{\partial y_3} \frac{\partial y_3}{\partial z_3} \frac{\partial z_3}{\partial y_2} \frac{\partial y_2}{\partial z_2} \frac{\partial z_2}{\partial y_1} \frac{\partial y_1}{\partial z_1} \frac{\partial z_1}{\partial b_1} = \frac{\partial C}{\partial y_4} \sigma(z_4)^{'} w_4 \sigma(z_3)^{'} w_3 \sigma(z_2)^{'} w_2 \sigma(z_1)^{'} 1$