DL基本知识（四）权重矩阵初始化

最新推荐文章于 2024-12-12 20:11:24 发布

原创最新推荐文章于 2024-12-12 20:11:24 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #算法

DL基本知识专栏收录该内容

8 篇文章

订阅专栏

本文介绍了几种常用的深度学习权重初始化方法，包括全0初始化、Xavier初始化、截断正态分布初始化及小随机数初始化，并详细阐述了这些方法背后的原理及其优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

权重矩阵初始化的好坏能够直接决定深度学习模型收敛后的效果，因而这里专门开一个专题来讲述这部分内容，后文会讲述几个比较有代表性的权重矩阵初始化的方法。

全0初始化

如果每一层的权重都是0，则只有最后一层的参数可以得到更新，其他层的参数一直为0，具体推导过程如下：

在这里插入图片描述
${a3=f(w13a1+w23a2)a4=f(w14a1+w24a2)a5=w35a3+w45a4\left\{\begin{matrix} a_3 = f(w_{13}a_1+w_{23}a_2)\\ a_4 = f(w_{14}a_1+w_{24}a_2)\\ a_5 = w_{35}a_3+w_{45}a_4 \end{matrix}\right.$

求导过程为：
${∂L∂w35=∂L∂a5∂a5∂w35=∂L∂a5a3≠0∂L∂a3=∂L∂a5∂a5∂z5∂z5∂a3=∂L∂a5∂a5∂z5w35=0∂L∂w13=∂L∂a3∂a3∂z3∂z3∂w13=0...\left\{\begin{matrix} \frac{\partial L}{\partial w_{35}}=\frac{\partial L}{\partial a_{5}}\frac{\partial a_5}{\partial w_{35}}=\frac{\partial L}{\partial a_{5}} a_3\neq 0\\ \frac{\partial L}{\partial a_{3}}=\frac{\partial L}{\partial a_{5}}\frac{\partial a_5}{\partial z_{5}}\frac{\partial z_5}{\partial a_{3}}=\frac{\partial L}{\partial a_{5}} \frac{\partial a_5}{\partial z_{5}}w_{35} =0\\ \frac{\partial L}{\partial w_{13}}=\frac{\partial L}{\partial a_{3}}\frac{\partial a_3}{\partial z_{3}}\frac{\partial z_3}{\partial w_{13}}=0\\ ... \end{matrix}\right.$

可以看出除了最后一层的权重矩阵的梯度不为0之外，其他权重矩阵的梯度都为0，因而没有办法更新，因而权重矩阵全0初始化不行。

xaiver初始化

为了解决过饱和已经神经元死亡的问题，引入xavier初始化来解决问题，假设维度为 $n$ , 而且输入x和权重矩阵W相对独立，如果把W初始化为如下所示，这里 $W_{i, j}$ 的方差为 $112(2n)2=13n\frac{1}{12}(\frac{2}{\sqrt{n}})^2 = \frac{1}{3n}$ 。

$W_{i,j} \sim [-\frac{1}{\sqrt{n}}, \frac{1}{\sqrt{n}}]$

因为W和x相对独立，因而

$\left\{\begin{matrix} Var[{W_{i,k}}* x_i ] = Var[{W_{i,k}}] * Var[x_i]\\ Var[\sum_{i=0}^n W_{i, k} * x_i]= \sum_{i=0}^n Var[W_{i, k} * x_i] \end{matrix}\right.$