对上一节的NN网络中的前向和反向传递函数进行详解

本文链接：https://blog.csdn.net/weixin_56863078/article/details/143062606

网络说明

前向传递函数

单个神经节点的前向传递为：
$output^N = sigmoid(\sum_{i=0}^n(output_i^{N-1} * W^i) + b)\\ output^N = ReLU(\sum_{i=0}^n(output_i^{N-1} * W^N_i) + b)$

因此其单层的前行传递代码为

# output1 = F(output0,weight0,bias0,active_mode)
output1 = ReLU(np.dot(weight0, output0) + bias0) if active_mode == "ReLU" else sigmoid(np.dot(weight0, output0) + bias0)

将三层的前行传递函数串联将构成前向传递函数

def forward(input, weight0, bias0, weight1, bias1, weight2, bias2, active_mode)

前向传递函数参数讲解

input：为模型输入，在本项目中为，4*4转换为16*1的数据，所以input.shape因该为(16, 1)

input = input.reshape(-1, 1)  #将4x4矩阵展开为16x1列向量
print(input.shape)

weight0：为第一层隐藏层的输入权重，大小为num_hidden_layer0 * input.shape[0]为(16*16)的二维矩阵

初始化用np.random.randn(num_hidden_layer0, input.shape[0])生成。=注意.randn和.rand区别=

bias0：为第一层隐藏层的输入偏执，大小为num_hidden_layer0 * 1为16*1

初始化用np.random.randn(num_hidden_layer0 , 1)生成

同理其他参数。

反向传播函数

我们采用预测输出output与我们给定的target（img）进行对比，做均方误差。我们的目标是最小化均方误差 (MSE)。
$\frac{\sum_{i=0}^n{(output^N_i - img_i)^2}}{n+1}$
$im g$ 为目标值（实际值）， $o u tp u t$ 为模型预测值,因为 $o u tp u t$ 为第N层输出所以 $output = output^N$

所以首先对每个预测值 $outputiNoutput^N_i$ 计算均方误差 $MSE$ 对 $outputiNoutput^N_i$ 的导数
d_output_layer = 均方误差（ $MSE$ ）对模型的预测输出 $outputiNoutput^N_i$ 的导数
$MSE^\prime =\sum_{i=0}^n{ \frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}} = \sum_{i=0}^n{2 * \frac{output^N_i - img_i}{n+1}}$
又因为在神经节点中
$output^N_i = sigmoid(\sum_{i=0}^n(output_i^{N-1} * W_i) + b)$
所以
$\frac{\partial_{output^N}}{\mathrm{d}_{W_i}} = \frac{\mathrm{d}_{output^N}}{\mathrm{d}_\{\sum_{i=0}^n(output_i^{N-1} * W_i) + b\}}* \frac{\mathrm{d}_\{\sum_{i=0}^n(output_i^{N-1} * W_i) + b\}}{W_i}\\ 其中：\frac{\mathrm{d}_{output^N}}{\mathrm{d}_\{\sum_{i=0}^n(output_i^{N-1} * W_i) + b\}}=激活函数的导数\\ \frac{\mathrm{d}_\{\sum_{i=0}^n(output_i^{N-1} * W_i) + b\}}{W_i} = output_i^{N-1}$
又因为
$\frac {1 }{1 + e^{-x}}\\ Y^\prime = Y * ( 1 - Y )$
所以
$\frac{\partial_{output^N}}{\mathrm{d}_{W_i}} = 激活函数的导数 * output_i^{N-1} = output^N * (1-output^N) *output_i^{N-1}$
同理
$\frac{\partial_{output^N}}{\mathrm{d}_{b}} = 激活函数的导数 * 1 = output^N * (1-output^N) *1$
所以可知均方误差 $MSE$ 对最后一层的输入权重 $W_i$ 和 $b$ 的导数为：
$\frac{\partial_{MSE}}{\mathrm{d}_{W_i}} =\frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}*\frac{\partial_{output^N_i}}{\mathrm{d}_{W_j}}= 2 * \frac{output^N_i - img_i}{n+1}*output^N_i * (1-output^N_i) *output_j^{N-1}\\ \frac{\partial_{MSE}}{\mathrm{d}_{b}} =\frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}*\frac{\partial_{output^N_i}}{\mathrm{d}_{b}}=2 * \frac{output^N_i - img_i}{n+1}*output^N_i * (1-output^N_i) * 1$
根据我们所计算的 $MSE$ 和对输入权重 $W_i$ 和 $b$ 的导数，我们可以计算出输入权重 $W_i$ 和 $b$ 在 $MSE$ 减小方向上的梯度 $grad_weight$ 和 $grad_bias$ 。
然后结合学习率 $learning_rate$ 对输入权重 $W_i$ 和 $b$ 进行修正

 # 使用梯度下降法更新输出层的权重和偏置
    weight -= learning_rate * grad_weight  # 更新输出层的权重
    bias -= learning_rate * grad_bias  # 更新输出层的偏置

又因为由上面可知，对于每一层 Sigmoid的反向传递函数
$\frac{\partial_{output^N}}{\mathrm{d}_{W^N_i}} = output^N * (1-output^N) *output_i^{N-1}\\ \frac{\partial_{output^N}}{\mathrm{d}_{b^N}} = output^N * (1-output^N) *1$
根据求导的链式法则

均方误差 $MSE$ 对倒数第二层的输入权重 $WiN−1W^{N-1}_i$ 和$ b^{N-1} $的导数为
$\frac{\partial_{MSE}}{\mathrm{d}_{W^{N-1}_i}} =W^N *\frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}* 激活函数的导数^N*\frac{\partial_{output^{N-2}_i}}{\mathrm{d}_{W^{N-1}_j}}\\ = W^N *\frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}* 激活函数的导数^N* 激活函数的导数^{N-1}*output_j^{N-2}\\ \frac{\partial_{MSE}}{\mathrm{d}_{b^{N-1}}} =W^N *\frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}* 激活函数的导数^N *\frac{\partial_{output^{N-2}_i}}{\mathrm{d}_{b^{N-1}}}\\ = W^N *\frac{\partial_{MSE}}{\mathrm{d}_{output^N_i}}* 激活函数的导数^N* 激活函数的导数^{N-1}*1\\ 其中激活函数^N = output^N * (1-output^N)$
均方误差 $MSE$ 对倒数第三层同理,在一层基础上修改