深度学习简介及反向传播

Datawhale开源学习,机器学习课程,项目地址:https://github.com/datawhalechina/leeml-notes

之前学习机器学习的时候,总结了三步:

  1. define a set of function
  2. goodness of function
  3. pick the best function

这三步所做的事情就是选择函数模型,优化函数模型,选出最好的拟合模型。在深度学习中,我们通过神经网络构建多层神经网络,输出结果由输入结合权重及偏差bias计算得出。神经网络使得我们可以构建出大量的函数。并不断优化拟合,输出最终结果。

深度学习归纳出三个步骤为:

  1. 神经网络(neural network)
  2. 模型评估(goodness of function)
  3. 选择最优函数(pick the best function)

与机器学习不同的地方就在于,第一处并非通过函数拟合,而是建立神经网络。接下来来说说这三步。

Step1:神经网络 neural network

神经网络中,由多个输入和输出连接而成,其内部的连接方式也有很多种,这样就会在神经网络中产生不同的结构。其内部也有很多逻辑回归函数,每个逻辑回归都有自己的权重和偏差,这些权重和偏差就是参数,会被不断的训练。

最常见的一种神经网络:全连接前馈神经网络,前馈(feedforward)也可以称为前向,从信号流向来理解就是输入信号进入网络后,信号流动是单向的,即信号从前一层流向后一层,一直到输出层,其中任意两层之间的连接并没有反馈(feedback),亦即信号没有从后一层又返回到前一层。如果一个神经网络里面的权重weight和偏差bias已知的话,它就可以表示一个函数function,它的input是一个向量,output也是个向量,这个向量里放的是样本点的特征,向量的维度就是特征的个数。

在这里插入图片描述
如果我们不知道参数,只定义出神经网络结构(神经元如何连接在一起),那实际上说明我们定义了一个函数集合(funciton set),我们给这个神经网络设置不同的参数,它就会变成不同的function。神经网络的好处在于,它可以构建的非常庞大,构建出来的function set包含了很多逻辑回归和线性回归所无法包含到的function。

下图中,每一排表示一个layer,每个layer里面的每一个球都代表一个神经元。因为layer和layer之间,所有的神经元都是两两连接,所以它叫Fully connected的network;因为现在传递的方向是从layer 1->2->3,由前往后传,所以它叫做Feedforward network

  • layer和layer之间神经元是「两两互相连接」的,layer 1的神经元「输出」会连接给layer 2的每一个神经元作为「输入」。
  • 对整个神经网络来说,它需要一个input,这个input就是一个feature的vector,而对layer 1的每一个神经元来说,它的input就是input layer的每一个dimension。
  • 最后那个layer L,由于它后面没有接其它东西了,所以它的output就是整个network的output。
  • 这里每一个layer都是有名字的,input的地方,叫做input layer,输入层(严格来说input layer其实不是一个layer,它跟其他layer不一样,不是由神经元所组成的);output的地方,叫做output layer,输出层;其余的地方,叫做hidden layer,隐藏层。
  • 每一个神经元里面的sigmoid function,在Deep Learning中被称为activation function激活函数,事实上它不见得一定是sigmoid function,还可以是其他function(sigmoid function是从Logistic Regression迁移过来的,现在已经较少在Deep learning里使用了)
  • 有很多层layers的neural network,被称为DNN(Deep Neural Network)

在这里插入图片描述

神经网络中的矩阵运算

network的运作过程,我们通常会用Matrix Operation来表示,以下图为例,假设第一层hidden layers的两个neuron,它们的weight分别是w1=1,w2=−2,w1′=−1,w2′=1w_1=1,w_2=-2,w_1'=-1,w_2'=1w1=1,w2=2,w1=1,w2=1,那就可以把它们排成一个matrix:[1   −2−1   1]\begin{bmatrix}1 \ \ \ -2\\ -1 \ \ \ 1 \end{bmatrix}[1   21   1],而我们的input又是一个2*1的vector:[1−1]\begin{bmatrix}1\\-1 \end{bmatrix}[11],将w和x相乘,再加上bias的vector:[10]\begin{bmatrix}1\\0 \end{bmatrix}[10],就可以得到这一层的vector z,再经过activation function得到这一层的output。

这里还是用Logistic Regression迁移过来的sigmoid function作为运算
σ([1   −2−1   1][1−1]+[10])=σ([4−2])=[0.980.12] \sigma(\begin{bmatrix}1 \ \ \ -2\\ -1 \ \ \ 1 \end{bmatrix} \begin{bmatrix}1\\-1 \end{bmatrix}+\begin{bmatrix}1\\0 \end{bmatrix})=\sigma(\begin{bmatrix}4\\-2 \end{bmatrix})=\begin{bmatrix}0.98\\0.12 \end{bmatrix} σ([1   21   1][11]+[10])=σ([42])=[0.980.12]

在这里插入图片描述
这里我们把所有的变量都以matrix的形式表示出来,注意WiW^iWi的matrix,每一行对应的是一个neuron的weight,行数就是neuron的个数,列数就是feature的数量。input x,bias b和output y都是一个列向量,行数是feature的个数,也是neuron的个数。neuron的本质就是把feature transform到另一个space。

在这里插入图片描述
把这件事情写成矩阵运算的好处是,可以用GPU加速,GPU对matrix的运算是比CPU要来的快的,所以我们写neural network的时候,习惯把它写成matrix operation,然后call GPU来加速它。

前面说大致把神经网络划分为输入层、隐藏层、输出层三部分。这个隐藏层其实就相当于是在做特征提取,隐藏层的特征提取就代替了手动进行特征转换的操作。经过特征提取得到的output输出x1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk就可悲当作一组新的feature特征。

输出层做的事情类似于一个Multi-class classifier,它是拿经过「特征提取」转换后的那一组比较好的feature(能够被很好地separate)进行分类的,由于我们把「输出层」看做是一个Multi-class classifier,所以我们会在最后一个layer加上softmax。

在这里插入图片描述

Step2:模型评估 goodness of function

在这里插入图片描述

模型评估用来反映网络的loss,机器学习中通过loss function损失函数去评判模型的好坏,在神经网络中,这里的loss function我们通常采用交叉熵(cross entropy)函数来作为定义,对yyyy^\hat{y}y^​​的损失进行计算,接下来我们就是调整参数,让交叉熵越小越好。以下为交叉熵的定义:
Cross Entropy:C(y,y^)=−∑i=110y^ilnyi Cross \ Entropy :C(y,\hat{y})=-\sum\limits_{i=1}^{10}\hat{y}_i lny_i Cross Entropy:C(y,y^)=i=110y^ilnyi

在这里插入图片描述
对于损失,我们不单单要计算一笔数据的,而是要计算整体所有训练数据的损失,然后把所有的训练数据的损失都加起来,得到一个总体损失L=∑n=1NCnL=\sum\limits_{n=1}^NC^nL=n=1NCn。接下来就是在function set里面找到一组函数能最小化这个总体损失LLL,或者是找一组神经网络的参数θ\thetaθ,来最小化总体损失LLL

Step3:选择最优函数 pick the best function

接下来就去调整参数,让这个cross entropy越小越好,当然整个training data里面不会只有一笔data,你需要把所有data的cross entropy都sum起来,得到一个total loss L=∑n=1NCnL=\sum\limits_{n=1}^NC^nL=n=1NCn,得到loss function之后你要做的事情是找一组network的parameters:θ∗\theta^*θ,它可以minimize这个total loss,这组parameter 对应的function就是我们最终训练好的model。那怎么去找这个使total loss minimize的θ∗\theta^*θ呢?使用的方法就是我们的老朋友Gradient Descent梯度下降。实际上在deep learning里面用gradient descent,跟在linear regression里面使用完全没有什么差别,只是function和parameter变得更复杂了而已,其他事情都是一模一样的。

现在你的θ\thetaθ里面是一大堆的weight、bias参数,先random找一个初始值,接下来去计算每一个参数对total loss的偏微分,把这些偏微分全部集合起来,就叫做gradient,有了这些偏微分以后,你就可以更新所有的参数,都减掉learning rate乘上偏微分的值,这个process反复进行下去,最终找到一组好的参数,就做完deep learning的training了。

在这里插入图片描述
在这里插入图片描述
具体流程θ\thetaθ是一组包含权重和偏差的参数集合,随机找一个初试值,接下来计算一下每个参数对应偏微分,得到的一个偏微分的集合∇L\nabla{L}L就是梯度,有了这些偏微分,我们就可以不断更新梯度得到新的参数,这样不断反复进行,就能得到一组最好的参数使得损失函数的值最小。

所以,其实deep learning就是这样子了,就算是alpha go,也是用gradient descent train出来的,可能在你的想象中它有多么得高大上,实际上就是在用gradient descent这样朴素的方法。

反向传播

Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法。梯度下降法,跟linear Regression或者是Logistic Regression是一模一样的,唯一的区别就在于当它用在neural network的时候,network parameters θ=w1,w2,...,b1,b2,...\theta=w_1,w_2,...,b_1,b_2,...θ=w1,w2,...,b1,b2,...里面可能会有将近million个参数。

所以现在最大的困难是,如何有效地把这个近百万维的vector给计算出来,这就是Backpropagation要做的事情,所以Backpropagation并不是一个和gradient descent不同的training的方法,它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率。

在这里插入图片描述

  • 给到θ\thetaθ(weight and bias)
  • 先选择一个初始的θ0\theta^0θ0的损失函数(Loss Function)设一个参数的偏微分
  • 计算完这个向量(vector)偏微分,然后就可以去更新的你θ\thetaθ
  • 百万级别的参数(millions of parameters)
  • 反向传播(Backpropagation)是一个比较有效率的算法,让你计算梯度(Gradient) 的向量(Vector)时,可以有效率的计算出来

反向传播中没有什么高深的学问,在进行反向传播时,用到的是链式法则,你只需要搞清楚什么是链式法则即可,尝试考虑以下两种情况:
在这里插入图片描述
第一种情况,xxx作为输入,当xxx在神经网络中不断被修改时,xxx作为输入会影响到输出yyy,然后在下一层,yyy作为zzz的输入,当yyy发生改变时,又回影响到zzz。如果要计算zzzxxx的变换时,可以将dzdx\frac{dz}{dx}dxdz拆分为dzdy∗dydx\frac{dz}{dy}*\frac{dy}{dx}dydzdxdy

第二种情况相较第一种情况而言,是一种多变量的形式,因此在求微分时,需要对每一个变量求偏导数去计算。以上就是链式法则求导数的操作。

对整个neural network,我们定义了一个loss function:L(θ)=∑n=1NCn(θ)L(\theta)=\sum\limits_{n=1}^N C^n(\theta)L(θ)=n=1NCn(θ),它等于所有training data的loss之和。我们把training data里任意一个样本点xnx^nxn代到neural network里面,它会output一个yny^nyn,我们把这个output跟样本点本身的label标注的target y^n\hat{y}^ny^n作cross entropy,这个交叉熵定义了output yny^nyn和target y^n\hat{y}^ny^n之间的距离Cn(θ)C^n(\theta)Cn(θ),如果cross entropy比较大的话,说明output和target之间距离很远,这个network的parameter的loss是比较大的,反之则说明这组parameter是比较好的。

然后summation over所有training data的cross entropy Cn(θ)C^n(\theta)Cn(θ),得到total loss L(θ)L(\theta)L(θ),这就是我们的loss function,用这个L(θ)L(\theta)L(θ)对某一个参数ω\omegaω做偏微分,表达式如下:
∂L(θ)∂w=∑n=1N∂Cn(θ)∂w \frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial C^n(\theta)}{\partial w} wL(θ)=n=1NwCn(θ)

这个表达式告诉我们,只需要考虑如何计算对某一笔data的∂Cn(θ)∂w\frac{\partial C^n(\theta)}{\partial w}wCn(θ),再将所有training data的cross entropy对参数www的偏微分累计求和,就可以把total loss对某一个参数www的偏微分给计算出来

我们先考虑某一个神经元,假设只有两个input x1,x2x_1,x_2x1,x2,通过这个neuron,我们先得到z=b+w1x1+w2x2z=b+w_1 x_1+w_2 x_2z=b+w1x1+w2x2,然后经过activation function从这个neuron中output出来,作为后续neuron的input,再经过了非常非常多的事情以后,会得到最终的output y1,y2y_1,y_2y1,y2

在这里插入图片描述
现在的问题是这样:∂C∂w\frac{\partial C}{\partial w}wC该怎么算?按照chain rule,可以把它拆分成两项,∂C∂w=∂z∂w∂C∂z\frac{\partial C}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial C}{\partial z}wC=wzzC,这两项分别去把它计算出来。前面这一项是比较简单的,后面这一项是比较复杂的,计算前面这一项∂z∂w\frac{\partial z}{\partial w}wz的这个process,我们称之为Forward pass;而计算后面这项∂C∂z\frac{\partial C}{\partial z}zC的process,我们称之为Backward pass

Forward pass

先考虑∂z∂w\frac{\partial z}{\partial w}wz这一项,完全可以秒算出来,∂z∂w1=x1, ∂z∂w2=x2\frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2w1z=x1, w2z=x2。它的规律是这样的:求∂z∂w\frac{\partial z}{\partial w}wz,就是看www前面连接的input是什么,那微分后的∂z∂w\frac{\partial z}{\partial w}wz值就是什么,因此只要计算出neural network里面每一个neuron的output就可以知道任意的zzzwww的偏微分。

  • 比如input layer作为neuron的输入时,w1w_1w1前面连接的是x1x_1x1,所以微分值就是x1x_1x1w2w_2w2前面连接的是x2x_2x2,所以微分值就是x2x_2x2
  • 比如hidden layer作为neuron的输入时,那该neuron的input就是前一层neuron的output,于是∂z∂w\frac{\partial z}{\partial w}wz的值就是前一层的zzz经过activation function之后输出的值

Backward pass

再考虑∂C∂z\frac{\partial C}{\partial z}zC这一项,它是比较复杂的,这里我们假设activation function是sigmoid function

在这里插入图片描述
在这里插入图片描述

我们的zzz通过activation function得到aaa,这个neuron的output是a=σ(z)a=\sigma(z)a=σ(z),接下来这个aaa会乘上某一个weight w3w_3w3,再加上其它一大堆的value得到z′z'z,它是下一个neuron activation function的input,然后aaa又会乘上另一个weight w4w_4w4,再加上其它一堆value得到z′′z''z,后面还会发生很多很多其他事情。

不过这里我们就只先考虑下一步会发生什么事情:
∂C∂z=∂a∂z∂C∂a \frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a} zC=zaaC
这里的∂a∂z\frac{\partial a}{\partial z}za实际上就是activation function的微分(在这里就是sigmoid function的微分),接下来的问题是∂C∂a\frac{\partial C}{\partial a}aC应该长什么样子呢?aaa会影响z′z'zz′′z''z,而z′z'zz′′z''z会影响CCC,所以通过chain rule可以得到
∂C∂a=∂z′∂a∂C∂z′+∂z′′∂a∂C∂z′′ \frac{\partial C}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial C}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial C}{\partial z''} aC=azzC+azzC
这里的∂z′∂a=w3\frac{\partial z'}{\partial a}=w_3az=w3∂z′′∂a=w4\frac{\partial z''}{\partial a}=w_4az=w4,那∂C∂z′\frac{\partial C}{\partial z'}zC∂C∂z′′\frac{\partial C}{\partial z''}zC又该怎么算呢?这里先假设我们已经通过某种方法把∂C∂z′\frac{\partial C}{\partial z'}zC∂C∂z′′\frac{\partial C}{\partial z''}zC这两项给算出来了,然后回过头去就可以把∂C∂z\frac{\partial C}{\partial z}zC给轻易地算出来
∂C∂z=∂a∂z∂C∂a=σ′(z)[w3∂C∂z′+w4∂C∂z′′] \frac{\partial C}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial C}{\partial a}=\sigma'(z)[w_3 \frac{\partial C}{\partial z'}+w_4 \frac{\partial C}{\partial z''}] zC=zaaC=σ(z)[w3zC+w4zC]

这个式子还是蛮简单的,然后,我们可以从另外一个观点来看待这个式子。你可以想象说,现在有另外一个neuron,它不在我们原来的network里面,在下图中它被画成三角形,这个neuron的input就是∂C∂z′\frac{\partial C}{\partial z'}zC∂C∂z′′\frac{\partial C}{\partial z''}zC,那input ∂C∂z′\frac{\partial C}{\partial z'}zC就乘上w3w_3w3,input ∂C∂z′′\frac{\partial C}{\partial z''}zC就乘上w4w_4w4,它们两个相加再乘上activation function的微分 σ′(z)\sigma'(z)σ(z),就可以得到output ∂C∂z\frac{\partial C}{\partial z}zC

在这里插入图片描述

这张图描述了一个新的「neuron」,它的含义跟图下方的表达式是一模一样的,作这张图的目的是为了方便理解。值得注意的是,这里的σ′(z)\sigma'(z)σ(z)是一个constant常数,它并不是一个function,因为z其实在计算forward pass的时候就已经被决定好了,z是一个固定的值

所以这个neuron其实跟我们之前看到的sigmoid function是不一样的,它并不是把input通过一个non-linear进行转换,而是直接把input乘上一个constant σ′(z)\sigma'(z)σ(z),就得到了output,因此这个neuron被画成三角形,代表它跟我们之前看到的圆形的neuron的运作方式是不一样的,它是直接乘上一个constant(这里的三角形有点像电路里的运算放大器op-amp,它也是乘上一个constant)。现在我们最后需要解决的问题是,怎么计算∂C∂z′\frac{\partial C}{\partial z'}zC∂C∂z′′\frac{\partial C}{\partial z''}zC这两项,假设有两个不同的case:

Case 1: Output Layer

假设蓝色的这个neuron已经是hidden layer的最后一层了,也就是说连接在z′z'zz′′z''z后的这两个红色的neuron已经是output layer,它的output就已经是整个network的output了,这个时候计算就比较简单:
∂C∂z′=∂y1∂z′∂C∂y1 \frac{\partial C}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial C}{\partial y_1} zC=zy1y1C
其中∂y1∂z′\frac{\partial y_1}{\partial z'}zy1就是output layer的activation function (softmax) 对z′z'z的偏微分。而∂C∂y1\frac{\partial C}{\partial y_1}y1C就是loss对y1y_1y1的偏微分,它取决于你的loss function是怎么定义的,也就是你的output和target之间是怎么evaluate的,你可以用cross entropy,也可以用mean square error,用不同的定义,∂C∂y1\frac{\partial C}{\partial y_1}y1C的值就不一样。这个时候,你就已经可以把CCCw1w_1w1w2w_2w2的偏微分∂C∂w1\frac{\partial C}{\partial w_1}w1C∂C∂w2\frac{\partial C}{\partial w_2}w2C算出来了。

在这里插入图片描述

Case 2: Not Output Layer

假设现在红色的neuron并不是整个network的output,那z′z'z经过红色neuron的activation function得到a′a'a,然后output a′a'aw5w_5w5w6w_6w6相乘并加上一堆其他东西分别得到zaz_azazbz_bzb,如下图所示:

在这里插入图片描述

根据之前的推导证明类比,如果知道∂C∂za\frac{\partial C}{\partial z_a}zaC∂C∂zb\frac{\partial C}{\partial z_b}zbC,我们就可以计算∂C∂z′\frac{\partial C}{\partial z'}zC,如下图所示,借助运算放大器的辅助理解,将∂C∂za\frac{\partial C}{\partial z_a}zaC乘上w5w_5w5∂C∂zb\frac{\partial C}{\partial z_b}zbC乘上w6w_6w6的值加起来再通过op-amp,乘上放大系数σ′(z′)\sigma'(z')σ(z),就可以得到output ∂C∂z′\frac{\partial C}{\partial z'}zC
∂C∂z′=σ′(z′)[w5∂C∂za+w6∂C∂zb] \frac{\partial C}{\partial z'}=\sigma'(z')[w_5 \frac{\partial C}{\partial z_a} + w_6 \frac{\partial C}{\partial z_b}] zC=σ(z)[w5zaC+w6zbC]

在这里插入图片描述

知道z′z'zz′′z''z就可以知道zzz,知道zaz_azazbz_bzb就可以知道z′z'z,… ,现在这个过程就可以反复进行下去,直到找到output layer,我们可以算出确切的值,然后再一层一层反推回去。你可能会说,这个方法听起来挺让人崩溃的,每次要算一个微分的值,都要一路往后走,一直走到network的output,如果写成表达式的话,一层一层往后展开,感觉会是一个很可怕的式子,但是实际上并不是这个样子做的。你只要换一个方向,从output layer的∂C∂z\frac{\partial C}{\partial z}zC开始算,你就会发现它的运算量跟原来的network的Feedforward path其实是一样的。

假设现在有6个neuron,每一个neuron的activation function的input分别是z1z_1z1z2z_2z2z3z_3z3z4z_4z4z5z_5z5z6z_6z6,我们要计算CCC对这些zzz的偏微分,按照原来的思路,我们想要知道z1z_1z1的偏微分,就要去算z3z_3z3z4z_4z4的偏微分,想要知道z3z_3z3z4z_4z4的偏微分,就又要去计算两遍z5z_5z5z6z_6z6的偏微分,因此如果我们是从z1z_1z1z2z_2z2的偏微分开始算,那就没有效率。但是,如果你反过来先去计算z5z_5z5z6z_6z6的偏微分的话,这个process,就突然之间变得有效率起来了,我们先去计算∂C∂z5\frac{\partial C}{\partial z_5}z5C∂C∂z6\frac{\partial C}{\partial z_6}z6C,然后就可以算出∂C∂z3\frac{\partial C}{\partial z_3}z3C∂C∂z4\frac{\partial C}{\partial z_4}z4C,最后就可以算出∂C∂z1\frac{\partial C}{\partial z_1}z1C∂C∂z2\frac{\partial C}{\partial z_2}z2C,而这一整个过程,就可以转化为op-amp运算放大器的那张图:

在这里插入图片描述

这里每一个op-amp的放大系数就是σ′(z1)\sigma'(z_1)σ(z1)σ′(z2)\sigma'(z_2)σ(z2)σ′(z3)\sigma'(z_3)σ(z3)σ′(z4)\sigma'(z_4)σ(z4),所以整一个流程就是,先快速地计算出∂C∂z5\frac{\partial C}{\partial z_5}z5C∂C∂z6\frac{\partial C}{\partial z_6}z6C,然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面,再通过op-amp的放大,就可以得到∂C∂z3\frac{\partial C}{\partial z_3}z3C∂C∂z4\frac{\partial C}{\partial z_4}z4C这两个偏微分的值,再让它们乘上一些weight,并且通过一个op-amp,就得到∂C∂z1\frac{\partial C}{\partial z_1}z1C∂C∂z2\frac{\partial C}{\partial z_2}z2C这两个偏微分的值,这样就计算完了,这个步骤,就叫做Backward pass。

在做Backward pass的时候,实际上的做法就是建另外一个neural network,本来正向neural network里面的activation function都是sigmoid function,而现在计算Backward pass的时候,就是建一个反向的neural network,它的activation function就是一个运算放大器op-amp,要先算完Forward pass得知ziz_izi的值后,才算得出来。

每一个反向neuron的input是loss CCC对后面一层layer的zzz的偏微分∂C∂z\frac{\partial C}{\partial z}zC,output则是loss CCC对这个neuron的zzz的偏微分∂C∂z\frac{\partial C}{\partial z}zC,做Backward pass就是通过这样一个反向neural network的运算,把loss CCC对每一个neuron的zzz的偏微分∂C∂z\frac{\partial C}{\partial z}zC都给算出来。

如果是正向做Backward pass的话,实际上每次计算一个∂C∂z\frac{\partial C}{\partial z}zC,就需要把该neuron后面所有的∂C∂z\frac{\partial C}{\partial z}zC都给计算一遍,会造成很多不必要的重复运算,如果写成code的形式,就相当于调用了很多次重复的函数;而如果是反向做Backward pass,实际上就是把这些调用函数的过程都变成调用值的过程,因此可以直接计算出结果,而不需要占用过多的堆栈空间。

Summary

最后,我们来总结一下Backpropagation是怎么做的:

  • Forward pass,每个neuron的activation function的output,就是它所连接的weight的∂z∂w\frac{\partial z}{\partial w}wz
  • Backward pass,建一个与原来方向相反的neural network,它的三角形neuron的output就是∂C∂z\frac{\partial C}{\partial z}zC

把通过forward pass得到的∂z∂w\frac{\partial z}{\partial w}wz和通过backward pass得到的∂C∂z\frac{\partial C}{\partial z}zC乘起来就可以得到CCCwww的偏微分∂C∂w\frac{\partial C}{\partial w}wC
∂C∂w=∂z∂w∣forward pass⋅∂C∂z∣backward pass \frac{\partial C}{\partial w} = \frac{\partial z}{\partial w}|_{forward\ pass} \cdot \frac{\partial C}{\partial z}|_{backward \ pass} wC=wzforward passzCbackward pass

在这里插入图片描述


除了学习深度学习以及反向传播理论外,我还使用pytorch跑了一下手写数字识别MNIST,感兴趣的同学可以参考:https://www.kaggle.com/miseryjerry/mnist-pytorch

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值