NLP_task_激活函数

最新推荐文章于 2024-07-17 18:55:07 发布

沐漜

最新推荐文章于 2024-07-17 18:55:07 发布

阅读量451

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签：深度学习激活函数

本文链接：https://blog.csdn.net/zyq11223/article/details/90407511

NLP 专栏收录该内容

22 篇文章

订阅专栏

本文详细介绍了深度学习中常用的激活函数，包括Sigmoid、tanh、ReLU及其改进版Leaky ReLU。讨论了它们的优缺点，如梯度消失、神经元坏死等问题，并给出了如何选择合适激活函数的建议。对于隐藏层，tanh通常优于sigmoid，而ReLU因其快速收敛和低计算复杂度成为常用选择。输出层在分类问题中常使用Sigmoid，预测问题则可能使用线性或ReLU函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Activation functions

神经网络隐藏层和输出层都需要激活函数（activation function），在之前的课程中我们都默认使用Sigmoid函数 σ(x) 作为激活函数。其实，还有其它激活函数可供使用，不同的激活函数有各自的优点。下面我们就来介绍几个不同的激活函数 g(x) 。

sigmoid函数

优点：
（1）便于求导的平滑函数；
（2）能压缩数据，保证数据幅度不会有问题；
（3）适合用于前向传播。

缺点：
（1）容易出现梯度消失（gradient vanishing）的现象：当激活函数接近饱和区时，变化太缓慢，导数接近0，根据后向传递的数学依据是微积分求导的链式法则，当前导数需要之前各层导数的乘积，几个比较小的数相乘，导数结果很接近0，从而无法完成深层网络的训练。
（2）Sigmoid的输出不是0均值（zero-centered）的：这会导致后层的神经元的输入是非0均值的信号，这会对梯度产生影响。以 f=sigmoid(wx+b)为例，假设输入均为正数（或负数），那么对w的导数总是正数（或负数），这样在反向传播过程中要么都往正方向更新，要么都往负方向更新，导致有一种捆绑效果，使得收敛缓慢。

tanh函数

tanh函数将输入值压缩到 -1~1 的范围，因此它是0均值的，解决了Sigmoid函数的非zero-centered问题，但是它也存在梯度消失和幂运算的问题。

其实 tanh(x)=2sigmoid(2x)-1

RELU函数 ：全区间不可导

优点：
（1）SGD算法的收敛速度比 sigmoid 和 tanh 快；（梯度不会饱和，解决了梯度消失问题）
（2）计算复杂度低，不需要进行指数运算；
（3）适合用于后向传播。

缺点：
（1）ReLU的输出不是zero-centered；
（2）Dead ReLU Problem（神经元坏死现象）：某些神经元可能永远不会被激活，导致相应参数永远不会被更新（在负数部分，梯度为0）。产生这种现象的两个原因：参数初始化问题；learning rate太高导致在训练过程中参数更新太大。解决方法：采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。
（3）ReLU不会对数据做幅度压缩，所以数据的幅度会随着模型层数的增加不断扩张。

Leaky RELU函数

用来解决ReLU带来的神经元坏死的问题，可以将0.01设置成一个变量a，其中a由后向传播学出来。但是其表现并不一定比ReLU好。

如何选择合适的激活函数呢？

首先我们来比较sigmoid函数和tanh函数。对于隐藏层的激活函数，一般来说，tanh函数要比sigmoid函数表现更好一些。因为tanh函数的取值范围在[-1,+1]之间，隐藏层的输出被限定在[-1,+1]之间，可以看成是在0值附近分布，均值为0。这样从隐藏层到输出层，数据起到了归一化（均值为0）的效果。因此，隐藏层的激活函数，tanh比sigmoid更好一些。而对于输出层的激活函数，因为二分类问题的输出取值为{0,+1}，所以一般会选择sigmoid作为激活函数。

观察sigmoid函数和tanh函数，我们发现有这样一个问题，就是当|z|很大的时候，激活函数的斜率（梯度）很小。因此，在这个区域内，梯度下降算法会运行得比较慢。在实际应用中，应尽量避免使z落在这个区域，使|z|尽可能限定在零值附近，从而提高梯度下降算法运算速度。

为了弥补sigmoid函数和tanh函数的这个缺陷，就出现了ReLU激活函数。ReLU激活函数在z大于零时梯度始终为1；在z小于零时梯度始终为0；z等于零时的梯度可以当成1也可以当成0，实际应用中并不影响。对于隐藏层，选择ReLU作为激活函数能够保证z大于零时梯度始终为1，从而提高神经网络梯度下降算法运算速度。但当z小于零时，存在梯度为0的缺点，实际应用中，这个缺点影响不是很大。为了弥补这个缺点，出现了Leaky ReLU激活函数，能够保证z小于零是梯度不为0。

最后总结一下，如果是分类问题，输出层的激活函数一般会选择sigmoid函数。但是隐藏层的激活函数通常不会选择sigmoid函数，tanh函数的表现会比sigmoid函数好一些。实际应用中，通常会会选择使用ReLU或者Leaky ReLU函数，保证梯度下降速度不会太小。其实，具体选择哪个函数作为激活函数没有一个固定的准确的答案，应该要根据具体实际问题进行验证（validation）。

上面讲的四种激活函数都是非线性（non-linear）的。那是否可以使用线性激活函数呢？答案是不行！下面我们就来进行简要的解释和说明。

假设所有的激活函数都是线性的，为了简化计算，我们直接令激活函数 g(z)= z 即 a = z 。那么，浅层神经网络的各层输出为：

在这里插入图片描述