【人工智能99问】激活函数有哪些，如何选择使用哪个激活函数？(5/99)

原创已于 2025-07-16 21:28:14 修改 · 1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-07-15 21:54:01 首次发布

文章目录

激活函数

激活函数

激活函数是神经网络的核心组件，其作用是为网络引入非线性——如果没有激活函数，无论神经网络有多少层，都只是线性模型（等价于单层线性回归），无法拟合复杂的非线性关系（如图像、语言等）。

一、激活函数的分类

激活函数的分类方式多样，常见的分类维度包括：是否线性、是否饱和、输出范围、适用场景（隐藏层/输出层）等。以下是最实用的分类框架：

1. 按“是否线性”分类

线性激活函数：函数表达式为线性关系（如 $f (x) = k x + b$ ），无法引入非线性，仅用于特定场景（如回归任务的输出层）。
非线性激活函数：函数表达式为非线性关系（如 $f(x)=\frac{1}{1+e^{-x}}$ ），是神经网络的核心，几乎所有隐藏层都依赖此类函数引入非线性。

2. 按“是否饱和”分类（针对非线性激活函数）

饱和激活函数：当输入值的绝对值足够大时，函数的导数趋近于0（“饱和”），容易导致“梯度消失”（深层网络中梯度经多层传递后趋近于0，参数无法更新）。
非饱和激活函数：输入值很大时，导数仍保持较大值（不趋近于0），可缓解梯度消失，更适合深层网络。

3. 按“适用层”分类

隐藏层激活函数：用于网络中间层，核心是引入非线性，同时需避免梯度消失/爆炸，常见如ReLU及其变体。
输出层激活函数：根据任务需求设计，需匹配输出的物理意义（如概率、数值范围），常见如sigmoid（二分类）、softmax（多分类）。

二、常见激活函数及特点

以下按“非线性激活函数（隐藏层为主）”和“输出层激活函数”分类介绍，重点说明公式、图像、优缺点及适用场景。

（一）非线性激活函数（主要用于隐藏层）

这类函数的核心是引入非线性，同时需平衡计算效率和梯度稳定性。

1. 饱和激活函数（逐渐被淘汰，但需了解）

sigmoid函数
公式： $f(x)=\frac{1}{1+e^{-x}}$
图像：S型曲线，输出范围 $(0, 1)$ 。

特点：
- 优点：输出可直接作为概率（如二分类的“属于正类的概率”），易于解释。
- 缺点：
  - 梯度消失严重：导数最大值为0.25（在x=0处），多层传递后梯度趋近于0，深层网络无法训练。
  - 输出非零均值（均值≈0.5）：会导致后续层输入偏移，影响梯度更新。
  - 计算成本高（含指数运算）。
    适用场景：仅推荐用于二分类输出层（隐藏层已极少使用）。
tanh函数（双曲正切）
公式： $f(x)=\frac{e^x - e^{-x}}{e^x + e^{-x}} = 2sigmoid(2x) - 1$
图像：S型曲线，输出范围 $(- 1, 1)$ ，关于原点对称。

特点：
- 优点：解决了sigmoid的“非零均值”问题（输出均值≈0），梯度消失比sigmoid稍轻（导数最大值为1，在x=0处）。
- 缺点：仍存在梯度消失（输入绝对值较大时导数→0），计算成本高（指数运算）。
  适用场景：早期RNN中偶尔用于隐藏层，现逐渐被ReLU变体替代。

2. 非饱和激活函数（当前主流）

ReLU（Rectified Linear Unit，修正线性单元）
公式： $f(x)=\max(0, x)$
图像：x>0时输出x，x≤0时输出0（折线）。

特点：
- 优点：
  - 计算极快（仅比较和取最大值，无指数/除法运算）。
  - 缓解梯度消失：x>0时导数为1，梯度可无损传递，适合深层网络（如ResNet）。
- 缺点：
  - 死亡ReLU问题：x≤0时导数为0，若神经元长期输入负信号，参数将永远无法更新（“死亡”）。
  - 输出非零均值（仅非负）：可能导致后续层输入偏移。
    适用场景：绝大多数隐藏层的默认选择，尤其卷积神经网络（CNN）和浅层网络。
Leaky ReLU（带泄漏的ReLU）
公式： $f(x)=\max(\alpha x, x)$ （ $\alpha$ 为小常数，通常取0.01）
图像：x>0时输出x，x≤0时输出 $\alpha x$ （小斜率的直线）。

特点：
- 优点：解决“死亡ReLU问题”（x≤0时仍有梯度 $\alpha$ ），保留ReLU的计算效率。
- 缺点： $\alpha$ 是固定值（如0.01），可能不适应所有数据分布。
  适用场景：当ReLU出现大量死亡神经元时替代使用（如训练数据中负样本较多的场景）。
Parametric ReLU（参数化ReLU，PReLU）
公式： $f(x)=\max(\alpha x, x)$ （ $\alpha$ 为可学习参数，通过训练优化）
特点：
- 优点： $\alpha$ 自适应数据分布，灵活性更高（如对不同任务自动调整负斜率）。
- 缺点：增加网络参数（每层一个 $\alpha$ ），可能过拟合小数据集。
  适用场景：大数据集（如ImageNet），需更高灵活性时。
ELU（Exponential Linear Unit，指数线性单元）
公式： $f(x)=\begin{cases} x & \text{if } x>0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}$ （ $\alpha$ 通常取1）
图像：x>0时同ReLU，x≤0时为指数曲线（趋近于 $-\alpha$ ）。

特点：
- 优点：
  - 输出更接近零均值（x≤0时输出接近 $-\alpha$ ），缓解输入偏移问题。
  - 抗噪声能力强（负输入时平滑过渡，而非硬截断）。
- 缺点：计算成本高于ReLU（含指数运算）。
  适用场景：对鲁棒性要求高的任务（如含噪声的图像识别）。
Swish函数
公式： $\cdot \text{sigmoid}(\beta x)$ （ $\beta$ 为常数或可学习参数，通常取1）
图像：平滑曲线，x→∞时接近x，x→-∞时接近0（类似ReLU但更平滑）。

特点：
- 优点：结合ReLU（计算快）和sigmoid（平滑性），在深层网络（如MobileNet、ResNet-50）中表现优于ReLU，缓解梯度消失。
- 缺点：计算成本略高于ReLU（含sigmoid运算）。
  适用场景：深层CNN（如目标检测、图像分割）。
GELU（Gaussian Error Linear Unit，高斯误差线性单元）
公式： $\cdot \Phi(x)$ （ $\Phi(x)$ 是标准正态分布的累积分布函数，近似为 $\cdot \text{sigmoid}(1.702x)$ ）
图像：平滑曲线，x>0时接近x，x<0时输出较小的负值（比ELU更平滑）。

特点：
- 优点：天然适配“ dropout ”（随机失活）机制（可理解为“对输入x按概率 $\Phi(x)$ 保留，否则置0”），在Transformer模型（如BERT、GPT）中表现最优。
- 缺点：计算稍复杂（需近似高斯分布）。
  适用场景：Transformer、BERT等预训练语言模型（当前NLP的默认选择）。
Mish函数
公式： $\cdot \tanh(\text{softplus}(x))$ （ $\text{softplus}(x)=\log(1+e^x)$ ）
图像：比Swish更平滑，x→-∞时趋近于0，x→+∞时趋近于x。

特点：
- 优点：平滑性更好，在一些竞赛（如ImageNet分类）中表现优于Swish和ReLU，梯度更稳定。
- 缺点：计算成本较高（含tanh和softplus运算）。
  适用场景：需极致性能的竞赛或大模型（如深层ResNet）。

在这里插入图片描述

（二）输出层激活函数（按任务设计）

输出层激活函数需匹配任务的输出要求（如概率、数值范围），常见如下：

sigmoid：用于二分类任务（输出“属于正类的概率”，范围 $(0, 1)$ ）。例如：判断图片是否为猫（输出0-1之间的概率，>0.5为正类）。
softmax：用于多分类任务（输出K个类别的概率分布，和为1）。公式： $f(x)_i=\frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}}$ （ $x_i$ 为第i类的 logit 得分）。例如：识别图片是猫、狗还是鸟（输出三个概率，和为1）。
Identity（线性激活函数）：用于回归任务（输出连续数值，范围 $(- \infty, \infty)$ ）。公式： $f (x) = x$ 。例如：预测房价（输出任意实数）。
ReLU（或其变体）：用于非负回归任务（输出≥0的数值）。例如：预测图片中物体的面积（面积不能为负）。

三、激活函数的选择策略

没有“万能”的激活函数，选择需结合任务类型、网络结构、数据特点和计算资源，核心原则如下：

1. 优先根据“层类型”筛选

隐藏层：
- 首选ReLU（计算快、适配大多数场景）；
- 若ReLU出现大量死亡神经元，换Leaky ReLU（小数据集）或PReLU（大数据集）；
- 深层网络（如>50层）或需更高性能，选Swish（CNN）或GELU（Transformer）；
- 对噪声敏感的任务（如医学图像），选ELU（鲁棒性更好）。
输出层：
- 二分类：sigmoid；
- 多分类：softmax；
- 回归（任意数值）：Identity；
- 回归（非负数值）：ReLU。

2. 结合网络深度和梯度稳定性

浅层网络（<10层）：ReLU、sigmoid、tanh均可（梯度消失影响小）；
深层网络（>20层）：必须用非饱和激活函数（如ReLU变体、Swish、GELU），避免梯度消失。

3. 考虑计算资源

资源有限（如移动端）：选ReLU或Leaky ReLU（无指数运算，计算最快）；
资源充足（如服务器训练）：可尝试ELU、Swish等（性能更优但计算稍慢）。

4. 实验验证

同一任务下，不同激活函数的表现可能差异较大（如小数据集上PReLU可能过拟合，而Leaky ReLU更稳定）。建议：

先用默认值（如隐藏层ReLU，输出层按任务选）；
再替换1-2个备选（如Swish、GELU）对比验证。

总结

激活函数的核心是为网络注入非线性，其选择需在“性能”“效率”和“稳定性”之间平衡。实际应用中，优先使用主流激活函数（如ReLU、GELU），再根据具体问题微调——没有最优解，只有最适合当前任务的选择。

激活函数	公式	特点	适用场景
Sigmoid	$\frac{1}{1+e^{-x}}$	输出(0,1)，易梯度消失；计算量大	二分类输出层
Tanh	$\frac{e^x-e^{-x}}{e^x+e^{-x}}$	输出(-1,1)，梯度比Sigmoid强；仍存在梯度消失	RNN隐藏层
ReLU	$\max(0, x)$	计算高效；缓解梯度消失；但存在"死亡神经元"（负输入梯度为0）	CNN/MLP隐藏层（最常用）
Leaky ReLU	$\max(\alpha x, x)$	解决ReLU死亡问题（ $\alpha$ 为小斜率，如0.01）	需要避免神经元死亡的场景
GELU	$x\Phi(x)$	平滑版ReLU，近似神经元随机激活特性（ $\Phi$ 为标准正态CDF）	Transformer/BERT
Swish	$x\cdot\sigma(\beta x)$	平滑、非单调；Google提出，效果常优于ReLU	深层网络实验性替代
Softmax	$\frac{e^{x_i}}{\sum_j e^{x_j}}$	输出概率分布（和为1）；多分类任务	多分类输出层