【人工智能99问】激活函数有哪些,如何选择使用哪个激活函数?(5/99)

激活函数

激活函数是神经网络的核心组件,其作用是为网络引入非线性——如果没有激活函数,无论神经网络有多少层,都只是线性模型(等价于单层线性回归),无法拟合复杂的非线性关系(如图像、语言等)。

一、激活函数的分类

激活函数的分类方式多样,常见的分类维度包括:是否线性、是否饱和、输出范围、适用场景(隐藏层/输出层)等。以下是最实用的分类框架:

1. 按“是否线性”分类

  • 线性激活函数:函数表达式为线性关系(如 f ( x ) = k x + b f(x)=kx+b f(x)=kx+b),无法引入非线性,仅用于特定场景(如回归任务的输出层)。
  • 非线性激活函数:函数表达式为非线性关系(如 f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1),是神经网络的核心,几乎所有隐藏层都依赖此类函数引入非线性。

2. 按“是否饱和”分类(针对非线性激活函数)

  • 饱和激活函数:当输入值的绝对值足够大时,函数的导数趋近于0(“饱和”),容易导致“梯度消失”(深层网络中梯度经多层传递后趋近于0,参数无法更新)。
  • 非饱和激活函数:输入值很大时,导数仍保持较大值(不趋近于0),可缓解梯度消失,更适合深层网络。

3. 按“适用层”分类

  • 隐藏层激活函数:用于网络中间层,核心是引入非线性,同时需避免梯度消失/爆炸,常见如ReLU及其变体。
  • 输出层激活函数:根据任务需求设计,需匹配输出的物理意义(如概率、数值范围),常见如sigmoid(二分类)、softmax(多分类)。

二、常见激活函数及特点

以下按“非线性激活函数(隐藏层为主)”和“输出层激活函数”分类介绍,重点说明公式、图像、优缺点及适用场景。

(一)非线性激活函数(主要用于隐藏层)

这类函数的核心是引入非线性,同时需平衡计算效率和梯度稳定性。

1. 饱和激活函数(逐渐被淘汰,但需了解)
  • sigmoid函数
    公式: f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1
    图像:S型曲线,输出范围 ( 0 , 1 ) (0,1) (0,1)
    在这里插入图片描述

    特点:

    • 优点:输出可直接作为概率(如二分类的“属于正类的概率”),易于解释。
    • 缺点:
      • 梯度消失严重:导数最大值为0.25(在x=0处),多层传递后梯度趋近于0,深层网络无法训练。
      • 输出非零均值(均值≈0.5):会导致后续层输入偏移,影响梯度更新。
      • 计算成本高(含指数运算)。
        适用场景:仅推荐用于二分类输出层(隐藏层已极少使用)。
  • tanh函数(双曲正切)
    公式: f ( x ) = e x − e − x e x + e − x = 2 s i g m o i d ( 2 x ) − 1 f(x)=\frac{e^x - e^{-x}}{e^x + e^{-x}} = 2sigmoid(2x) - 1 f(x)=ex+exexex=2sigmoid(2x)1
    图像:S型曲线,输出范围 ( − 1 , 1 ) (-1,1) (1,1),关于原点对称。
    在这里插入图片描述

    特点:

    • 优点:解决了sigmoid的“非零均值”问题(输出均值≈0),梯度消失比sigmoid稍轻(导数最大值为1,在x=0处)。
    • 缺点:仍存在梯度消失(输入绝对值较大时导数→0),计算成本高(指数运算)。
      适用场景:早期RNN中偶尔用于隐藏层,现逐渐被ReLU变体替代。
2. 非饱和激活函数(当前主流)
  • ReLU(Rectified Linear Unit,修正线性单元)
    公式: f ( x ) = max ⁡ ( 0 , x ) f(x)=\max(0, x) f(x)=max(0,x)
    图像:x>0时输出x,x≤0时输出0(折线)。
    在这里插入图片描述

    特点:

    • 优点:
      • 计算极快(仅比较和取最大值,无指数/除法运算)。
      • 缓解梯度消失:x>0时导数为1,梯度可无损传递,适合深层网络(如ResNet)。
    • 缺点:
      • 死亡ReLU问题:x≤0时导数为0,若神经元长期输入负信号,参数将永远无法更新(“死亡”)。
      • 输出非零均值(仅非负):可能导致后续层输入偏移。
        适用场景:绝大多数隐藏层的默认选择,尤其卷积神经网络(CNN)和浅层网络。
  • Leaky ReLU(带泄漏的ReLU)
    公式: f ( x ) = max ⁡ ( α x , x ) f(x)=\max(\alpha x, x) f(x)=max(αx,x) α \alpha α 为小常数,通常取0.01)
    图像:x>0时输出x,x≤0时输出 α x \alpha x αx(小斜率的直线)。
    在这里插入图片描述

    特点:

    • 优点:解决“死亡ReLU问题”(x≤0时仍有梯度 α \alpha α),保留ReLU的计算效率。
    • 缺点: α \alpha α 是固定值(如0.01),可能不适应所有数据分布。
      适用场景:当ReLU出现大量死亡神经元时替代使用(如训练数据中负样本较多的场景)。
  • Parametric ReLU(参数化ReLU,PReLU)
    公式: f ( x ) = max ⁡ ( α x , x ) f(x)=\max(\alpha x, x) f(x)=max(αx,x) α \alpha α 为可学习参数,通过训练优化)
    特点:

    • 优点: α \alpha α 自适应数据分布,灵活性更高(如对不同任务自动调整负斜率)。
    • 缺点:增加网络参数(每层一个 α \alpha α),可能过拟合小数据集。
      适用场景:大数据集(如ImageNet),需更高灵活性时。
  • ELU(Exponential Linear Unit,指数线性单元)
    公式: f ( x ) = { x if  x > 0 α ( e x − 1 ) if  x ≤ 0 f(x)=\begin{cases} x & \text{if } x>0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases} f(x)={xα(ex1)if x>0if x0 α \alpha α 通常取1)
    图像:x>0时同ReLU,x≤0时为指数曲线(趋近于 − α -\alpha α)。
    在这里插入图片描述

    特点:

    • 优点:
      • 输出更接近零均值(x≤0时输出接近 − α -\alpha α),缓解输入偏移问题。
      • 抗噪声能力强(负输入时平滑过渡,而非硬截断)。
    • 缺点:计算成本高于ReLU(含指数运算)。
      适用场景:对鲁棒性要求高的任务(如含噪声的图像识别)。
  • Swish函数
    公式: f ( x ) = x ⋅ sigmoid ( β x ) f(x)=x \cdot \text{sigmoid}(\beta x) f(x)=xsigmoid(βx) β \beta β 为常数或可学习参数,通常取1)
    图像:平滑曲线,x→∞时接近x,x→-∞时接近0(类似ReLU但更平滑)。
    在这里插入图片描述

    特点:

    • 优点:结合ReLU(计算快)和sigmoid(平滑性),在深层网络(如MobileNet、ResNet-50)中表现优于ReLU,缓解梯度消失。
    • 缺点:计算成本略高于ReLU(含sigmoid运算)。
      适用场景:深层CNN(如目标检测、图像分割)。
  • GELU(Gaussian Error Linear Unit,高斯误差线性单元)
    公式: f ( x ) = x ⋅ Φ ( x ) f(x)=x \cdot \Phi(x) f(x)=xΦ(x) Φ ( x ) \Phi(x) Φ(x) 是标准正态分布的累积分布函数,近似为 x ⋅ sigmoid ( 1.702 x ) x \cdot \text{sigmoid}(1.702x) xsigmoid(1.702x)
    图像:平滑曲线,x>0时接近x,x<0时输出较小的负值(比ELU更平滑)。
    在这里插入图片描述

    特点:

    • 优点:天然适配“ dropout ”(随机失活)机制(可理解为“对输入x按概率 Φ ( x ) \Phi(x) Φ(x) 保留,否则置0”),在Transformer模型(如BERT、GPT)中表现最优。
    • 缺点:计算稍复杂(需近似高斯分布)。
      适用场景:Transformer、BERT等预训练语言模型(当前NLP的默认选择)。
  • Mish函数
    公式: f ( x ) = x ⋅ tanh ⁡ ( softplus ( x ) ) f(x)=x \cdot \tanh(\text{softplus}(x)) f(x)=xtanh(softplus(x)) softplus ( x ) = log ⁡ ( 1 + e x ) \text{softplus}(x)=\log(1+e^x) softplus(x)=log(1+ex)
    图像:比Swish更平滑,x→-∞时趋近于0,x→+∞时趋近于x。
    在这里插入图片描述

    特点:

    • 优点:平滑性更好,在一些竞赛(如ImageNet分类)中表现优于Swish和ReLU,梯度更稳定。
    • 缺点:计算成本较高(含tanh和softplus运算)。
      适用场景:需极致性能的竞赛或大模型(如深层ResNet)。

在这里插入图片描述

(二)输出层激活函数(按任务设计)

输出层激活函数需匹配任务的输出要求(如概率、数值范围),常见如下:

  • sigmoid:用于二分类任务(输出“属于正类的概率”,范围 ( 0 , 1 ) (0,1) (0,1))。例如:判断图片是否为猫(输出0-1之间的概率,>0.5为正类)。

  • softmax:用于多分类任务(输出K个类别的概率分布,和为1)。公式: f ( x ) i = e x i ∑ j = 1 K e x j f(x)_i=\frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}} f(x)i=j=1Kexjexi x i x_i xi 为第i类的 logit 得分)。例如:识别图片是猫、狗还是鸟(输出三个概率,和为1)。

  • Identity(线性激活函数):用于回归任务(输出连续数值,范围 ( − ∞ , ∞ ) (-∞,∞) (,))。公式: f ( x ) = x f(x)=x f(x)=x。例如:预测房价(输出任意实数)。

  • ReLU(或其变体):用于非负回归任务(输出≥0的数值)。例如:预测图片中物体的面积(面积不能为负)。

三、激活函数的选择策略

没有“万能”的激活函数,选择需结合任务类型、网络结构、数据特点计算资源,核心原则如下:

1. 优先根据“层类型”筛选

  • 隐藏层

    • 首选ReLU(计算快、适配大多数场景);
    • 若ReLU出现大量死亡神经元,换Leaky ReLU(小数据集)或PReLU(大数据集);
    • 深层网络(如>50层)或需更高性能,选Swish(CNN)或GELU(Transformer);
    • 对噪声敏感的任务(如医学图像),选ELU(鲁棒性更好)。
  • 输出层

    • 二分类:sigmoid
    • 多分类:softmax
    • 回归(任意数值):Identity
    • 回归(非负数值):ReLU

2. 结合网络深度和梯度稳定性

  • 浅层网络(<10层):ReLU、sigmoid、tanh均可(梯度消失影响小);
  • 深层网络(>20层):必须用非饱和激活函数(如ReLU变体、Swish、GELU),避免梯度消失。

3. 考虑计算资源

  • 资源有限(如移动端):选ReLULeaky ReLU(无指数运算,计算最快);
  • 资源充足(如服务器训练):可尝试ELUSwish等(性能更优但计算稍慢)。

4. 实验验证

同一任务下,不同激活函数的表现可能差异较大(如小数据集上PReLU可能过拟合,而Leaky ReLU更稳定)。建议:

  • 先用默认值(如隐藏层ReLU,输出层按任务选);
  • 再替换1-2个备选(如Swish、GELU)对比验证。

总结

激活函数的核心是为网络注入非线性,其选择需在“性能”“效率”和“稳定性”之间平衡。实际应用中,优先使用主流激活函数(如ReLU、GELU),再根据具体问题微调——没有最优解,只有最适合当前任务的选择。

激活函数公式特点适用场景
Sigmoid 1 1 + e − x \frac{1}{1+e^{-x}} 1+ex1输出(0,1),易梯度消失;计算量大二分类输出层
Tanh e x − e − x e x + e − x \frac{e^x-e^{-x}}{e^x+e^{-x}} ex+exexex输出(-1,1),梯度比Sigmoid强;仍存在梯度消失RNN隐藏层
ReLU max ⁡ ( 0 , x ) \max(0, x) max(0,x)计算高效;缓解梯度消失;但存在"死亡神经元"(负输入梯度为0)CNN/MLP隐藏层(最常用)
Leaky ReLU max ⁡ ( α x , x ) \max(\alpha x, x) max(αx,x)解决ReLU死亡问题( α \alpha α为小斜率,如0.01)需要避免神经元死亡的场景
GELU x Φ ( x ) x\Phi(x) xΦ(x)平滑版ReLU,近似神经元随机激活特性( Φ \Phi Φ为标准正态CDF)Transformer/BERT
Swish x ⋅ σ ( β x ) x\cdot\sigma(\beta x) xσ(βx)平滑、非单调;Google提出,效果常优于ReLU深层网络实验性替代
Softmax e x i ∑ j e x j \frac{e^{x_i}}{\sum_j e^{x_j}} jexjexi输出概率分布(和为1);多分类任务多分类输出层
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值