常用激活函数总结

原创已于 2025-05-12 17:50:35 修改 · 1k 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-05-12 16:57:40 首次发布

多模态理解同时被 2 个专栏收录

25 篇文章

订阅专栏

7 篇文章

订阅专栏

1. 经典激活函数

Sigmoid

公式： $σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}$
特点：输出范围(0,1)，平滑可导，适合概率输出。
缺点：梯度消失、计算复杂度高、输出非零中心。
适用场景：二分类输出层（如逻辑回归）。

Tanh

公式： $tanh⁡(x)=ex−e−xex+e−x\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$
特点：输出范围(-1,1)，零中心化，梯度强于Sigmoid。
缺点：梯度消失问题仍存在。
适用场景：RNN隐藏层、需要对称输出的场景。

ReLU

公式： $\max(0, x)$
特点：计算高效，缓解梯度消失，稀疏激活。
缺点：神经元死亡（负输入梯度为0），输出非零中心。
适用场景：CNN/MLP隐藏层（如ResNet、AlexNet)

LeakyReLU

公式： $\max(\alpha x, x)$ （ $α=0.01\alpha=0.01$ ）
特点：解决ReLU死亡问题，负区引入小斜率。
适用场景：替代ReLU，尤其深层网络。

2. 现代激活函数

GeLU（高斯误差线性单元）

数学表达式

$\text{GeLU}(x) = x \cdot \Phi(x) = x \cdot \frac{1}{2} \left[1 + \text{erf}\left(\frac{x}{\sqrt{2}}\right)\right]$

其中：

$Φ(x)\Phi(x)$ ：标准正态分布的累积分布函数
$erf(x)\text{erf}(x)$ ：误差函数， $2π∫0xe−t2dt\frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} dt$

Swish

公式： $\cdot \sigma(\beta x)$ （ $β=1\beta=1$ 时为SiLU）
特点：平滑、非单调，自适应梯度。
适用场景：替代ReLU，轻量级模型。

Mish

公式： $\cdot \tanh(\ln(1 + e^x))$
特点：更平滑的Swish变体，避免梯度截断。
适用场景：计算机视觉任务。

3. 门控机制激活函数

GLU（门控线性单元）

公式： $GLU(x)=(W1x+b1)⊗σ(W2x+b2)\text{GLU}(x) = (W_1x + b_1) \otimes \sigma(W_2x + b_2)$
特点：动态调节特征重要性，参数量翻倍。
适用场景：NLP任务（如机器翻译）。

SwiGLU

公式： $SwiGLU(x)=(W1x)⊗Swish(W2x)\text{SwiGLU}(x) = (W_1x) \otimes \text{Swish}(W_2x)$
特点：结合Swish平滑性和门控机制，性能优于GLU。
适用场景：大语言模型FFN层（如LLaMA、PaLM）。

4. 多分类专用

Softmax

公式： $Softmax(xi)=exi∑jexj\text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}$
特点：输出概率分布，总和为1。
适用场景：多分类输出层.

选择建议

需求	推荐激活函数
计算效率	ReLU/LeakyReLU
深层网络稳定性	GeLU/Swish
动态特征选择	GLU/SwiGLU
概率输出	Sigmoid/Softmax
硬件优化	ReLU（易于融合计算）

注：门控类激活函数（如SwiGLU）虽性能优，但计算量较大，需权衡效率与效果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。