常用激活函数

最新推荐文章于 2025-05-16 01:04:16 发布

原创最新推荐文章于 2025-05-16 01:04:16 发布 · 1k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #ai #激活函数

1. 常用激活函数

1.1 Sigmoid（S形函数）

公式：
$\frac{1}{1 + e^{-x}}$

输出范围： $(0, 1)$
应用场景：
- 二分类问题（通常用于输出层）。
- 概率值预测。
优点：
- 将值压缩到 $(0, 1)$ ，适合概率输出。
缺点：
- 梯度消失问题：对于极大或极小的输入，梯度几乎为0，网络难以更新权重。
- 不适合深层网络。

1.2 Tanh（双曲正切函数）

公式：
$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

输出范围： $(- 1, 1)$
应用场景：
- 中间隐藏层。
优点：
- 相较于 Sigmoid，输出值范围中心化在 0 附近，更适合深度网络。
缺点：
- 同样存在梯度消失问题。

1.3 ReLU（Rectified Linear Unit，线性修正单元）

公式：
$\max(0, x)$

输出范围： $\infty)$
应用场景：
- 隐藏层的默认选择，尤其在卷积神经网络（CNN）中。
优点：
- 计算简单，收敛速度快。
- 避免了梯度消失问题。
缺点：
- 死亡神经元问题：如果某些神经元的输入长期为负值，其梯度始终为0，可能导致这些神经元永远不再更新。

1.4 Leaky ReLU（带泄漏的ReLU）

公式：
$\begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$

输出范围： $(−∞,∞)(-\infty, \infty)$
应用场景：
- 隐藏层。
优点：
- 缓解了 ReLU 的“死亡神经元”问题。
缺点：
- 可能导致过拟合，需要小心调整参数 $α\alpha$ 。

1.5 Softmax

公式：
$f(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}}$

输出范围： $(0, 1)$ ，且所有输出加和为1。
应用场景：
- 多分类问题的输出层。
优点：
- 将输入值转化为概率分布，适合分类问题。
缺点：
- 对大输入值可能不稳定，需要归一化。

2. 其他激活函数

2.1 ELU（Exponential Linear Unit）

公式：
$\begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}$

输出范围： $(−α,∞)(-\alpha, \infty)$
应用场景：
- 隐藏层（特别是 ReLU 不适用的地方）。
优点：
- 保持负值的梯度，不会导致死亡神经元。
缺点：
- 计算量略大。

2.2 Swish

公式：
$\cdot \sigma(x)$
其中 $σ(x)\sigma(x)$ 是 Sigmoid 函数。

输出范围： $(−∞,∞)(-\infty, \infty)$
应用场景：
- 深层网络（由 Google 提出，表现优于 ReLU 和 Sigmoid）。
优点：
- 平滑性较好，收敛速度快。
- 在许多任务中优于 ReLU。
缺点：
- 计算稍复杂。

2.3 GELU（Gaussian Error Linear Unit，高斯误差线性单元）

公式：
$\cdot \Phi(x)$
其中 $Φ(x)\Phi(x)$ 是标准正态分布的累积分布函数。

输出范围： $(−∞,∞)(-\infty, \infty)$
应用场景：
- Transformer 和 NLP 模型。
优点：
- 表现平滑，计算效率高。
- 对小值保留小梯度，大值快速激活。

2.4 Maxout

公式：
$f(x) = \max_{i=1}^{k} z_i$

输出范围： $(−∞,∞)(-\infty, \infty)$
应用场景：
- 高级模型的隐藏层。
优点：
- 增加了模型的表达能力。
缺点：
- 参数较多，容易过拟合。

3. 如何选择激活函数？

输出层：
- 二分类问题：Sigmoid
- 多分类问题：Softmax
- 回归问题：无激活函数（或线性激活）。
隐藏层：
- 首选：ReLU 或其变种（Leaky ReLU、ELU、GELU）。
- 深层网络：尝试 Swish 或 GELU。
- 特定场景：使用 Tanh 或 Sigmoid（不推荐深度网络中使用）。

博客等级

码龄4年

167
原创

1166
点赞

1018
收藏

968
粉丝

关注

私信

热门文章

上一篇：: Gradle 构建系统的执行过程

下一篇：: gdb常用文档

最新评论

STFT (短时傅立叶变换)
iddaweitianlong: 按照f=1/T计算频率分辨率，不是窗口越长，频率分辨率越低吗？这和4.窗口函数，窗口长度的选择通常是一个折中的中的描述相矛盾？
java kotlin python 日志记录
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
kotlin 跨平台粗略步骤
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619068191。
kotlin 语法糖
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618970253。
kotlin 使用hashmap来映射方法和参数，实现高级解耦
普通网友: 好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。