没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:本文详细介绍了深度学习中的核心概念,从激活函数到反向传播算法,帮助初学者建立扎实的理论基础。文章首先解释了激活函数的重要性,介绍了常见的激活函数如sigmoid、tanh、ReLU及其变体Leaky ReLU和softmax,并指导如何根据应用场景选择合适的激活函数。接着讨论了参数初始化方法,包括固定值初始化、随机初始化、Xavier初始化和He初始化,强调了不同初始化方法对模型训练效率和性能的影响。随后,文章讲解了损失函数,涵盖了线性回归中的MAE和MSE损失,分类问题中的交叉熵损失(包括二元交叉熵和多分类交叉熵),并分析了每种损失函数的适用场景和优缺点。最后,文章深入探讨了反向传播算法,包括前向传播、梯度下降、不同类型的梯度下降(批量、随机和小批量),以及几种优化梯度下降的算法如Momentum、AdaGrad、RMSProp和Adam,并提供了完整的反向传播流程示例。 适合人群:具备一定数学和编程基础,对深度学习感兴趣的初学者和有一定经验的研发人员。 使用场景及目标:①帮助读者理解深度学习中激活函数、参数初始化、损失函数和反向传播算法的基本概念;②指导读者在实际项目中如何选择和实现这些核心组件;③为后续深入学习深度学习框架(如TensorFlow、PyTorch)打下坚实基础。 阅读建议:本文内容详实,建议读者结合代码示例进行实践,通过动手实验加深对理论的理解。此外,对于较为复杂的数学推导部分,可以参考相关文献进一步学习。
资源推荐
资源详情
资源评论































2025/8/13 07:58
《零基础入门AI:深度学习基础核心概念解析(从激活函数到反向传播)》-CSDN博客
https://blog.csdn.net/m0_75034893/article/details/150224102?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog.none-task-blog-hot-8-150224102-null-null.nonecase&depth_1-utm_source=distribut…
1/12
博客 下载 学习 社区 GitCode InsCodeAI 会议
深度学习
搜索 AI 搜索 会员中心 消息 历史 创作中心 创作
竹子_23
关注
29
4
0
分享

2025/8/13 07:58
《零基础入门AI:深度学习基础核心概念解析(从激活函数到反向传播)》-CSDN博客
https://blog.csdn.net/m0_75034893/article/details/150224102?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog.none-task-blog-hot-8-150224102-null-null.nonecase&depth_1-utm_source=distribut…
2/12
《零基础入门AI:深度学习基础核心概念解析(从激活函数到反向传播)》
竹子_23
阅读量631 收藏 4 点赞数 29
文章标签: 人工智能 深度学习 python
于 2025-08-11 20:08:39 发布
CC 4.0 BY-SA版权
2048 AI社区
文章已被社区收录
加入社区
深度学习 作为人工智能领域的重要分支,其核心在于通过多层神经网络学习数据的特征表示。本文将系统讲解深度学习中的几个核心概念:激活函数、参数初始化、损失函数和反向传播算
法,帮助初学者建立扎实的理论基础。
一、激活函数
激活函数是神经网络的核心组件之一,赋予了模型学习非线性关系的能力。没有激活函数,无论神经网络有多少层,都只能表示线性关系。
基础概念
线性理解:线性关系是指输入与输出之间呈正比例关系,可以表示为 ,线其中 是权重, 是偏置。性模型的特点是简单直观,但问题在于,无论叠加多少层,最终结果仍然是线性的,
无法拟合复杂数据(如图像、语音),所以无法处理现实世界中复杂的非线性问题。
非线性理解:非线性关系是指输入与输出之间不是简单的正比例关系,例如 或 。在神经网络中,通过在每一层加入非线性激活函数,使得整个网络可以拟合任意复杂的非线性函
数,这也是深度学习能够处理图像、语音等复杂数据的关键。
常见激活函数
1. sigmoid 函数
sigmoid 函数的数学表达式为:
,其特点是将输入值映射到 [0, 1] 区间,具有平滑可导的特性。在早期的神经网络中广泛使用,适合作为二分类问题的输出层激活函数,因为它可以表示概率。
但 sigmoid 存在两个主要问题:
梯度消失:当输入值很大或很小时,函数的梯度接近 0(梯度消失),导致反向传播时梯度难以更新(计算成本高)
输出不是以 0 为中心:会导致权重更新效率降低
示例:
2. tanh 函数
tanh 函数(双曲正切函数)的数学表达式为:
tanh 函数将输入映射到 [-1, 1] 区间,解决了 sigmoid 函数输出不是以 0 为中心的问题。但它仍然存在梯度消失的问题。
特点:
优点:输出以 0 为中心,梯度比 sigmoid 大
缺点:仍存在梯度消失问题
示例:
3. ReLU 函数
ReLU(Rectified Linear Unit,修正线性单元)的数学表达式为:
y = wx + b w b
y = sin(x) y = x
2
σ(x) =
1 + e
−x
1
import numpy as np
def sigmoid(x):
#
防止指数溢出,对大的负数做截断
x = np.clip(x, -500, 500)
return 1 / (1 + np.exp(-x))
#
测试
x = np.array([-1, 0, 1, 10])
print(sigmoid(x)) #
输出
: [0.26894142 0.5 0.73105858 0.9999546 ]
收起
运行
AI生成项目python
1
2
3
4
5
6
7
8
9
10
tanh(x) =
e + e
x −x
e − e
x −x
def tanh(x):
x = np.clip(x, -500, 500)
return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))
#
测试
x = np.array([-1, 0, 1, 10])
print(tanh(x)) #
输出
: [-0.76159416 0. 0.76159416 0.99999999]
运行
AI生成项目python
1
2
3
4
5
6
7
ReLU (x) = max(0, x)
复制
复制
竹子_23
关注
29
4
0
分享

2025/8/13 07:58
《零基础入门AI:深度学习基础核心概念解析(从激活函数到反向传播)》-CSDN博客
https://blog.csdn.net/m0_75034893/article/details/150224102?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog.none-task-blog-hot-8-150224102-null-null.nonecase&depth_1-utm_source=distribut…
3/12
,ReLU 函数在 x > 0 时直接输出 x,在 x ≤ 0 时输出 0。它的出现解决了梯度消失问题,计算速度快,成为目前深度学习中最常用的激活函数之一。
ReLU 的缺点是可能出现 “死亡 ReLU” 问题:当输入长期为负时,神经元将永远无法激活(梯度为 0,权重无法更新)。
示例:
4. Leaky ReLU 函数
Leaky ReLU 是为解决死亡 ReLU 问题而提出的变体:
,其中 α 是一个很小的常数(通常取 0.01)
当 x < 0 时,Leaky ReLU 不会输出 0,而是输出一个很小的负值,从而避免了神经元完全死亡的问题。
示例:
5. softmax 函数
softmax 函数通常用于多分类问题的输出层,其数学表达式为:
,其中 z 是输入向量,K 是类别数量
softmax 函数将输入向量转换为概率分布,每个元素的值在 [0, 1] 之间,且所有元素之和为 1,非常适合表示多分类问题中每个类别的概率。
示例:
如何选择激活函数
隐藏层选择:
优先选择 ReLU 或其变体(如 Leaky ReLU),它们计算高效且能有效缓解梯度消失问题
如果 ReLU 导致了死亡神经元问题,可以尝试 Leaky ReLU
在循环神经网络(RNN)中,tanh 有时表现更好
输出层选择:
二分类问题:使用 sigmoid 函数,输出单个值表示属于正类的概率
多分类问题:使用 softmax 函数,输出每个类别的概率分布
回归问题:通常不使用激活函数,直接输出连续值
二 、参数初始化
神经网络的参数(权重和偏置)初始化方式对模型的训练效率和最终性能有重要影响。合适的初始化可以加速收敛,避免梯度消失或爆炸问题。
固定值初始化
固定值初始化是指将所有参数初始化为相同的值(如 0 或 1)。例如:
这种方法看似简单,却存在严重缺陷:在反向传播时,所有神经元会有相同的梯度,导致权重更新后仍然保持对称,本质上相当于只有一个神经元在工作,无法学习到有意义的特征。因此,固定值初
始化在实际中很少使用。
示例:
def relu(x):
return np.maximum(0, x)
#
测试
x = np.array([-1, 0, 1, 10])
print(relu(x)) #
输出
: [ 0 0 1 10]
运行
AI生成项目python
1
2
3
4
5
6
LeakyReLU (x) = max(αx, x)
def leaky_relu(x, alpha=0.01):
return np.where(x > 0, x, alpha * x)
#
测试
x = np.array([-1, 0, 1, 10])
print(leaky_relu(x)) #
输出
: [-0.01 0. 1. 10. ]
运行
AI生成项目python
1
2
3
4
5
6
softmax(z)
=
i
e∑
j=1
K
z
j
e
z
i
def softmax(z):
#
减去最大值防止指数溢出
exp_z = np.exp(z - np.max(z))
return exp_z / np.sum(exp_z, axis=0)
#
测试:
3
个类别的得分
z = np.array([2.0, 1.0, 0.1])
print(softmax(z)) #
输出
: [0.65900114 0.24243297 0.09856589]
(和为
1
)
运行
AI生成项目python
1
2
3
4
5
6
7
8
w
=
ij
0 或 w
=
ij
1
复制
复制
复制
竹子_23
关注
29
4
0
分享
优先选择 ReLU 或其变体(如 Leaky ReLU),它们计算高效且能有效缓解梯度消失问题
如果 ReLU 导致了死亡神经元问题,可以尝试 Leaky ReLU
剩余11页未读,继续阅读
资源评论


lyglary

- 粉丝: 34
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 微信小程序MD5加密(支持中文).zip
- [贵州]某机场扩建工程监理大纲(停机坪-滑行道-技术标).doc
- 污水厂在线仪表维护方案.doc
- 基础(桩)工程施工承包合同(分包合同).doc
- 第四大题-市场战略.doc
- 销售人员的薪酬设计.doc
- 工程案例分析教案.doc
- 如何给予积级的反馈.doc
- 建设工程委托监理合同补充协议.doc
- 公司综合大楼工程监理规划.doc
- 小程序转换器,基于支付宝_微信小程序, 轻松地转换成其它平台的小程序。(1).zip
- 微信小程序刻度尺组件.zip
- 2016年中学学生宿舍楼新建工程招标文件.doc
- 高层住宅楼工程施工进度计划管理措施.doc
- 电路分析填空题.docx
- FIDIC施工合同条件.ppt
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
