【深度学习领域】零基础入门AI：深度学习基础核心概念解析（从激活函数到反向传播）-理论与实践指南资源-CSDN下载

186 浏览量 2025-08-13 08:23:51 上传评论收藏 2.68MB PDF 举报

资源推荐

资源详情

资源评论

2025/8/13 07:58

《零基础入门AI：深度学习基础核心概念解析（从激活函数到反向传播）》-CSDN博客

https://blog.csdn.net/m0_75034893/article/details/150224102?spm=1001.2100.3001.7377&utm_medium=distribute.pc_feed_blog.none-task-blog-hot-8-150224102-null-null.nonecase&depth_1-utm_source=distribut…

1/12

博客下载学习社区 GitCode InsCodeAI 会议

深度学习

搜索 AI 搜索会员中心消息历史创作中心创作

竹子_23

关注

2025/8/13 07:58

《零基础入门AI：深度学习基础核心概念解析（从激活函数到反向传播）》-CSDN博客

2/12

《零基础入门AI：深度学习基础核心概念解析（从激活函数到反向传播）》

竹子_23

阅读量631 收藏 4 点赞数 29

文章标签：人工智能深度学习 python

于 2025-08-11 20:08:39 发布

CC 4.0 BY-SA版权

2048 AI社区

文章已被社区收录

加入社区

深度学习作为人工智能领域的重要分支，其核心在于通过多层神经网络学习数据的特征表示。本文将系统讲解深度学习中的几个核心概念：激活函数、参数初始化、损失函数和反向传播算

法，帮助初学者建立扎实的理论基础。

一、激活函数

激活函数是神经网络的核心组件之一，赋予了模型学习非线性关系的能力。没有激活函数，无论神经网络有多少层，都只能表示线性关系。

基础概念

线性理解：线性关系是指输入与输出之间呈正比例关系，可以表示为，线其中是权重，是偏置。性模型的特点是简单直观，但问题在于，无论叠加多少层，最终结果仍然是线性的，

无法拟合复杂数据（如图像、语音），所以无法处理现实世界中复杂的非线性问题。

非线性理解：非线性关系是指输入与输出之间不是简单的正比例关系，例如或。在神经网络中，通过在每一层加入非线性激活函数，使得整个网络可以拟合任意复杂的非线性函

数，这也是深度学习能够处理图像、语音等复杂数据的关键。

常见激活函数

1. sigmoid 函数

sigmoid 函数的数学表达式为：

，其特点是将输入值映射到 [0, 1] 区间，具有平滑可导的特性。在早期的神经网络中广泛使用，适合作为二分类问题的输出层激活函数，因为它可以表示概率。

但 sigmoid 存在两个主要问题：

梯度消失：当输入值很大或很小时，函数的梯度接近 0（梯度消失），导致反向传播时梯度难以更新（计算成本高）

输出不是以 0 为中心：会导致权重更新效率降低

示例：

2. tanh 函数

tanh 函数（双曲正切函数）的数学表达式为：

tanh 函数将输入映射到 [-1, 1] 区间，解决了 sigmoid 函数输出不是以 0 为中心的问题。但它仍然存在梯度消失的问题。

特点：

优点：输出以 0 为中心，梯度比 sigmoid 大

缺点：仍存在梯度消失问题

示例：

3. ReLU 函数

ReLU（Rectified Linear Unit，修正线性单元）的数学表达式为：

y = wx + b w b

y = sin(x) y = x

σ(x) =

1 + e

−x

import numpy as np

def sigmoid(x):

防止指数溢出，对大的负数做截断

x = np.clip(x, -500, 500)

return 1 / (1 + np.exp(-x))

测试

x = np.array([-1, 0, 1, 10])

print(sigmoid(x)) #

输出

: [0.26894142 0.5 0.73105858 0.9999546 ]

收起

运行

AI生成项目python

tanh(x) =

e + e

x −x

e − e

x −x

def tanh(x):

x = np.clip(x, -500, 500)

return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))

测试

x = np.array([-1, 0, 1, 10])

print(tanh(x)) #

输出

: [-0.76159416 0. 0.76159416 0.99999999]

运行

AI生成项目python

ReLU (x) = max(0, x)

复制

竹子_23

关注

2025/8/13 07:58

《零基础入门AI：深度学习基础核心概念解析（从激活函数到反向传播）》-CSDN博客

3/12

，ReLU 函数在 x > 0 时直接输出 x，在 x ≤ 0 时输出 0。它的出现解决了梯度消失问题，计算速度快，成为目前深度学习中最常用的激活函数之一。

ReLU 的缺点是可能出现 “死亡 ReLU” 问题：当输入长期为负时，神经元将永远无法激活（梯度为 0，权重无法更新）。

示例：

4. Leaky ReLU 函数

Leaky ReLU 是为解决死亡 ReLU 问题而提出的变体：

，其中 α 是一个很小的常数（通常取 0.01）

当 x < 0 时，Leaky ReLU 不会输出 0，而是输出一个很小的负值，从而避免了神经元完全死亡的问题。

示例：

5. softmax 函数

softmax 函数通常用于多分类问题的输出层，其数学表达式为：

，其中 z 是输入向量，K 是类别数量

softmax 函数将输入向量转换为概率分布，每个元素的值在 [0, 1] 之间，且所有元素之和为 1，非常适合表示多分类问题中每个类别的概率。

示例：

如何选择激活函数

隐藏层选择：

优先选择 ReLU 或其变体（如 Leaky ReLU），它们计算高效且能有效缓解梯度消失问题

如果 ReLU 导致了死亡神经元问题，可以尝试 Leaky ReLU

在循环神经网络（RNN）中，tanh 有时表现更好

输出层选择：

二分类问题：使用 sigmoid 函数，输出单个值表示属于正类的概率

多分类问题：使用 softmax 函数，输出每个类别的概率分布

回归问题：通常不使用激活函数，直接输出连续值

二、参数初始化

神经网络的参数（权重和偏置）初始化方式对模型的训练效率和最终性能有重要影响。合适的初始化可以加速收敛，避免梯度消失或爆炸问题。

固定值初始化

固定值初始化是指将所有参数初始化为相同的值（如 0 或 1）。例如：

这种方法看似简单，却存在严重缺陷：在反向传播时，所有神经元会有相同的梯度，导致权重更新后仍然保持对称，本质上相当于只有一个神经元在工作，无法学习到有意义的特征。因此，固定值初

始化在实际中很少使用。

示例：

def relu(x):

return np.maximum(0, x)

测试

x = np.array([-1, 0, 1, 10])

print(relu(x)) #

输出

: [ 0 0 1 10]

运行

AI生成项目python

LeakyReLU (x) = max(αx, x)

def leaky_relu(x, alpha=0.01):

return np.where(x > 0, x, alpha * x)

测试

x = np.array([-1, 0, 1, 10])

print(leaky_relu(x)) #

输出

: [-0.01 0. 1. 10. ]

运行

AI生成项目python

softmax(z)

e∑

j=1

def softmax(z):

减去最大值防止指数溢出

exp_z = np.exp(z - np.max(z))

return exp_z / np.sum(exp_z, axis=0)

测试：

个类别的得分

z = np.array([2.0, 1.0, 0.1])

print(softmax(z)) #

输出

: [0.65900114 0.24243297 0.09856589]

（和为

）

运行

AI生成项目python

0 或 w

复制

竹子_23

关注

优先选择 ReLU 或其变体（如 Leaky ReLU），它们计算高效且能有效缓解梯度消失问题

如果 ReLU 导致了死亡神经元问题，可以尝试 Leaky ReLU

剩余11页未读，继续阅读

评论收藏

内容反馈

lyglary

粉丝: 34

【深度学习领域】零基础入门AI：深度学习基础核心概念解析（从激活函数到反向传播）-理论与实践指南

【深度学习领域】深度学习基础概述：核心概念、技术框架及应用场景解析

深度学习基础与实战.pdf

零基础入门深度学习-系列博客高清合集pdf

【源代码】深度学习入门：基于Python的理论与实现.zip

零基础入门深度学习(3) - 神经网络和反向传播算法1

深度学习理论与实践--资源下载

零基础入门深度学习(3) - 神经网络和反向传播算法 - 作业部落 Cmd Markdown 编辑阅读器.pdf

深度学习入门：基于Python的理论与实现源代码

深度学习入门基于Python的理论与实现.zip

深度学习框架pytorch入门与实践pdf书与代码.zip

深度学习基础——设计下一代机器智能算法(英文版与代码)

神经网络与深度学习入门指南：含各类基础网络 Python3 实现，助你从入门到放弃

零基础深度学习

Fundamentals of Deep Learning 深度学习基础英文版 pdf电子书+代码

深度学习入门最佳路径：AI 专题实战范例程序详解

深度学习学习资料，适合零基础入门学习

零基础入门深度学习（hanbingtao）

深度学习入门讲座ppt课件，包括：要懂得基本的原理，包括前向计算，反向传播的数学原理、要多写代码练习、要多阅读论文，尤其是引用率

深度学习理论和实践资料

基于 Python 的深度学习理论与实现入门：斋藤康毅著 陆宇杰译

深度学习的数学 (涌泉良幸, 涌泉井美)-20230323入门必看书籍，高清的，有需要的深度学习初学者自行下载！！强烈推荐

深度学习入门与实践项目_基于Python从零实现神经网络核心算法_包含前向传播与反向传播的逐层实现_并行计算优化与网络层构建_脱离框架的纯Python代码实现_附带详细注释与学习笔.zip

深度学习入门 2：自制框架配套代码详解

深度学习入门.pdf

深度学习入门与实践指南

零基础入门深度学习(1) - 感知器1

清华大学104页《DeepSeek：从入门到精通》

吴恩达-深度学习-课后作业-答案与总结

零基础学习深度学习——韩炳涛

Postman进阶篇（七）-在pre-request script或test script中请求接口（pm.sendRequest）

在以上程序设计的基础上，实现私有指纹库管理，双模式检索机制

最新资源

基于 Python 的深度学习理论与实现入门：斋藤康毅著陆宇杰译