- 博客(11)
- 收藏
- 关注
原创 深度学习8GAN从0到1:一文足矣(内附思维导图)
训练的目标是找到一个生成器模型,使其能够生成与真实数据分布相似的样本。在训练网络时,我们要确定一个损失函数,然后使梯度下降策略来调整网络参数,并使得设定的损失函数的数值最小或最大即可。使生成器能够生成与真实数据分布相似的样本。生成器的输入是一系列的从分布中采样出的向量,生成器就会产生一个比较复杂的分布,我们称之为 PG。另外我们还有一系列的数据,这些原始的数据本身会形成另外一个分布,我们称之为 Pdata。我们现在的目标就是训练一组生成器模型中的网络参数,可以让生成的 PG和 Pdata。
2024-09-04 22:17:56
1355
原创 深度学习7这就是Transformer:深度详解(内附思维导图)
全文思维导图在这篇文章中,我们首先会介绍三个部分。1序列到序列模型应用,之后介绍2Transformer结构,最后,我们会提到一些Transformer训练技巧。7.1 序列到序列模型的应用序列到序列模型输入和输出都是一个序列,输入与输出序列长度之间的关系有两种情况。第一种情况下,输入跟输出的长度一样;第二种情况下,机器决定输出的长度。序列到序列模型有广泛的应用,通过这些应用可以更好地了解序列到序列模型。下面是一些有关应用的介绍。
2024-09-03 23:11:47
1797
原创 深度学习6自注意机制原来如此简单:循序递进(内附思维导图)
我们要讲另外一个常见的网络架构——。目前为止,不管是在预测观看人数的问题上,还是图像处理上,网络的输入都是一个向量。当然,输入可以看作是一个向量,如果是回归问题,输出是一个标量,如果是分类问题,输出是一个类别。
2024-09-02 17:36:12
1813
原创 深度学习5从0到1理解RNN(包括LTSM,GRU等):内容丰富(上)
在 RNN 里面,每一次隐藏层的神经元产生输出的时候,该输出会被存到记忆元(memory cell)。当下一次有输入时,这些神经元不仅会考虑输入,还会考虑之前存入的记忆元中的值。因此,循环神经网络可以考虑到序列的顺序,即使输入相同,输出也可能不同。记忆元,即单元或隐状态。记忆元的作用是在循环神经网络中保存信息,以便于后续的计算。记忆元的值也可以称为隐状态,因为它代表了神经网络在某一时刻的状态。在循环神经网络中,隐状态的计算是循环的,也就是说,每一时刻的隐状态都依赖于前一时刻的隐状态。记忆元可简称为。
2024-08-30 22:45:06
1303
原创 深度学习4一文搞懂什么是CNN:有趣有用(Datawhale X 李宏毅苹果书 AI夏令营)
目前已经讲了两个简化的方法,我们来总结下。如图所示,全连接网络是弹性最大的。全连接网络可以决定它看整张图像还是只看一个范围,如果它只想看一个范围,可以把很多权重设成 0。全连接层(fully-connected layer,) ** 可以自己决定看整张图像还是一个小范围。** 但加上感受野的概念以后,只能看一个小范围,网络的弹性是变小的。参数共享又进一步限制了网络的弹性。本来在学习的时候,每个神经元可以各自有不同的参数,它们可以学出相同的参数,也可以有不一样的参数。
2024-08-29 23:28:49
1012
原创 【全面解析】ChatGPT原理与训练流程:一篇文章带你轻松入门!(内附思维导图)
我们将用的方式来介绍 ChatGPT,让大家了解 ChatGPT 的原理,以及它背后的关键技术——。
2024-08-28 22:23:03
2265
原创 深度学习3一文轻松进阶机器学习:数学(挑战自己)警告(Datawhale X 李宏毅苹果书 AI夏令营)
我们将会收获什么我们将会学习深度学习中的一些基本概念,包括优化失败的原因以及如何解决这些问题。首先,我们需要了解为什么优化会失败,这通常是因为模型陷入了局部极小值或鞍点而导致的。接着,我们可以采用自适应学习率和学习率调度等方法来调整学习率,从而提高优化效果。此外,批量归一化也是一种有效的方法,它可以改变误差表面,进而改善优化效果。3.1 局部极小值与鞍点在优化过程中,损失函数可能会停留在一个局部最小值处而不是_全局最小值_处,这会导致模型性能不佳。此外,有些情况下,模型可能_无法收敛_,无论怎样调
2024-08-27 15:42:24
656
原创 深度学习2一文学会分析模型损失(Loss):实践方法论(Datawhale X 李宏毅苹果书 AI夏令营)
把训练数据通通丢进这个函数里面,它的输出跟训练集的标签是一模一样的,所以在训练数据上面,这个函数的损失可是 呢,可是在测试数据上面,它的损失会变得很大,因为它其实什么都没有预测,这是一个比较极端的例子,在一般的情况下,也有可能发生类似的事情。横轴指的是训练的过程,就是参数更新的过程,随着参数的更新,损失会越来越低,但是结果20层的损失比较低,56 层的损失还更高。在训练集上, 20层的网络损失其实是比较低的, 56层的网络损失是比较高的,如图 所示,这代表 层的网络的优化没有做好,它的优化不给力。
2024-08-27 09:15:02
886
原创 深度学习1轻松入门机器学习:机器学习基础(Datawhale X 李宏毅苹果书 AI夏令营)
问题1:在梯度下降法中,如何避免陷入局部最小值?在梯度下降法中,避免陷入局部最小值的关键在于初始化参数的选择和调整学习率。具体来说:随机初始化:选择一个随机的初始参数 w0和b0,这样可以减少初始点靠近局部最小值的可能性。学习率调整:学习率η 的选择非常重要。较大的学习率可以使参数更新更快,但也更容易跳过全局最小值。较小的学习率虽然更新缓慢,但可以更稳定地逼近全局最小值。通常需要通过实验来找到合适的学习率。
2024-08-26 11:15:06
1477
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人