自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 深度学习8GAN从0到1:一文足矣(内附思维导图)

训练的目标是找到一个生成器模型,使其能够生成与真实数据分布相似的样本。在训练网络时,我们要确定一个损失函数,然后使梯度下降策略来调整网络参数,并使得设定的损失函数的数值最小或最大即可。使生成器能够生成与真实数据分布相似的样本。生成器的输入是一系列的从分布中采样出的向量,生成器就会产生一个比较复杂的分布,我们称之为 PG。另外我们还有一系列的数据,这些原始的数据本身会形成另外一个分布,我们称之为 Pdata。我们现在的目标就是训练一组生成器模型中的网络参数,可以让生成的 PG和 Pdata。

2024-09-04 22:17:56 1355

原创 深度学习7这就是Transformer:深度详解(内附思维导图)

全文思维导图在这篇文章中,我们首先会介绍三个部分。1序列到序列模型应用,之后介绍2Transformer结构,最后,我们会提到一些Transformer训练技巧。7.1 序列到序列模型的应用序列到序列模型输入和输出都是一个序列,输入与输出序列长度之间的关系有两种情况。第一种情况下,输入跟输出的长度一样;第二种情况下,机器决定输出的长度。序列到序列模型有广泛的应用,通过这些应用可以更好地了解序列到序列模型。下面是一些有关应用的介绍。

2024-09-03 23:11:47 1797

原创 深度学习6自注意机制原来如此简单:循序递进(内附思维导图)

我们要讲另外一个常见的网络架构——。目前为止,不管是在预测观看人数的问题上,还是图像处理上,网络的输入都是一个向量。当然,输入可以看作是一个向量,如果是回归问题,输出是一个标量,如果是分类问题,输出是一个类别。

2024-09-02 17:36:12 1813

原创 深度学习5从0到1理解RNN(包括LTSM,GRU等):内容丰富(下)

续。

2024-09-01 23:59:48 1299 1

原创 一文了解大模型面试最基础问题

大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前已有万亿参数以上的模型。

2024-08-31 23:26:47 1185

原创 深度学习5从0到1理解RNN(包括LTSM,GRU等):内容丰富(上)

在 RNN 里面,每一次隐藏层的神经元产生输出的时候,该输出会被存到记忆元(memory cell)。当下一次有输入时,这些神经元不仅会考虑输入,还会考虑之前存入的记忆元中的值。因此,循环神经网络可以考虑到序列的顺序,即使输入相同,输出也可能不同。记忆元,即单元或隐状态。记忆元的作用是在循环神经网络中保存信息,以便于后续的计算。记忆元的值也可以称为隐状态,因为它代表了神经网络在某一时刻的状态。在循环神经网络中,隐状态的计算是循环的,也就是说,每一时刻的隐状态都依赖于前一时刻的隐状态。记忆元可简称为。

2024-08-30 22:45:06 1303

原创 深度学习4一文搞懂什么是CNN:有趣有用(Datawhale X 李宏毅苹果书 AI夏令营)

目前已经讲了两个简化的方法,我们来总结下。如图所示,全连接网络是弹性最大的。全连接网络可以决定它看整张图像还是只看一个范围,如果它只想看一个范围,可以把很多权重设成 0。全连接层(fully-connected layer,) ** 可以自己决定看整张图像还是一个小范围。** 但加上感受野的概念以后,只能看一个小范围,网络的弹性是变小的。参数共享又进一步限制了网络的弹性。本来在学习的时候,每个神经元可以各自有不同的参数,它们可以学出相同的参数,也可以有不一样的参数。

2024-08-29 23:28:49 1012

原创 【全面解析】ChatGPT原理与训练流程:一篇文章带你轻松入门!(内附思维导图)

我们将用的方式来介绍 ChatGPT,让大家了解 ChatGPT 的原理,以及它背后的关键技术——。

2024-08-28 22:23:03 2265

原创 深度学习3一文轻松进阶机器学习:数学(挑战自己)警告(Datawhale X 李宏毅苹果书 AI夏令营)

我们将会收获什么我们将会学习深度学习中的一些基本概念,包括优化失败的原因以及如何解决这些问题。首先,我们需要了解为什么优化会失败,这通常是因为模型陷入了局部极小值或鞍点而导致的。接着,我们可以采用自适应学习率和学习率调度等方法来调整学习率,从而提高优化效果。此外,批量归一化也是一种有效的方法,它可以改变误差表面,进而改善优化效果。3.1 局部极小值与鞍点在优化过程中,损失函数可能会停留在一个局部最小值处而不是_全局最小值_处,这会导致模型性能不佳。此外,有些情况下,模型可能_无法收敛_,无论怎样调

2024-08-27 15:42:24 656

原创 深度学习2一文学会分析模型损失(Loss):实践方法论(Datawhale X 李宏毅苹果书 AI夏令营)

把训练数据通通丢进这个函数里面,它的输出跟训练集的标签是一模一样的,所以在训练数据上面,这个函数的损失可是 呢,可是在测试数据上面,它的损失会变得很大,因为它其实什么都没有预测,这是一个比较极端的例子,在一般的情况下,也有可能发生类似的事情。横轴指的是训练的过程,就是参数更新的过程,随着参数的更新,损失会越来越低,但是结果20层的损失比较低,56 层的损失还更高。在训练集上, 20层的网络损失其实是比较低的, 56层的网络损失是比较高的,如图 所示,这代表 层的网络的优化没有做好,它的优化不给力。

2024-08-27 09:15:02 886

原创 深度学习1轻松入门机器学习:机器学习基础(Datawhale X 李宏毅苹果书 AI夏令营)

问题1:在梯度下降法中,如何避免陷入局部最小值?在梯度下降法中,避免陷入局部最小值的关键在于初始化参数的选择和调整学习率。具体来说:随机初始化:选择一个随机的初始参数 w0和b0,这样可以减少初始点靠近局部最小值的可能性。学习率调整:学习率η 的选择非常重要。较大的学习率可以使参数更新更快,但也更容易跳过全局最小值。较小的学习率虽然更新缓慢,但可以更稳定地逼近全局最小值。通常需要通过实验来找到合适的学习率。

2024-08-26 11:15:06 1477

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除