Yuchengbuyv-CSDN博客

原创深度学习8GAN从0到1：一文足矣（内附思维导图）

训练的目标是找到一个生成器模型，使其能够生成与真实数据分布相似的样本。在训练网络时，我们要确定一个损失函数，然后使梯度下降策略来调整网络参数，并使得设定的损失函数的数值最小或最大即可。使生成器能够生成与真实数据分布相似的样本。生成器的输入是一系列的从分布中采样出的向量，生成器就会产生一个比较复杂的分布，我们称之为 PG。另外我们还有一系列的数据，这些原始的数据本身会形成另外一个分布，我们称之为 Pdata。我们现在的目标就是训练一组生成器模型中的网络参数，可以让生成的 PG和 Pdata。

2024-09-04 22:17:56 1355

原创深度学习7这就是Transformer：深度详解（内附思维导图）

全文思维导图在这篇文章中，我们首先会介绍三个部分。1序列到序列模型应用，之后介绍2Transformer结构，最后，我们会提到一些Transformer训练技巧。7.1 序列到序列模型的应用序列到序列模型输入和输出都是一个序列，输入与输出序列长度之间的关系有两种情况。第一种情况下，输入跟输出的长度一样；第二种情况下，机器决定输出的长度。序列到序列模型有广泛的应用，通过这些应用可以更好地了解序列到序列模型。下面是一些有关应用的介绍。

2024-09-03 23:11:47 1797

原创深度学习6自注意机制原来如此简单：循序递进（内附思维导图）

我们要讲另外一个常见的网络架构——。目前为止，不管是在预测观看人数的问题上，还是图像处理上，网络的输入都是一个向量。当然，输入可以看作是一个向量，如果是回归问题，输出是一个标量，如果是分类问题，输出是一个类别。

2024-09-02 17:36:12 1813

原创深度学习5从0到1理解RNN（包括LTSM，GRU等）：内容丰富（下）

续。

2024-09-01 23:59:48 1299 1

原创一文了解大模型面试最基础问题

大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前已有万亿参数以上的模型。

2024-08-31 23:26:47 1185

原创深度学习5从0到1理解RNN（包括LTSM，GRU等）：内容丰富（上）

在 RNN 里面，每一次隐藏层的神经元产生输出的时候，该输出会被存到记忆元（memory cell）。当下一次有输入时，这些神经元不仅会考虑输入，还会考虑之前存入的记忆元中的值。因此，循环神经网络可以考虑到序列的顺序，即使输入相同，输出也可能不同。记忆元，即单元或隐状态。记忆元的作用是在循环神经网络中保存信息，以便于后续的计算。记忆元的值也可以称为隐状态，因为它代表了神经网络在某一时刻的状态。在循环神经网络中，隐状态的计算是循环的，也就是说，每一时刻的隐状态都依赖于前一时刻的隐状态。记忆元可简称为。

2024-08-30 22:45:06 1303

原创深度学习4一文搞懂什么是CNN：有趣有用（Datawhale X 李宏毅苹果书 AI夏令营）

目前已经讲了两个简化的方法，我们来总结下。如图所示，全连接网络是弹性最大的。全连接网络可以决定它看整张图像还是只看一个范围，如果它只想看一个范围，可以把很多权重设成 0。全连接层（fully-connected layer，） ** 可以自己决定看整张图像还是一个小范围。** 但加上感受野的概念以后，只能看一个小范围，网络的弹性是变小的。参数共享又进一步限制了网络的弹性。本来在学习的时候，每个神经元可以各自有不同的参数，它们可以学出相同的参数，也可以有不一样的参数。

2024-08-29 23:28:49 1012

原创【全面解析】ChatGPT原理与训练流程：一篇文章带你轻松入门！（内附思维导图）

我们将用的方式来介绍 ChatGPT，让大家了解 ChatGPT 的原理，以及它背后的关键技术——。

2024-08-28 22:23:03 2265

原创深度学习3一文轻松进阶机器学习：数学(挑战自己)警告（Datawhale X 李宏毅苹果书 AI夏令营）

我们将会收获什么我们将会学习深度学习中的一些基本概念，包括优化失败的原因以及如何解决这些问题。首先，我们需要了解为什么优化会失败，这通常是因为模型陷入了局部极小值或鞍点而导致的。接着，我们可以采用自适应学习率和学习率调度等方法来调整学习率，从而提高优化效果。此外，批量归一化也是一种有效的方法，它可以改变误差表面，进而改善优化效果。3.1 局部极小值与鞍点在优化过程中，损失函数可能会停留在一个局部最小值处而不是_全局最小值_处，这会导致模型性能不佳。此外，有些情况下，模型可能_无法收敛_，无论怎样调

2024-08-27 15:42:24 656

原创深度学习2一文学会分析模型损失（Loss）：实践方法论（Datawhale X 李宏毅苹果书 AI夏令营）

把训练数据通通丢进这个函数里面，它的输出跟训练集的标签是一模一样的，所以在训练数据上面，这个函数的损失可是呢，可是在测试数据上面，它的损失会变得很大，因为它其实什么都没有预测，这是一个比较极端的例子，在一般的情况下，也有可能发生类似的事情。横轴指的是训练的过程，就是参数更新的过程，随着参数的更新，损失会越来越低，但是结果20层的损失比较低，56 层的损失还更高。在训练集上， 20层的网络损失其实是比较低的， 56层的网络损失是比较高的，如图所示，这代表层的网络的优化没有做好，它的优化不给力。

2024-08-27 09:15:02 886

原创深度学习1轻松入门机器学习：机器学习基础（Datawhale X 李宏毅苹果书 AI夏令营）

问题1：在梯度下降法中，如何避免陷入局部最小值？在梯度下降法中，避免陷入局部最小值的关键在于初始化参数的选择和调整学习率。具体来说：随机初始化：选择一个随机的初始参数 w0和b0，这样可以减少初始点靠近局部最小值的可能性。学习率调整：学习率η 的选择非常重要。较大的学习率可以使参数更新更快，但也更容易跳过全局最小值。较小的学习率虽然更新缓慢，但可以更稳定地逼近全局最小值。通常需要通过实验来找到合适的学习率。

2024-08-26 11:15:06 1477

欢迎光临我的博客