
基础知识
文章平均质量分 88
KangkangLoveNLP
NLP,大模型,深度学习的学习者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
史上最全模型蒸馏全解:一步一步带你走向模型蒸馏全流程
模型蒸馏简单来说,就是将一个大模型(比如BERT)的权重,通过一定规则,压缩到小模型(比如RoBERTa)的权重中。蒸馏其实特别形象,就像把一杯饱和盐水蒸馏成纯净水一样,质量减少了效果却没有多大变化。在大模型(LLM)领域,模型的发展趋势是参数量不断增大。因为模型的性能和模型的规模是正相关的。从2017年到2024年,LLM的参数数量经历了指数级增长:2017年,Transformer模型的参数量为0.05亿。2018年,GPT模型的参数量为0.11亿,BERT模型为0.34亿。2020年,GPT原创 2025-02-25 17:03:52 · 13178 阅读 · 8 评论 -
大模型的输出:温度对输出的影响
通过这个例子,我们可以看到温度系数如何影响模型的概率分布:低温度系数:使概率分布更加集中,模型更倾向于选择高概率的单词,生成结果更加稳定和一致。高温度系数:使概率分布更加平缓,模型的选择更加随机,生成结果更加多样化和富有创造性。这个机制在实际应用中非常重要,比如在对话生成中,高温度系数可以使对话更加自然和有趣;而在需要准确性的任务(如机器翻译)中,低温度系数可能更合适。原创 2025-04-08 22:34:14 · 1279 阅读 · 0 评论 -
传统策略梯度方法的弊端与PPO的改进:稳定性与样本效率的提升
高方差的梯度估计:累积奖励GtG_tGt的随机性导致梯度估计的方差很高,使得训练过程不稳定。单次更新:每个数据批次只使用一次,更新后就丢弃,导致样本的利用效率较低。剪切机制:限制新策略与旧策略之间的概率比率,防止策略更新过大,降低梯度估计的方差,提高训练的稳定性。多次更新:在一个数据批次上进行多次更新,充分利用样本信息,提高样本的利用效率。这些改进使得PPO在训练过程中更加稳定,样本效率更高,成为强化学习领域中一种常用的基准算法。原创 2025-03-30 21:56:48 · 1372 阅读 · 0 评论 -
《强化学习基础概念:四大模型与两大损失》
策略是一个函数,它将状态映射到动作的概率分布。用数学符号表示为πa∣s\pi(a|s)πa∣s,其中sss表示状态,aaa表示动作,πa∣s\pi(a|s)πa∣s表示在状态sss下选择动作aaa的概率。策略决定了智能体在环境中如何行动,从而影响其获得的奖励和最终的学习效果。确定性策略(Deterministic Policy):对于每个状态sss,策略π\piπ映射到一个唯一确定的动作aaa,即πsa\pi(s) = aπsa。原创 2025-03-29 22:05:32 · 1291 阅读 · 0 评论 -
优化算法深度剖析:梯度下降、动量方法与自适应学习率
通过计算损失函数对参数的梯度,沿着梯度下降的方向更新模型参数,直到找到最小值或足够接近最小值的解。其核心思想是基于损失函数的梯度方向来调整参数,以最小化损失。梯度下降的核心思想是基于损失函数的梯度方向来调整参数。具体来说,它通过计算损失函数对参数的梯度,沿着梯度下降的方向更新模型参数,直到找到最小值或足够接近最小值的解。其更新公式为:θt+1=θt−η∇J(θt)\theta_{t+1} = \theta_t - \eta \nabla J(\theta_t)θt+1=θt−η∇J(θt)其中,θ原创 2025-03-28 20:27:01 · 1152 阅读 · 0 评论 -
L2正则化:优化模型的平滑之道
L2正则化通过在损失函数中添加一个与参数大小相关的正则化项来实现。JnewθJθλ2∥θ∥22JnewθJθ2λ∥θ∥22( J(\theta) ) 是原始损失函数。( \lambda ) 是正则化系数,控制正则化项的强度。( |\theta|2^2 = \sum{i} \theta_i^2 ) 是参数向量 ( \theta ) 的L2范数的平方。L2正则化通过限制参数的大小、减少模型的复杂度、平滑决策边界等方式防止过拟合。原创 2025-03-28 20:24:12 · 1364 阅读 · 0 评论 -
为什么需要非线性激活函数
非线性激活函数是神经网络中不可或缺的组成部分,它们通过引入非线性因素,解决了梯度消失和梯度爆炸问题,引入非零中心化,控制神经元的输出范围,引入稀疏性,加速收敛,并增强模型的表达能力。这些作用使得神经网络能够学习和模拟复杂的非线性关系,从而在各种任务中表现出色。原创 2025-03-27 09:54:11 · 663 阅读 · 0 评论 -
为什么说Relu是非线性激活函数
ReLU 函数是一种非线性激活函数,其非线性特性主要表现在其定义上。虽然 ReLU 函数存在一些缺点,但其计算简单和缓解梯度消失问题的优点使其成为目前最常用的激活函数之一。在实际应用中,可以根据具体任务和数据的特点选择合适的激活函数。原创 2025-03-27 09:39:14 · 638 阅读 · 0 评论 -
练习两天半,终于知道企业级的prompt在怎么写
我们要把AI看作一个人,要把要求等详细的说给他,他才能更好的解决你的问题,如果你能提供样例那当然更好。原创 2025-03-26 21:28:33 · 830 阅读 · 0 评论 -
激活函数的一般性质
不同的激活函数具有不同的性质,选择合适的激活函数可以显著提高神经网络的性能。在实际应用中,可以根据具体任务和数据的特点选择合适的激活函数。例如,ReLU 及其变体(如 Leaky ReLU、PReLU)因其计算简单和缓解梯度消失问题而被广泛使用,而 Sigmoid 和 Tanh 则更多用于特定的输出层或需要概率输出的场景。一些新型激活函数(如 Swish、Mish)在某些任务中也表现出良好的性能。原创 2025-03-26 13:42:55 · 477 阅读 · 0 评论 -
激活函数大揭秘:常见类型与优化策略
不同的激活函数适用于不同的场景,选择合适的激活函数可以显著提高神经网络的性能。ReLU 及其变体(如 Leaky ReLU、PReLU)因其计算效率高和缓解梯度消失问题而被广泛使用,而 Sigmoid 和 Tanh 则更多用于特定的输出层或需要概率输出的场景。Softmax 是多分类问题的标准选择,而一些新型激活函数(如 Swish、Mish)在某些任务中也表现出良好的性能。原创 2025-03-26 13:40:58 · 1164 阅读 · 0 评论 -
从概率到梯度:理解分类问题中交叉熵的优越性
因此,分类问题一般使用交叉熵而不是平方损失函数。原创 2025-03-25 10:57:57 · 497 阅读 · 0 评论 -
MSE vs MAE:选择适合你的模型误差损失函数
因此,选择 MSE 还是 MAE 作为损失函数,需要根据具体问题和数据集的特性来决定。如果数据集中异常值较少,可以使用 MSE;如果数据集中异常值较多,可以使用 MAE。原创 2025-03-25 10:56:12 · 1090 阅读 · 0 评论 -
MSE vs MAE:误差评估的两大选择
因此,选择 MSE 还是 MAE 作为损失函数,需要根据具体问题和数据集的特性来决定。如果数据集中异常值较少,可以使用 MSE;如果数据集中异常值较多,可以使用 MAE。原创 2025-03-24 12:45:16 · 1402 阅读 · 0 评论 -
深度解析:损失函数与代价函数的全貌
损失函数公式适用场景输出类型是否可微最小值特点均方误差(MSE)回归问题连续值是0对较大误差惩罚更大,计算简单,对异常值敏感交叉熵(CE)多分类问题概率分布是0适合概率分布的比较,对小概率值的误差惩罚更大对数损失(Log Loss)二分类问题概率值是0适合二分类概率预测,对小概率值的误差惩罚更大KL散度(KLD)概率分布比较(如生成模型)概率分布是0衡量两个概率分布的差异,对分布的相似性要求更高。原创 2025-03-23 22:11:08 · 1790 阅读 · 0 评论