
深度学习Daily Dose
文章平均质量分 79
研究点啥好呢
啥也懂一点点的在读研,努力申博ing...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM那些事儿:Fine-tuning与LoRA
Fine-tuning对于接触过大模型原理的同学来说是一个不陌生的词,通常来说我们会首先加载一个预训练好的基座模型,再用自己的数据对其进行微调训练。如果我们希望继续保持他的文本对话功能,一般通过构建对应的微调指令+提示工程对齐进行指令微调;如果我们希望将其变成一个分类模型,我们可以在原模型基础上增加映射层等等。各式各样的方式,都面向我们的需求。相比传统的Fine-tuning,LoRA(Low-Rank Adaptation)通过引入低秩矩阵分解来调整预训练模型的权重。原创 2025-07-30 15:09:59 · 305 阅读 · 0 评论 -
LLM那些事儿: 常见概念理解
跟着DailyDose把LLM的相关概念看了一遍,对一些内容的印象还是不够深,今天写了一个笔试发现408还是有待加强,哎,东西墙都得补啊。一点一点来吧,着眼当下把该整理的东西梳理梳理记一下,剩下的就一点点来吧。原创 2025-07-30 14:44:45 · 530 阅读 · 0 评论 -
Dropout那些事儿: 工作原理与DropBlock
相信屏幕前的你也能给出一个差不多的回复。简要来说,就是再神经网络训练的过程中置零或抛弃部分神经元的激活值,抛弃的规模由伯努利分布决定(Bernoulli(1-p)).那么,还有呢?原创 2025-07-28 14:30:21 · 894 阅读 · 0 评论 -
运行时长和内存优化:梯度积累 Gradiants Accumulation
在对模型训练时,batch size盲目过大会导致GPU容量不够,因此通常会采用小批量训练。梯度积累技术的出现是为了让我们能够在逻辑上增大batch进行训练,嗯,逻辑上。引用书中的原话就是:书中首先引导我们思考一个问题,就像之前跑项目的时候,常常会看到爆红,memory不够或受限,就其原因在于,主要的内存负担集中在向后传播这一过程,因为要计算梯度更新权重,就要存储向前传播时计算得到的激活值,当模型越大,激活值就越多,占用的空间越多。此时当batch也增大的时候,就会产生更多的激活值。原创 2025-07-27 15:24:23 · 275 阅读 · 0 评论 -
运行时长和内存优化:混合精度训练(MPT)案例和梯度检查点(GCP)
混合精度训练(Mixed Precision Training) 是一种,旨在使用 不同精度的数据类型(如 FP32 和 FP16) 进行训练,以 减少计算开销、降低显存占用,并提高模型训练速度,同时保持与全精度训练相近的模型精度。这里就直接用一个例子来展示一下MPT的效果先导入必要的库,其中比较关键的时最后一个GradScalar和autocast可视化观察一下这个数据的样子定义一个多任务模型,参数在经过共享网络区域model1后,由model2和model3进行多任务分支训练。原创 2025-07-27 11:54:26 · 681 阅读 · 0 评论 -
知识点笔记-Daily Dose Of Data Science Full Archive
这个项目也是相当的哇塞,如图,涵盖了n多n多的大模型相关的demo,本人没有很深入的去了解里面的每个文件夹内容,往下翻就是Daily_Dose_Of_Data_Science_Full_Archive的链接,大家可以自行探索。其实书里很多知识单独拿出来都是很深奥很复杂的理论,我的目的也不是把他们都搞懂,知识理解他们的大概流程和定义,面试和实践的时候也都有参考,尽可能把详细讲解的帖子也参考附上,如若有更精细的讲解也欢迎指正。关注到一个github的项目,分享了一本500多页的。原创 2025-07-27 10:43:34 · 208 阅读 · 0 评论