大模型参数高效微调之增量预训练

comli_cn

已于 2025-02-11 13:04:27 修改

阅读量170

点赞数

CC 4.0 BY-SA版权

分类专栏：大模型笔记文章标签：机器学习人工智能大模型

于 2025-02-11 12:47:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/comli_cn/article/details/145552608

大模型笔记专栏收录该内容

50 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

1. 为什么要增量预训练？

预训练学知识，指令微调学格式，强化学习对齐人类偏好，所以要想大模型有领域知识，得增量预训练（靠指令微调记知识不靠谱，不是几十w条数据能做到的）。

2. 进行增量预训练需要做哪些准备工作？

选取底座模型：可以根据自己的项目需求和硬件基础来选择合适的底座模型及模型参数量的大小。
收集数据：一般来说需要收集大量的文本数据，包含各个领域，主要从互联网上获取，一般预训练数据的大小都是 TB 级别的。
数据清洗：所有的信息都能够在互联网信息中被找到，只是信息密度相比「人工精选数据集」要更低。例如「明星信息」、「如何写代码」这些信息都能在新闻网站、或是问答网站中找到，只不过「维基百科」或是「Github」则是将这些信息给「高密度」且「结构化」地进行了存储。这使得我们在使用维基百科作为训练语料的时候，模型能够更快的学习到这些高密度信息（人物的经历、年龄、性别、职业等等），而这些内容在互联网信息（如新闻）中的信息密度则较低，即很少会有一条新闻完整的介绍一个艺人的过往经历。只要我们对互联网信息进行严格的处理（去除冗余信息，提高有用信息的密度），就能够加快模型的学习速度。

3. 增量预训练所用训练框架？

超大规模训练：选用 3D 并行，Megatron-Deepspeed拥有多个成功案例
少量节点训练：选用张量并行，但张量并行只有在 nv

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

comli_cn 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。