大模型(LLMs)增量预训练篇

大模型(LLMs)增量预训练篇

为什么要增量预训练?

有一种观点,预训练学知识,指令微调学格式,强化学习对齐人类偏好,[L]{.underline} [IMA]{.underline}等论文算是这一观点的证据。

所以要想大模型有领域知识,得增量预训练。(靠指令微调记知识不靠谱,不是几十w条数据能做到的。)

进行 增量预训练 需要做哪些准备工作?

  1. 模型底座选型

    主流是LLaMA,因为[s]{.underline} [calin]{.underline} [g法]{.underline} [则]{.underline},可能LLaMA做了充分预训练。(当然有版权问题)

    这里备选BLOOM,感觉基座比LLaMA差,但是也有7B版本。

    [F]{.underline} [alcon]{.underline}、[C]{.underline} [PM-bee]{.underline}、[A]{.underline} [quila]{.underline}、[B]{.underline} [aichuan]{.underline}待实验,license友好,但生态和效果都是问题。其实,因为结构上都类似LLaMA,未来估计会出现整合这些模型的项目。

    (Falcon公布的训练语料中没有中文)

    这里没列ChatGLM和ChatGLM2,因为有种说法在SFT模型上增量预训练效果比较差。(未证实)

  2. 数据收集

    这里最经典的开源预训练数据还是wudao的200G和the[pile]{.underline}这两个数据集(怀念一下Open-Llama)加起来有1T的文本量,足够前期玩耍了。

    其实,刚开始实践的时候,不需要太多样本,先收集GB量级的领域文本跑通流程即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xianghan收藏册

极简精品作,一分也是一份鼓励哦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值