#Paper Reading# DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文题目: DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
论文地址: https://arxiv.org/pdf/2401.02954
论文发表于: arXiv 2024年1月
论文所属单位: DeepSeek

论文大体内容
本文主要对scaling laws进行了精细化的研究,给出了一个新的公式,并发布了DeepSeek自己的LLM模型(对标LLaMa2),其中7B和67B的模型对标LLaMa2的7B和70B,并拿到了超过LLaMa2的效果。

Motivation
从零构建自己的LLM,并发现之前学术界提出的scaling laws并不够精细,给它做精细化并做出实践。

Contribution:本文对scaling laws提出了更精细化的公式:
①在给定的计算预算C下(C=MD),得出模型规模M=0.1715*C^(0.5243),D=5.8316*C^(0.4757)
②在给定的计算预算C下(C=MD),得出batch_size大小B=0.2920*C^(0.3271),学习率lr=0.3118*C^(-0.1250)


1. 本文从零构建了自己的LLM模型,文中写到每个环节的细节,包括数据准备、参数设置、模型对齐、评估方法、安全性等。

2. 数据处理:包括「重复数据删除」、「过滤」、「重新混合」,其中「过滤」提升信息密度,另外2个确保数据多样性。

3. 本文提出的LLM模型整体架构对标LLaMa2


 

4. 本文提出了更精细化的Scaling laws:
①原有的Scaling laws公式是:C=6ND,其中C是计算预算,N是模型参数量,D是数据量。
②本文提出C=MD,其中M是「non-embedding FLOPs/token」,主要是增加了attention的计算,主要区别如下:

③通过IsoFLOP的方法,去拟合出C、M、D之间的最优关系:M=0.1715*C^(0.5243),D=5.8316*C^(0.4757)

④batch_size和学习率的设置:batch_size大小B=0.2920*C^(0.3271),学习率lr=0.3118*C^(-0.1250)

5. 本文在模型对齐(后训练)上主要包括:「Supervised Fine-Tuning」和「DPO」

6. 评估
①多选题Multi-subject multiple-choice:MMLU、C-Eval、CMMLU
②语言理解和推理Language understanding and reasoning:HellaSwag、PIQA、ARC、OpenBookQA、BigBench Hard
③闭卷问答Closed-book question answering:TriviaQA、NaturalQuestions
④阅读理解Reading comprehension:RACE、DROP、C3
⑤消歧Reference disambiguation:WinoGrande、CLUEWSC
⑥语言建模Language modeling:Pile
⑦中文Chinese understanding and culture:CHID、CCPM
⑧数学Math:GSM8K、MATH、CMATH
⑨代码Code:HumanEval、MBPP
⑩考试Standardized exams:AGIEval

7. 评测结果
①小模型上训练数据的语言冲突更显著


②本文还对聊天模型进行了中文和英文的开放式的评估


③Held-out评测


④安全性评测


⑤刷榜的问题:本文发现使用多选的数据集去后训练模型,就能在多选的评测中获得指标的飞跃,但是这个能力对于非多选的任务来说是没有效果的,所以后续都不使用这些数据去后训练。


参考资料
[1] 深度求索DeepSeek背后的底层逻辑:https://zhuanlan.zhihu.com/p/29573646728
[2] PPO vs DPO:https://www.zhihu.com/tardis/zm/art/717010380
[3] 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”:https://www.bilibili.com/video/BV1xuK5eREJi/
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值