(initial)
大模型方向,持续学习,乐于分享。公众号:智语Bot
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
18.实战 LLaMA2-7B 指令微调
Pre-Training 和 Fine-Tuning是深度学习,特别是在自然语言处理(NLP)领域中,训练大模型(如LLaMA、GPT、Gemini等)的两个关键步骤。这两个步骤共同构成了一种有效的策略,用于利用大量未标记数据学习通用知识,然后通过少量标记数据将这些知识应用于特定任务。Pre-Training是指在大量未标记数据上训练深度学习模型的过程。这一步骤的目的是使模型能够学习到数据的通用特征和模式,从而捕获语言的基本语法和语义信息。原创 2024-06-17 21:46:05 · 1667 阅读 · 0 评论 -
17.Meta AI 大模型家族 LLaMA
在训练 65B 模型时,Meta 代码在2048个A100 GPU(80GB)上处理速度约为380 tokens/sec/GPU。这意味着在1.4T Tokens。数据集上训练需要约21天。LLaMA 1:小模型+大数据。Llama 2 基座模型是在。上 进行 RLHF 训练得到。上 进行 RLHF 训练得到。原创 2024-06-17 06:00:00 · 651 阅读 · 0 评论 -
16.大模型分布式训练框架 Microsoft DeepSpeed
DeepSpeed 是一个开源深度学习优化库,旨在提高大模型训练和运行效率,以支持数千亿~万亿参数的超大语言模型。原创 2024-06-16 07:00:00 · 2105 阅读 · 0 评论 -
15.混合专家模型(MoEs)技术揭秘
这种设计对大规模计算尤其有利:当模型扩展到多个设备时,MoE层在这些设备间共享,而其他层则在每个设备上独立存在。如果两个专家的处理能力都已达到上限,那么这个 Token 就会被认为是多余的,并通过残差连接传递到下一层,或在某些情况下被直接丢弃。注:在模型编译时所有的张量形状(Tensor Shape)都是静态确定的,但无法预先知道每个专家将处理多少Token,因此需要设定一个固定的处理能力上限。:在 top-2 设计中,我们始终选择表现最优的专家,但第二选择的专家则根据其权重以一定概率被选中。原创 2024-06-16 06:00:00 · 1277 阅读 · 0 评论 -
14.基于人类反馈的强化学习(RLHF)技术详解
先收集⼀个提示词集合,并要求标注⼈员写出⾼质量的回复,然后使⽤该数据集以监督的⽅式微调预训练的基础模型。对这⼀步的模型,OpenAI 在其第⼀个流⾏的 RLHF 模型 InstructGPT 中使⽤了较⼩版本的 GPT-3;这⼀模型接收⼀系列⽂本并返回⼀个标量奖励,数值上对应⼈的偏好。首先,该策略 (policy) 是一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。这个策略的行动空间 (action space) 是 LM 的词表对应的所有词元 (一般在 50k 数量级)原创 2024-06-15 07:00:00 · 912 阅读 · 0 评论 -
13.ChatGPT 大模型训练核心技术
从 GPT-3 到 ChatGPT 的大模型训练技术演进原创 2024-06-15 06:00:00 · 433 阅读 · 0 评论 -
12.实战私有数据微调ChatGLM3
基于 ChatGPT 设计生成训练数据的 Prompt(以中国哲学领域为例)基于 GPT 的训练数据集构造流程。数据增强:构造多样化的提问方式。痛点:流程重复繁杂,效率低。典型的训练数据集构造流程。原创 2024-06-14 07:00:00 · 547 阅读 · 0 评论 -
11.QLoRA微调ChatGLM3-6B
当新的热门transformer网络架构(新模型)发布时, Huggingface社区会尽力快速将它们添加到PEFT 中。具体来说, 在初始化相应的微调配置类(例如 LoraConfig)时, 我们需要显式指定在哪些层新增适配器(Adapter), 并将其设置正确。原创 2024-06-14 06:00:00 · 1177 阅读 · 0 评论 -
10.GLM
假设 x=[x_1,x_2,x_3,x_4,x_5,x_6] ,其中 和x_3和x_5,x_6 为掩码片段。在预测 x_5 的时候,输入到模型中的是[x_1,x_2,S],其中 和x_1和x_2 是全注意力掩码,S为单向注意力掩码。接下来,要预测 x_6 的时候,即使模型上一个预测出来的token的不是 x_5 ,但是输入到模型中的还是 [x_1,x_2,S,x_5] ,实现了一种教师机制,从而保证预训练的时候,输入到模型的文本是正确的。与此同时,GLM可以通过变化空白的数量和长度来预训练不同类型的任务。原创 2024-06-13 22:45:19 · 1070 阅读 · 0 评论 -
9.大模型高效微调工具 Hugging Face PEFT
旨在以一行代码便捷加载一个PEFT模型,而无需担心需要哪个确切的模型类或手动加载PeftConfig。PEFT 采用的高效做法是训练少量提示参数(Prompt Tuning)或使用低秩适应(LoRA)等重新参数化方法来减少微调时训练参数的数量。PEFT 是一个为大型预训练模型提供多种高效微调方法的Python 库。PEFT 无缝对接Transformers Trainer 训练模型。PEFT 库微调工作原理与最佳实践(以LoRA 为例)PEFT 库微调工作原理与最佳实践(以LoRA 为例)原创 2024-06-13 21:16:23 · 758 阅读 · 0 评论 -
8.transformers量化
BitsAndBytes(BNB)是自定义CUDA 函数的轻量级包装器,特别是8 比特优化器、矩阵乘法和量化函数。具有混合精度分解的8 比特矩阵乘法LLM.int8() 推理8 比特优化器:Adam、AdamW、RMSProp、LARS、LAMB、Lion(节省75% 内存)稳定的嵌入层:通过更好的初始化和标准化提高稳定性8 比特量化:分位数、线性和动态量化快速的分位数估计:比其他算法快100 倍在 Transformers 量化方案中,BNB 是将模型量化为8位和4位的最简单选择。原创 2024-06-12 07:00:00 · 1112 阅读 · 0 评论 -
7.数据集处理库Hugging Face Datasets
只需一行代码便可以访问数十种不同领域(自然语言处理、计算机视觉、强化学习等)的评估方法。Evaluate 库 是一个用于轻松评估机器学习模型和数据集的 Python 库。构造 DatasetBuilder 类的主要配置 BuilderConfig。Datasets.load_dataset 实现原理简介。使用 datasets.map 方法全量应用预处理策略。实际构造数据集的类 DatasetBuilder。Datasets 帮助构建不同用途的数据集。使用 Datasets 下载开源数据集。原创 2024-06-12 06:00:00 · 531 阅读 · 0 评论 -
6.Hugging Face Transformers 快速入门
Hugging Face Transformers 库独特价值。原创 2024-06-11 22:37:55 · 433 阅读 · 0 评论 -
5.大模型高效微调(PEFT)未来发展趋势
UIUC 和Meta AI 研究人员发表的UniPELT 提出将不同的PEFT 方法模块化。作者试图将已经被广泛证明有效的技术,整合为一个统一的微调框架。针对不同的下游任务,可以学习和配置不同的微调模块。UniPELT 探索PEFT 大模型的统一框架。原创 2024-06-11 06:00:00 · 814 阅读 · 0 评论 -
4.大模型微调技术LoRA
现有PEFT 方法的局限与挑战。原创 2024-06-10 07:00:00 · 957 阅读 · 0 评论 -
3.大模型高效微调PEFT
有更好的方法吗?原创 2024-06-10 06:00:00 · 614 阅读 · 0 评论 -
2.大语言模型技术发展与演进
大语言模型技术发展与演进原创 2024-06-09 08:28:32 · 1061 阅读 · 0 评论 -
1.AI大模型四阶技术总览
• 技术浪潮:弱人工智能、机器学习、深度学习、大语言模型• 应用浪潮:高校共识、硅谷创新、中美博弈• 把握浪潮:AI 大模型助力超级个体和小团队。原创 2024-06-09 08:04:09 · 806 阅读 · 0 评论