
大语言模型
文章平均质量分 93
FF-Studio
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
高级LoRA:面向垂直领域LLM的实战微调指南——LoRA合并、续训、堆叠,Checkpoint管理
本文深入探讨Hugging Face生态中深度学习模型的保存、恢复与高效管理策略。从Trainer全量检查点(包含模型、优化器、调度器及RNG状态)到PEFT LoRA轻量级适配器的解剖,详细解析了保存机制。我们探讨了如何利用TrainingArguments进行检查点管理,实现训练断点续训,阐述了LoRA模型的持续训练、合并再训练、多LoRA堆叠推理及LoRA间合并等高级技巧。原创 2025-07-09 23:02:07 · 876 阅读 · 0 评论 -
超长上下文(32k-1024k)大模型微调实用开发者指南
本文为开发者提供一套详尽实用的超长上下文大语言模型(LLM)微调指南。针对传统Transformer模型在处理长序列时计算开销呈二次方增长的瓶颈,本指南深入探讨了多项前沿开源解决方案。文章详细介绍了Unsloth、Axolotl等高效微调框架,以及LongLoRA、LongQLoRA等专长长上下文微调的技术。此外,还探索了Mamba、RWKV等原生支持超长上下文的新型架构,并强调了FlashAttention-2、Ring Attention等核心优化库的重要性。原创 2025-07-08 19:09:51 · 862 阅读 · 0 评论 -
大语言模型(LLM)课程学习(Curriculum Learning)、数据课程(data curriculum)指南:从原理到实践
本文深入探讨大语言模型(LLM)训练中的数据课程设计。不同于传统随机打乱数据,文章提出一个指导性的、可操作的数据排序框架,旨在优化LLM训练计算、加速收敛并最大化最终模型性能。通过解构顶级模型的训练配方,报告详细阐述了三阶段预训练计划(基础、注入、精炼)和多阶段后训练课程(SFT、DPO/RLHF),并引入语言学、信息论及模型感知等多种数据难度指标。这种战略性数据调度不仅提升训练效率,更实现从基础语言流畅性到专家级推理能力的飞跃,为技术领导者提供了构建高性能LLM的实战手册。原创 2025-07-07 15:44:09 · 897 阅读 · 0 评论 -
【LLM偏好对齐】ORPO:无需参考模型的整体式偏好优化
探索ORPO:无需参考模型的整体式语言模型偏好优化。这种创新算法将赔率比惩罚项融入监督微调,实现单阶段、更高效的偏好对齐。ORPO在AlpacaEval和MT-Bench等基准测试中表现卓越,显著提升了Phi-2、Llama-2和Mistral等模型的性能,超越了部分参数量更大的模型。了解ORPO如何简化对齐流程并提升模型效果!翻译 2025-05-19 20:28:53 · 151 阅读 · 0 评论 -
一文详解PPO(Proximal Policy Optimization, 近端策略优化算法)
本篇博客将从最基础的强化学习概念讲起,层层引入策略梯度、信任域策略优化(TRPO),最终剖析PPO的创新点与实现细节。然后再结合论文原文内容及一些示例代码,讨论PPO在大模型训练及实际应用(例如机器人控制、游戏、代码生成)的方式和优点。全文采用“先理论后实践”的结构,同时辅以必要的图示和代码,让读者能更清晰地把PPO的原理和实现对接起来。原创 2025-01-17 21:44:12 · 6786 阅读 · 0 评论 -
大型语言模型训练的三个阶段:从预训练到RLHF
大型语言模型的训练可分为三个阶段:预训练、指令微调和基于人类反馈的强化学习(RLHF)。预训练利用大规模文本数据,通过自监督学习,让模型掌握语法、语义等通用语言规律,形成基础模型。指令微调通过人工标注的指令-回答数据,让模型学会执行特定任务,如翻译、问答等。这一阶段采用监督学习提升模型任务能力。RLHF通过用户反馈优化模型,使其生成更符合人类偏好的答案。它借助回馈模型(RewardModel)对答案评分,并通过强化学习方法(如PPO)调整生成策略,提升用户满意度。原创 2025-01-17 21:19:59 · 1452 阅读 · 0 评论 -
用大型语言模型打造 AI Agent
探讨如何利用大型语言模型构建AIAgent,从简单任务到多步规划,AIAgent的核心能力包括感知、计划、执行、反思和工具使用。文章详细介绍了AIAgent的运行机制,并通过冒险助手的案例,展示了AIAgent如何动态应对复杂任务。未来,结合强化学习和长期记忆,AIAgent将在推动通用人工智能(AGI)发展中扮演关键角色。原创 2025-01-17 21:18:16 · 969 阅读 · 0 评论 -
【大模型LoRa微调】Qwen2.5 Coder 指令微调【代码已开源】
本文从零开始介绍了如何对“Qwen2.5Coder32B”模型进行LoRA指令微调,详细展示了环境准备、数据处理、微调步骤、推理与模型保存等流程。通过LoRA微调技术,我们可以在有限的硬件资源下针对特定指令场景(例如代码类问答、代码生成等)快速得到一个表现良好的大模型,而无需修改或更新海量的原始权重。原创 2025-01-17 21:18:02 · 3088 阅读 · 0 评论 -
从“强化学习”到“PPO训练算法”【LLM大语言模型】
本篇博客从基础强化学习概念的介绍,到PPO原理,再到如何用HuggingFaceTRL在大模型上跑PPO,然后结合一个“生成更高效Python代码”的场景示例,还穿插了各种落地细节与踩坑心得。原创 2025-01-18 01:47:46 · 1369 阅读 · 0 评论