- 博客(15)
- 收藏
- 关注
原创 从 RLHF 到 DPO:大模型对齐方法的技术演化路线图
RLHF(Reinforcement Learning with Human Feedback):将人类偏好反馈转化为奖励信号,使用强化学习算法(如 PPO)训练语言模型更贴近人类意图。DPO(Direct Preference Optimization):不通过奖励模型和 RL,直接使用人类偏好对比数据,最小化“模型偏好”与“人类偏好”的差异。演化阶段特征SFT → RLHF从强监督到人类反馈RLHF → DPO从强化学习到直接优化DPO → 多模态偏好优化。
2025-07-20 10:00:00
151
原创 PEFT 框架全解:让你轻松掌控参数高效微调技术
PEFT 是 Hugging Face 推出的统一化参数高效微调框架,通过模块注入而非全参数训练来适配大模型,大大降低计算与存储成本。策略名称简介是否支持量化结合LoRA低秩矩阵插入(最常用)✅QLoRALoRA + 4-bit 量化加载✅(需 bitsandbytes)添加可学习前缀 token✅固定 prompt 向量作为提示✅IA3缩放中间层激活向量✅r=8,target_modules=["q_proj", "v_proj"], # 针对注意力层。
2025-07-20 08:00:00
292
原创 QLoRA:低内存训练的秘诀及 Hugging Face 实战指南
特性QLoRA 优势内存占用💾 降低 60-80%(单卡可训 7B)参数量🧩 少量 LoRA 参数微调成本效益🏆 低至几百元训练一个专业模型部署适配性🤝 与 vLLM 暂不兼容,但可转换为量化格式发布模型权重与训练能力解耦,人人可训大模型。如果你希望获得:自定义数据的 Alpaca 格式转换脚本;将 LoRA 转换为 GPTQ/vLLM 可部署模型的步骤;基于 QLoRA 的多 Adapter 联合部署实战指南;
2025-07-20 07:30:00
220
原创 LoRA 是如何“插管”大模型的?结构、优点与实战指南
特性LoRA微调成本💰 极低参数干预性🎛 精准插入应用弹性🧩 多场景适配模型结构🏗 无需重构与主干融合🔌 插入式、非侵入正如它的名字,LoRA 带来的微调能力,不是替代原有模型,而是在其主干之外“加装外接神经”,完成能力的再训练与定制。在大模型的新时代,LoRA 就是开发者的瑞士军刀。如果你想继续深入了解:如何将多个 LoRA Adapter 部署到线上系统?如何使用 QLoRA 在 1 张消费级 GPU 上训练 LLaMA?如何构建自己的领域数据集做 SFT + LoRA。
2025-07-20 07:00:00
285
原创 大模型微调方法全景图:从 SFT 到 LoRA 再到 DPO
SFT 给了我们初步的能力迁移,LoRA 带来了参数高效的灵活性,而 DPO 正在引领偏好对齐的轻量革命。三者不是彼此排斥,而是层层递进、互为补充。未来的大模型定制能力,很可能就是在这三种范式之间灵活切换的结果。让我们一起拥抱这个时代,把“百模千用”真正落地到产品与服务之中。
2025-07-20 06:30:00
352
原创 构建企业内部知识问答系统:从文档库到问答引擎的完全体
不要直接全文送给模型:成本高、效果差、容易“跑题”拆分文本别太碎:碎太小,检索失效;太大,难对齐问题最好做“文档可视化检索”:能看见引用来源,不做黑盒提前定义文档来源标签与权限:防止员工看到不该看的设立反馈机制:用户点“回答错误”可标记+回溯内容片段当你把公司知识变成“模型可读的结构化片段”,再加上 RAG 和向量搜索,大模型就真的能回答:“报销发票超过多少金额要盖章?“行政审批表在哪下载?“年假能不能跨年?这个时候,它就不再是个“问天气”的玩具,而是你的内部专家型数字员工。
2025-07-19 08:00:00
358
原创 大模型能力地图:Tool Calling、RAG、Agent、插件机制全解析
💡 写代码的人要开始转向“调系统的工程师”了。当你学会组合 Tool + RAG + Agent,你构建的不再是对话,而是一个“自适应任务执行体”。未来的 LLM 应用,就像一个“会听指令的操作系统”。你要做的,是定义它的 API、指令集、工具链。
2025-07-19 07:30:00
333
原创 从 Prompt 到工作流:大模型应用架构的五种范式演进
范式核心能力代表系统优点局限Prompt单轮生成ChatGPT快速试验无状态、不可控RAG知识补全GPT+向量库信息准确、有引用无执行力Agent思考+行动可多步执行、调用工具不易管理、调试Workflow任务编排模块化、高复用初期配置复杂MCP系统集成自研平台、LLMOps构建完整 Copilot 平台高门槛、需工程能力大模型不只是一个会聊天的工具,而是一个可以嵌入系统的智能操作核心。
2025-07-19 06:30:00
309
原创 接力 RAG 的进化:什么是 LLM Agent?如何构建一套“会思考”的任务执行流?
一句话定义:LLM Agent 是具备感知、计划、决策与行动能力的大模型系统,它能根据目标自动拆解任务,调用工具,执行操作,达成目标。思维流程(Planner)身体动作(Tools)长期记忆(Memory)任务指令(Goals)让模型不仅能“想”,还能“做”。明确 Agent 需要达成的具体目标:“整理日报并发邮件”;“自动周报生成并归档”;“监控报表差异并发异常提醒”。然后准备好工具:数据接口/API;文件读写;自动化脚本;向量库+RAG 作为资料支撑。
2025-07-19 06:00:00
602
原创 一文讲透 RAG:大模型为什么需要外部知识库?
RAG 就是让大模型在回答问题前,先从一个外部知识库中检索相关信息,然后结合检索结果生成答案。像不像你考前开小抄?但别急,我们慢慢拆解背后的魔法。RAG 模型可用于构建“增强型搜索引擎”:不返回链接,而是**“有引用来源的回答”**;提升搜索结果的相关性和可读性;像 Perplexity.ai、You.com、Bing Copilot 就是如此。用大白话说:大模型像个聪明但不接地气的学生;RAG 就像是他背后那堆**“教辅资料 + 答题卡”**;
2025-07-18 22:40:09
457
原创 大模型是如何“学会“知识的?揭秘训练过程中的涌现能力
语言模型不是在死记硬背,而是在统计语言分布的过程中,捕捉到了世界运行的某些结构。我们不再是单纯靠编码规则的方式来教机器知识,而是通过“数据驱动 + 大模型”构建出可以不断生长的通用智能体。或许未来的通用人工智能,也正是在这种语言预测中,“自发进化”出来的。
2025-07-18 16:51:00
240
原创 RNN、LSTM 到 Transformer:语言模型的前世今生
本文梳理了语言模型从早期n-gram到现代Transformer的技术演进历程。最初n-gram仅统计词频,无法处理长距离依赖;RNN引入上下文记忆但存在梯度消失问题;LSTM通过门控机制解决长期记忆难题;最终Transformer凭借注意力机制实现全局建模和并行计算,推动了大模型时代到来。文章揭示了每一代技术突破都是为解决前代痛点,从单纯预测词频到真正理解语言,展现了AI对语言本质认知的不断深化。
2025-07-18 16:47:20
452
原创 万字讲解:GPT 的工作原理:自回归预测背后的语言魔法
本文深入解析GPT模型的工作原理,从概率建模到Transformer架构,揭示其语言生成机制。GPT通过自回归模型预测下一个词,利用注意力机制理解上下文,将文本转化为向量表示进行训练。模型通过大规模数据学习语言规律,展现出涌现能力,但也存在幻觉、长文本依赖等局限。随着技术进步,GPT正朝着更长上下文、多模态融合和智能体化方向发展。文章指出,GPT的"魔法"本质上是高效的概率计算,而非真正的理解,但当规模足够大时,这种统计建模能产生接近人类语言的智能表现。
2025-07-18 16:43:02
476
原创 Transformer 结构详解:从 Attention 机制到位置编码
《Transformer架构解析:从基本原理到未来演进》 本文深入剖析了Transformer这一革命性神经网络架构。文章首先回顾了从RNN到Transformer的范式转变,指出其通过全注意力机制彻底改变了序列建模方式。随后详细拆解了Transformer的核心模块:包括Self-Attention的计算原理、多头注意力机制、残差连接与LayerNorm的作用,以及位置编码的两种实现方式。特别分析了Encoder与Decoder的结构差异,并梳理了从原始论文到BERT、GPT等工程优化的演进路径。文章最后
2025-07-18 16:39:36
595
原创 什么是大模型?为什么它改变了一切?
大模型不是更智能的搜索引擎,它是我们与未来沟通的第一代原语。理解大模型,不只是理解算法,更是理解我们如何与技术世界对话、协作与共生。
2025-07-18 15:48:32
1016
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人