代码AI弗森-CSDN博客

原创从【工具人】到【创作者】，大家好！初次见面，多多关照！

你好哇，我是掘金安东尼，一个走在 AI 编程与技术创作路上的探索者。

2025-07-23 14:01:55 65

原创如何设计大模型评估任务集？从能力、准确率到可控性全面覆盖

OpenAI 的evals支持插件式自定义 metric scorer，可以接入自己定义的评估逻辑（比如 BERTScore + GPT 评分融合）。能力评估、准确率、可控性，是构建大模型系统化评估的三大支柱。没有任务集的评估只是盲人摸象，只有覆盖了各类任务和风险场景，才能真正为模型上线保驾护航。让模型动起来的 prompt 很重要，但决定它能不能上线的，是你评估它的任务集。

2025-07-23 11:01:09 386

原创 Prompt 测试与调优实战：从 AB 实验到 Prompt Injection 防御

它可以被测试、被攻击、被版本控制，也必须被工程化。掌握 AB 实验、注入防御、鲁棒性评估三套工具，你就能让 Prompt 既聪明又可靠，为 LLM 项目打下坚实的信任基石。如果你正构建一个 LLM 应用，不妨现在就开始——把 Prompt 当作代码一样认真对待，写测试、做回归、跑指标。你会发现，大模型不仅能更聪明地“说话”，还能更稳妥地“执行”。

2025-07-23 10:57:52 212

原创评估大模型效果的三把标尺：BLEU、ROUGE、BERTScore详解

训练一个语言大模型很难，但评估它到底“好不好”却更难。在模型生成看似流畅、语法无误的输出背后，真正有价值的，是一套能量化“生成质量”的评估指标。今天，我们就来聊聊自然语言生成领域最具代表性的三把标尺：BLEU、ROUGE、BERTScore，探讨它们背后的算法逻辑、适用场景以及彼此的差异。

2025-07-23 10:51:53 187

我们以最常见的文本为例。当你用一个嵌入模型（比如）处理一句话时，它会返回一个维度可能是 384、768 或 1536 的向量。这个向量是一个稠密浮点数组，代表了这句话在语义空间里的位置。“年假多少天” → [0.012, -0.345, ..., 0.021]“请问我可以休几天年假” → [0.015, -0.342, ..., 0.025]这两条语句在高维空间中“挨得很近”，所以我们说它们语义相似。给定一个查询向量，快速在几百万甚至亿级数据中找到“最相近”的向量。

2025-07-23 10:50:25 517

原创构建 LLM 专用语料库的正确姿势：从垃圾堆里炼金子

你会发现，现在真正能训练出“对业务有价值”的模型，不是因为用了多强的框架或参数，而是背后有一套稳固、干净、结构清晰、不断积累的语料资产体系。构建语料，不 glamorous，不炫技，但极具价值。它决定了你模型说话是否靠谱，是否能理解业务场景，是否值得信任。别再幻想哪里有“通用数据包”，也别总想着靠开源数据冲精度。打造你自己的语料库，才是你真正拥有 AI 能力的开始。

2025-07-23 10:05:13 527

原创打造你自己的 LLM 接入层：Function Calling、Tools、Router 架构全拆解

Function Calling 是 OpenAI 首创的一种接口协议，允许你将函数结构（函数名、参数定义、说明）作为 JSON Schema 传入模型，让模型“主动调用”你提供的函数。Tool 本质是一个受控函数，包含元信息（描述、调用方式、权限）与实际的执行逻辑。静态注册：如 langchain.tools 工具集合动态发现：如插件注册机制（AutoGen / OpenAgents）打造一个好用的 LLM 接入层，不是造轮子，而是为你的 AI 能力打下坚实的工程地基。

2025-07-22 09:06:25 503

原创 OpenAgents vs AutoGen：开源 Agent 框架该怎么选？

OpenAgents 与 AutoGen 的对比，本质上是“插件注册 vs 协作对话”的设计哲学之争。随着 Agent 编排走向通用化、系统化，我们需要的不仅是“更聪明的模型”，而是“更可靠的调度与连接协议”。未来，开源 Agent 系统将像微服务平台一样分层搭建：基础层：LLM + 工具调用能力通信层：函数协议 / 对话协议协调层：调度系统 / 任务规划器应用层：领域 Agent、用户前端、权限管理OpenAgents 与 AutoGen 就是其中两块重要拼图。

2025-07-22 09:03:50 525

原创 DSPy 框架介绍：编程式 Prompt 优化如何提升准确率？

正如 PyTorch 改变了深度学习的开发范式，DSPy 正在推动 Prompt 工程走向编程化、系统化、可优化的新阶段。未来，开发者可能不再“写死提示词”，而是：用函数定义任务（Signature）用编译器优化 Prompt（Compiler）用 Checkers 明确目标（准确率、召回、覆盖）用 Module 组合可重用组件这将把大模型应用推向更严谨、可控、工程化的高度。下一代 Prompt 开发者，值得从 DSPy 开始。

2025-07-22 09:01:33 572

原创 LangChain vs. LlamaIndex：两种数据增强方案的对比分析

随着企业对 LLM 应用需求的加速增长，我们不再满足于“问答对话”，而是要构建真正具备任务执行与知识访问能力的智能体。LangChain 和 LlamaIndex 为我们提供了两种路径：一个偏编排控制与流程调度（LangChain），一个偏知识嵌入与问答聚合（LlamaIndex）。理解两者的定位与差异，将是每一个开发者走向专业 LLM 应用工程师的必经之路。未来，这两套生态也可能逐步融合，形成“应用逻辑 + 数据接口 + 智能调度”一体化平台，成为企业 AI 基础设施的标准组件。

2025-07-22 08:59:25 558

原创 LangChain 入门与项目实战：打造你的第一个 LLM 应用

tools = [Tool(name="double", func=multiply, description="将数字乘以2")]Agent 会自动根据你的提问决定是否调用工具。LangChain 是目前构建 LLM 应用最具生态优势的框架之一，它不仅提供了链式调用抽象，更支持 Memory、Agent、Retrieval 等完整能力栈，让开发者能真正做出“有记忆力、能动手、有知识库”的 AI 系统。

2025-07-22 08:57:08 296

原创从 RLHF 到 DPO：大模型对齐方法的技术演化路线图

RLHF（Reinforcement Learning with Human Feedback）：将人类偏好反馈转化为奖励信号，使用强化学习算法（如 PPO）训练语言模型更贴近人类意图。DPO（Direct Preference Optimization）：不通过奖励模型和 RL，直接使用人类偏好对比数据，最小化“模型偏好”与“人类偏好”的差异。演化阶段特征SFT → RLHF从强监督到人类反馈RLHF → DPO从强化学习到直接优化DPO → 多模态偏好优化。

2025-07-20 10:00:00 787

原创 PEFT 框架全解：让你轻松掌控参数高效微调技术

PEFT 是 Hugging Face 推出的统一化参数高效微调框架，通过模块注入而非全参数训练来适配大模型，大大降低计算与存储成本。策略名称简介是否支持量化结合LoRA低秩矩阵插入（最常用）✅QLoRALoRA + 4-bit 量化加载✅（需 bitsandbytes）添加可学习前缀 token✅固定 prompt 向量作为提示✅IA3缩放中间层激活向量✅r=8,target_modules=["q_proj", "v_proj"], # 针对注意力层。

2025-07-20 08:00:00 684

原创 QLoRA：低内存训练的秘诀及 Hugging Face 实战指南

特性QLoRA 优势内存占用💾 降低 60-80%（单卡可训 7B）参数量🧩 少量 LoRA 参数微调成本效益🏆 低至几百元训练一个专业模型部署适配性🤝 与 vLLM 暂不兼容，但可转换为量化格式发布模型权重与训练能力解耦，人人可训大模型。如果你希望获得：自定义数据的 Alpaca 格式转换脚本；将 LoRA 转换为 GPTQ/vLLM 可部署模型的步骤；基于 QLoRA 的多 Adapter 联合部署实战指南；

2025-07-20 07:30:00 496

原创 LoRA 是如何“插管”大模型的？结构、优点与实战指南

特性LoRA微调成本💰 极低参数干预性🎛 精准插入应用弹性🧩 多场景适配模型结构🏗 无需重构与主干融合🔌 插入式、非侵入正如它的名字，LoRA 带来的微调能力，不是替代原有模型，而是在其主干之外“加装外接神经”，完成能力的再训练与定制。在大模型的新时代，LoRA 就是开发者的瑞士军刀。如果你想继续深入了解：如何将多个 LoRA Adapter 部署到线上系统？如何使用 QLoRA 在 1 张消费级 GPU 上训练 LLaMA？如何构建自己的领域数据集做 SFT + LoRA。

2025-07-20 07:00:00 610

原创大模型微调方法全景图：从 SFT 到 LoRA 再到 DPO

SFT 给了我们初步的能力迁移，LoRA 带来了参数高效的灵活性，而 DPO 正在引领偏好对齐的轻量革命。三者不是彼此排斥，而是层层递进、互为补充。未来的大模型定制能力，很可能就是在这三种范式之间灵活切换的结果。让我们一起拥抱这个时代，把“百模千用”真正落地到产品与服务之中。

2025-07-20 06:30:00 801

原创构建企业内部知识问答系统：从文档库到问答引擎的完全体

不要直接全文送给模型：成本高、效果差、容易“跑题”拆分文本别太碎：碎太小，检索失效；太大，难对齐问题最好做“文档可视化检索”：能看见引用来源，不做黑盒提前定义文档来源标签与权限：防止员工看到不该看的设立反馈机制：用户点“回答错误”可标记+回溯内容片段当你把公司知识变成“模型可读的结构化片段”，再加上 RAG 和向量搜索，大模型就真的能回答：“报销发票超过多少金额要盖章？“行政审批表在哪下载？“年假能不能跨年？这个时候，它就不再是个“问天气”的玩具，而是你的内部专家型数字员工。

2025-07-19 08:00:00 568

原创大模型能力地图：Tool Calling、RAG、Agent、插件机制全解析

💡 写代码的人要开始转向“调系统的工程师”了。当你学会组合 Tool + RAG + Agent，你构建的不再是对话，而是一个“自适应任务执行体”。未来的 LLM 应用，就像一个“会听指令的操作系统”。你要做的，是定义它的 API、指令集、工具链。

2025-07-19 07:30:00 500

原创从 Prompt 到工作流：大模型应用架构的五种范式演进

范式核心能力代表系统优点局限Prompt单轮生成ChatGPT快速试验无状态、不可控RAG知识补全GPT+向量库信息准确、有引用无执行力Agent思考+行动可多步执行、调用工具不易管理、调试Workflow任务编排模块化、高复用初期配置复杂MCP系统集成自研平台、LLMOps构建完整 Copilot 平台高门槛、需工程能力大模型不只是一个会聊天的工具，而是一个可以嵌入系统的智能操作核心。

2025-07-19 06:30:00 599

原创接力 RAG 的进化：什么是 LLM Agent？如何构建一套“会思考”的任务执行流？

一句话定义：LLM Agent 是具备感知、计划、决策与行动能力的大模型系统，它能根据目标自动拆解任务，调用工具，执行操作，达成目标。思维流程（Planner）身体动作（Tools）长期记忆（Memory）任务指令（Goals）让模型不仅能“想”，还能“做”。明确 Agent 需要达成的具体目标：“整理日报并发邮件”；“自动周报生成并归档”；“监控报表差异并发异常提醒”。然后准备好工具：数据接口/API；文件读写；自动化脚本；向量库+RAG 作为资料支撑。

2025-07-19 06:00:00 985

原创一文讲透 RAG：大模型为什么需要外部知识库？

RAG 就是让大模型在回答问题前，先从一个外部知识库中检索相关信息，然后结合检索结果生成答案。像不像你考前开小抄？但别急，我们慢慢拆解背后的魔法。RAG 模型可用于构建“增强型搜索引擎”：不返回链接，而是**“有引用来源的回答”**；提升搜索结果的相关性和可读性；像 Perplexity.ai、You.com、Bing Copilot 就是如此。用大白话说：大模型像个聪明但不接地气的学生；RAG 就像是他背后那堆**“教辅资料 + 答题卡”**；

2025-07-18 22:40:09 561

原创大模型是如何“学会“知识的？揭秘训练过程中的涌现能力

语言模型不是在死记硬背，而是在统计语言分布的过程中，捕捉到了世界运行的某些结构。我们不再是单纯靠编码规则的方式来教机器知识，而是通过“数据驱动 + 大模型”构建出可以不断生长的通用智能体。或许未来的通用人工智能，也正是在这种语言预测中，“自发进化”出来的。

2025-07-18 16:51:00 354

原创 RNN、LSTM 到 Transformer：语言模型的前世今生

本文梳理了语言模型从早期n-gram到现代Transformer的技术演进历程。最初n-gram仅统计词频，无法处理长距离依赖；RNN引入上下文记忆但存在梯度消失问题；LSTM通过门控机制解决长期记忆难题；最终Transformer凭借注意力机制实现全局建模和并行计算，推动了大模型时代到来。文章揭示了每一代技术突破都是为解决前代痛点，从单纯预测词频到真正理解语言，展现了AI对语言本质认知的不断深化。

2025-07-18 16:47:20 508

原创万字讲解：GPT 的工作原理：自回归预测背后的语言魔法

本文深入解析GPT模型的工作原理，从概率建模到Transformer架构，揭示其语言生成机制。GPT通过自回归模型预测下一个词，利用注意力机制理解上下文，将文本转化为向量表示进行训练。模型通过大规模数据学习语言规律，展现出涌现能力，但也存在幻觉、长文本依赖等局限。随着技术进步，GPT正朝着更长上下文、多模态融合和智能体化方向发展。文章指出，GPT的"魔法"本质上是高效的概率计算，而非真正的理解，但当规模足够大时，这种统计建模能产生接近人类语言的智能表现。

2025-07-18 16:43:02 665

原创 Transformer 结构详解：从 Attention 机制到位置编码

《Transformer架构解析：从基本原理到未来演进》本文深入剖析了Transformer这一革命性神经网络架构。文章首先回顾了从RNN到Transformer的范式转变，指出其通过全注意力机制彻底改变了序列建模方式。随后详细拆解了Transformer的核心模块：包括Self-Attention的计算原理、多头注意力机制、残差连接与LayerNorm的作用，以及位置编码的两种实现方式。特别分析了Encoder与Decoder的结构差异，并梳理了从原始论文到BERT、GPT等工程优化的演进路径。文章最后

2025-07-18 16:39:36 1256

原创什么是大模型？为什么它改变了一切？

大模型不是更智能的搜索引擎，它是我们与未来沟通的第一代原语。理解大模型，不只是理解算法，更是理解我们如何与技术世界对话、协作与共生。

2025-07-18 15:48:32 1574

aifs2025的博客