自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 从【工具人】到【创作者】,大家好!初次见面,多多关照!

你好哇,我是掘金安东尼,一个走在 AI 编程与技术创作路上的探索者。

2025-07-23 14:01:55 65

原创 如何设计大模型评估任务集?从能力、准确率到可控性全面覆盖

OpenAI 的evals支持插件式自定义 metric scorer,可以接入自己定义的评估逻辑(比如 BERTScore + GPT 评分融合)。能力评估、准确率、可控性,是构建大模型系统化评估的三大支柱。没有任务集的评估只是盲人摸象,只有覆盖了各类任务和风险场景,才能真正为模型上线保驾护航。让模型动起来的 prompt 很重要,但决定它能不能上线的,是你评估它的任务集。

2025-07-23 11:01:09 386

原创 Prompt 测试与调优实战:从 AB 实验到 Prompt Injection 防御

它可以被测试、被攻击、被版本控制,也必须被工程化。掌握 AB 实验、注入防御、鲁棒性评估三套工具,你就能让 Prompt 既聪明又可靠,为 LLM 项目打下坚实的信任基石。如果你正构建一个 LLM 应用,不妨现在就开始——把 Prompt 当作代码一样认真对待,写测试、做回归、跑指标。你会发现,大模型不仅能更聪明地“说话”,还能更稳妥地“执行”。

2025-07-23 10:57:52 212

原创 评估大模型效果的三把标尺:BLEU、ROUGE、BERTScore详解

训练一个语言大模型很难,但评估它到底“好不好”却更难。在模型生成看似流畅、语法无误的输出背后,真正有价值的,是一套能量化“生成质量”的评估指标。今天,我们就来聊聊自然语言生成领域最具代表性的三把标尺:BLEU、ROUGE、BERTScore,探讨它们背后的算法逻辑、适用场景以及彼此的差异。

2025-07-23 10:51:53 187

原创 向量库入门指南:从原理到实际部署

我们以最常见的文本为例。当你用一个嵌入模型(比如)处理一句话时,它会返回一个维度可能是 384、768 或 1536 的向量。这个向量是一个稠密浮点数组,代表了这句话在语义空间里的位置。“年假多少天” → [0.012, -0.345, ..., 0.021]“请问我可以休几天年假” → [0.015, -0.342, ..., 0.025]这两条语句在高维空间中“挨得很近”,所以我们说它们语义相似。给定一个查询向量,快速在几百万甚至亿级数据中找到“最相近”的向量。

2025-07-23 10:50:25 517

原创 构建 LLM 专用语料库的正确姿势:从垃圾堆里炼金子

你会发现,现在真正能训练出“对业务有价值”的模型,不是因为用了多强的框架或参数,而是背后有一套稳固、干净、结构清晰、不断积累的语料资产体系。构建语料,不 glamorous,不炫技,但极具价值。它决定了你模型说话是否靠谱,是否能理解业务场景,是否值得信任。别再幻想哪里有“通用数据包”,也别总想着靠开源数据冲精度。打造你自己的语料库,才是你真正拥有 AI 能力的开始。

2025-07-23 10:05:13 527

原创 打造你自己的 LLM 接入层:Function Calling、Tools、Router 架构全拆解

Function Calling 是 OpenAI 首创的一种接口协议,允许你将函数结构(函数名、参数定义、说明)作为 JSON Schema 传入模型,让模型“主动调用”你提供的函数。Tool 本质是一个受控函数,包含元信息(描述、调用方式、权限)与实际的执行逻辑。静态注册:如 langchain.tools 工具集合动态发现:如插件注册机制(AutoGen / OpenAgents)打造一个好用的 LLM 接入层,不是造轮子,而是为你的 AI 能力打下坚实的工程地基。

2025-07-22 09:06:25 503

原创 OpenAgents vs AutoGen:开源 Agent 框架该怎么选?

OpenAgents 与 AutoGen 的对比,本质上是“插件注册 vs 协作对话”的设计哲学之争。随着 Agent 编排走向通用化、系统化,我们需要的不仅是“更聪明的模型”,而是“更可靠的调度与连接协议”。未来,开源 Agent 系统将像微服务平台一样分层搭建:基础层:LLM + 工具调用能力通信层:函数协议 / 对话协议协调层:调度系统 / 任务规划器应用层:领域 Agent、用户前端、权限管理OpenAgents 与 AutoGen 就是其中两块重要拼图。

2025-07-22 09:03:50 525

原创 DSPy 框架介绍:编程式 Prompt 优化如何提升准确率?

正如 PyTorch 改变了深度学习的开发范式,DSPy 正在推动 Prompt 工程走向编程化、系统化、可优化的新阶段。未来,开发者可能不再“写死提示词”,而是:用函数定义任务(Signature)用编译器优化 Prompt(Compiler)用 Checkers 明确目标(准确率、召回、覆盖)用 Module 组合可重用组件这将把大模型应用推向更严谨、可控、工程化的高度。下一代 Prompt 开发者,值得从 DSPy 开始。

2025-07-22 09:01:33 572

原创 LangChain vs. LlamaIndex:两种数据增强方案的对比分析

随着企业对 LLM 应用需求的加速增长,我们不再满足于“问答对话”,而是要构建真正具备任务执行与知识访问能力的智能体。LangChain 和 LlamaIndex 为我们提供了两种路径:一个偏编排控制与流程调度(LangChain),一个偏知识嵌入与问答聚合(LlamaIndex)。理解两者的定位与差异,将是每一个开发者走向专业 LLM 应用工程师的必经之路。未来,这两套生态也可能逐步融合,形成“应用逻辑 + 数据接口 + 智能调度”一体化平台,成为企业 AI 基础设施的标准组件。

2025-07-22 08:59:25 558

原创 LangChain 入门与项目实战:打造你的第一个 LLM 应用

tools = [Tool(name="double", func=multiply, description="将数字乘以2")]Agent 会自动根据你的提问决定是否调用工具。LangChain 是目前构建 LLM 应用最具生态优势的框架之一,它不仅提供了链式调用抽象,更支持 Memory、Agent、Retrieval 等完整能力栈,让开发者能真正做出“有记忆力、能动手、有知识库”的 AI 系统。

2025-07-22 08:57:08 296

原创 从 RLHF 到 DPO:大模型对齐方法的技术演化路线图

RLHF(Reinforcement Learning with Human Feedback):将人类偏好反馈转化为奖励信号,使用强化学习算法(如 PPO)训练语言模型更贴近人类意图。DPO(Direct Preference Optimization):不通过奖励模型和 RL,直接使用人类偏好对比数据,最小化“模型偏好”与“人类偏好”的差异。演化阶段特征SFT → RLHF从强监督到人类反馈RLHF → DPO从强化学习到直接优化DPO → 多模态偏好优化。

2025-07-20 10:00:00 787

原创 PEFT 框架全解:让你轻松掌控参数高效微调技术

PEFT 是 Hugging Face 推出的统一化参数高效微调框架,通过模块注入而非全参数训练来适配大模型,大大降低计算与存储成本。策略名称简介是否支持量化结合LoRA低秩矩阵插入(最常用)✅QLoRALoRA + 4-bit 量化加载✅(需 bitsandbytes)添加可学习前缀 token✅固定 prompt 向量作为提示✅IA3缩放中间层激活向量✅r=8,target_modules=["q_proj", "v_proj"], # 针对注意力层。

2025-07-20 08:00:00 684

原创 QLoRA:低内存训练的秘诀及 Hugging Face 实战指南

特性QLoRA 优势内存占用💾 降低 60-80%(单卡可训 7B)参数量🧩 少量 LoRA 参数微调成本效益🏆 低至几百元训练一个专业模型部署适配性🤝 与 vLLM 暂不兼容,但可转换为量化格式发布模型权重与训练能力解耦,人人可训大模型。如果你希望获得:自定义数据的 Alpaca 格式转换脚本;将 LoRA 转换为 GPTQ/vLLM 可部署模型的步骤;基于 QLoRA 的多 Adapter 联合部署实战指南;

2025-07-20 07:30:00 496

原创 LoRA 是如何“插管”大模型的?结构、优点与实战指南

特性LoRA微调成本💰 极低参数干预性🎛 精准插入应用弹性🧩 多场景适配模型结构🏗 无需重构与主干融合🔌 插入式、非侵入正如它的名字,LoRA 带来的微调能力,不是替代原有模型,而是在其主干之外“加装外接神经”,完成能力的再训练与定制。在大模型的新时代,LoRA 就是开发者的瑞士军刀。如果你想继续深入了解:如何将多个 LoRA Adapter 部署到线上系统?如何使用 QLoRA 在 1 张消费级 GPU 上训练 LLaMA?如何构建自己的领域数据集做 SFT + LoRA。

2025-07-20 07:00:00 610

原创 大模型微调方法全景图:从 SFT 到 LoRA 再到 DPO

SFT 给了我们初步的能力迁移,LoRA 带来了参数高效的灵活性,而 DPO 正在引领偏好对齐的轻量革命。三者不是彼此排斥,而是层层递进、互为补充。未来的大模型定制能力,很可能就是在这三种范式之间灵活切换的结果。让我们一起拥抱这个时代,把“百模千用”真正落地到产品与服务之中。

2025-07-20 06:30:00 801

原创 构建企业内部知识问答系统:从文档库到问答引擎的完全体

不要直接全文送给模型:成本高、效果差、容易“跑题”拆分文本别太碎:碎太小,检索失效;太大,难对齐问题最好做“文档可视化检索”:能看见引用来源,不做黑盒提前定义文档来源标签与权限:防止员工看到不该看的设立反馈机制:用户点“回答错误”可标记+回溯内容片段当你把公司知识变成“模型可读的结构化片段”,再加上 RAG 和向量搜索,大模型就真的能回答:“报销发票超过多少金额要盖章?“行政审批表在哪下载?“年假能不能跨年?这个时候,它就不再是个“问天气”的玩具,而是你的内部专家型数字员工。

2025-07-19 08:00:00 568

原创 大模型能力地图:Tool Calling、RAG、Agent、插件机制全解析

💡 写代码的人要开始转向“调系统的工程师”了。当你学会组合 Tool + RAG + Agent,你构建的不再是对话,而是一个“自适应任务执行体”。未来的 LLM 应用,就像一个“会听指令的操作系统”。你要做的,是定义它的 API、指令集、工具链。

2025-07-19 07:30:00 500

原创 从 Prompt 到工作流:大模型应用架构的五种范式演进

范式核心能力代表系统优点局限Prompt单轮生成ChatGPT快速试验无状态、不可控RAG知识补全GPT+向量库信息准确、有引用无执行力Agent思考+行动可多步执行、调用工具不易管理、调试Workflow任务编排模块化、高复用初期配置复杂MCP系统集成自研平台、LLMOps构建完整 Copilot 平台高门槛、需工程能力大模型不只是一个会聊天的工具,而是一个可以嵌入系统的智能操作核心。

2025-07-19 06:30:00 599

原创 接力 RAG 的进化:什么是 LLM Agent?如何构建一套“会思考”的任务执行流?

一句话定义:LLM Agent 是具备感知、计划、决策与行动能力的大模型系统,它能根据目标自动拆解任务,调用工具,执行操作,达成目标。思维流程(Planner)身体动作(Tools)长期记忆(Memory)任务指令(Goals)让模型不仅能“想”,还能“做”。明确 Agent 需要达成的具体目标:“整理日报并发邮件”;“自动周报生成并归档”;“监控报表差异并发异常提醒”。然后准备好工具:数据接口/API;文件读写;自动化脚本;向量库+RAG 作为资料支撑。

2025-07-19 06:00:00 985

原创 一文讲透 RAG:大模型为什么需要外部知识库?

RAG 就是让大模型在回答问题前,先从一个外部知识库中检索相关信息,然后结合检索结果生成答案。像不像你考前开小抄?但别急,我们慢慢拆解背后的魔法。RAG 模型可用于构建“增强型搜索引擎”:不返回链接,而是**“有引用来源的回答”**;提升搜索结果的相关性和可读性;像 Perplexity.ai、You.com、Bing Copilot 就是如此。用大白话说:大模型像个聪明但不接地气的学生;RAG 就像是他背后那堆**“教辅资料 + 答题卡”**;

2025-07-18 22:40:09 561

原创 大模型是如何“学会“知识的?揭秘训练过程中的涌现能力

语言模型不是在死记硬背,而是在统计语言分布的过程中,捕捉到了世界运行的某些结构。我们不再是单纯靠编码规则的方式来教机器知识,而是通过“数据驱动 + 大模型”构建出可以不断生长的通用智能体。或许未来的通用人工智能,也正是在这种语言预测中,“自发进化”出来的。

2025-07-18 16:51:00 354

原创 RNN、LSTM 到 Transformer:语言模型的前世今生

本文梳理了语言模型从早期n-gram到现代Transformer的技术演进历程。最初n-gram仅统计词频,无法处理长距离依赖;RNN引入上下文记忆但存在梯度消失问题;LSTM通过门控机制解决长期记忆难题;最终Transformer凭借注意力机制实现全局建模和并行计算,推动了大模型时代到来。文章揭示了每一代技术突破都是为解决前代痛点,从单纯预测词频到真正理解语言,展现了AI对语言本质认知的不断深化。

2025-07-18 16:47:20 508

原创 万字讲解:GPT 的工作原理:自回归预测背后的语言魔法

本文深入解析GPT模型的工作原理,从概率建模到Transformer架构,揭示其语言生成机制。GPT通过自回归模型预测下一个词,利用注意力机制理解上下文,将文本转化为向量表示进行训练。模型通过大规模数据学习语言规律,展现出涌现能力,但也存在幻觉、长文本依赖等局限。随着技术进步,GPT正朝着更长上下文、多模态融合和智能体化方向发展。文章指出,GPT的"魔法"本质上是高效的概率计算,而非真正的理解,但当规模足够大时,这种统计建模能产生接近人类语言的智能表现。

2025-07-18 16:43:02 665

原创 Transformer 结构详解:从 Attention 机制到位置编码

《Transformer架构解析:从基本原理到未来演进》 本文深入剖析了Transformer这一革命性神经网络架构。文章首先回顾了从RNN到Transformer的范式转变,指出其通过全注意力机制彻底改变了序列建模方式。随后详细拆解了Transformer的核心模块:包括Self-Attention的计算原理、多头注意力机制、残差连接与LayerNorm的作用,以及位置编码的两种实现方式。特别分析了Encoder与Decoder的结构差异,并梳理了从原始论文到BERT、GPT等工程优化的演进路径。文章最后

2025-07-18 16:39:36 1256

原创 什么是大模型?为什么它改变了一切?

大模型不是更智能的搜索引擎,它是我们与未来沟通的第一代原语。理解大模型,不只是理解算法,更是理解我们如何与技术世界对话、协作与共生。

2025-07-18 15:48:32 1574

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除