大模型之路-CSDN博客

原创从Ollama到vLLM：为高吞吐量LLM服务寻找稳定性

Ollama的便捷性适合快速验证想法，但vLLM的稳定性才是生产环境的基石。对于需要高吞吐量LLM服务的团队来说，放弃一点部署便捷性，换取可预测的性能和可控的成本，无疑是笔划算的交易。当然，技术选型没有银弹——如果你的需求是快速切换多种模型做实验，Ollama依然值得考虑；但如果追求的是GraphRAG这类重度应用的长期稳定，vLLM的陡峭学习曲线终将转化为实实在在的收益。

2025-07-19 08:15:00 215

原创你需要了解的 AI 智能体设计模式

这四种设计模式——反思模式、工具使用模式、规划模式和多智能体协作模式——是构建 AI 智能体的基础，它们不仅能让智能体变得聪明，还能使其具备适应性、高效性，并有能力应对现实世界的复杂问题。

2025-07-18 14:45:47 545

原创 Agentic Memory：解析AI智能体的多种记忆类型

智能体记忆是AI智能体实现智能化、个性化和持续进化的核心支撑。情景记忆让智能体“记得过去”，能够从历史交互中学习；语义记忆让智能体“懂得知识”，能够提供准确全面的答案；程序记忆让智能体“知道规矩”，能够安全合规地运作；短期记忆让智能体“专注当下”，能够动态处理即时任务。

2025-07-18 14:44:29 437

原创上下文工程：决定大语言模型应用成败的关键AI技能

上下文工程是优化AI代理性能的一种变革性方法，它使LLM能够精确而高效地处理复杂任务。通过掌握编写、选择、压缩和隔离上下文的策略，开发人员可以确保AI代理在其上下文窗口的约束范围内运行，同时提供准确且相关的响应。理解并缓解诸如污染、分心、混淆和冲突等上下文失效问题，进一步提高了AI的可靠性。

2025-07-18 14:43:27 589

原创长上下文在大语言模型检索增强生成（RAG）中的作用：全面综述

长上下文能力正在重塑RAG系统的边界，从“碎片化信息拼接”走向“全量知识整合”。它解决了传统RAG的核心痛点，使LLMs能够在复杂任务中发挥更大价值，但同时也带来了注意力稀释、效率下降等新挑战。通过提示工程优化、检索策略创新与模型技术突破，这些挑战正逐步得到缓解。

2025-07-15 08:15:00 2008

原创大语言模型提示词技术：CoT、ReAct与DSP详解

CoT、ReAct和DSP作为提示词工程的核心技术，正在重塑人类与大语言模型的协作方式。它们不仅提升了模型处理复杂任务的能力，更通过结构化的推理与交互，增强了AI系统的可靠性与可解释性——这正是迈向可信AI的关键一步。

2025-07-14 08:15:00 1293

原创智能分块助力更智能的RAG：2025年的方法与工具

数据分块是2025年高效RAG系统的支柱，使LLMs能够高效地处理和检索信息。LangChain和LlamaIndex等工具提供了一系列分块策略，从简单的固定大小拆分到先进的语义和智能体方法。

2025-07-13 08:15:00 866

原创基准测试检索增强生成（RAG）管道：指标、挑战与洞见

RAG系统为企业提供了一种强大的工具，能够生成准确、有依据的实时答案，但要确保其性能，必须进行全面、系统的评估。通过明确评估的部分和指标，正视评估过程中面临的挑战，并从中获取有价值的洞见，开发者可以不断优化RAG管道，提高系统的可靠性、准确性和实用性。

2025-07-12 08:15:00 972 1

原创从API视角解析MCP的演进历程

从API到MCP的演进，印证了技术发展的连续性。当我们剥开"智能代理"的新概念外衣，会发现其核心仍是输入输出的交互逻辑、标准化的接口设计与分布式系统的协作需求——这些正是API领域深耕多年的课题。MCP作为连接大语言模型与外部世界的桥梁，其发展轨迹既受限于技术可能性，也受惠于API积累的历史经验。

2025-07-11 08:15:00 996

原创如何评估并找到适合RAG的最佳嵌入模型——基于Ground Truth的方法

总之，评估嵌入模型时，需综合考虑准确率、延迟、模型大小以及实际业务场景的特点，通过Ground Truth方法科学对比，才能选出最适合特定RAG系统的嵌入模型，为后续生成器的高效工作奠定基础。

2025-07-10 08:15:00 732

原创检索增强生成（RAG）的设计原理与架构解析

检索增强生成（RAG）通过将外部知识检索与内部模型推理解耦，开创了"可扩展、可更新、可验证"的AI新范式。从企业知识管理到智能客服，从科研辅助到实时问答，RAG正在重塑各类知识密集型应用。随着Graph RAG、Agentic RAG等新技术的发展，RAG系统正从简单的"检索-生成"工具，进化为具备自主决策、多模态理解、复杂推理能力的智能助手。

2025-07-09 09:20:11 796

智能体 AI 框架的快速演进为开发者带来了丰富的技术选择，同时也提出了更高的选型挑战。LangGraph 以其成熟的生态和全面的功能成为复杂工作流的首选，CrewAI 用角色化设计降低了多智能体协作的门槛，LlamaIndex Workflows 则为 RAG 应用树立了新的技术标杆。微软系框架（AutoGen、Semantic Kernel、TaskWeaver）凭借企业级能力在特定领域占据优势，Haystack Agents 则为生产级部署提供了坚实保障。

2025-07-07 08:15:00 784

原创智能检索+图技术：Neo4j、Kùzu 与代理式 RAG 的崛起

从AlphaGo的模式识别到GPT的语言生成，AI的发展始终围绕着"如何让机器更好地理解世界"。Graph RAG与智能代理的出现，标志着AI正从"统计学习"向"知识推理"迈进——通过将显式知识图谱与隐式语言模型结合，我们正在构建既能"知其然"又能"知其所以然"的智能系统。

2025-07-06 08:15:00 1891

原创 DeepResearch Agent：系统考察与发展路径综述

深度研究智能体通过技术整合与范式创新，正在重塑知识生产方式。从信息获取的动态双轨制，到推理决策的多模态融合；从工业应用的场景落地，到评估体系的不断完善，DR技术已超越传统工具范畴，成为智能研究的基础设施。尽管面临数据获取壁垒、推理深度不足、评估体系滞后等挑战，但随着AI原生浏览器、自我进化架构等技术突破，DR智能体终将实现从"辅助研究"到"协同发现"的跨越，为科学探索与产业创新注入新的动力。

2025-07-05 08:15:00 730 1

原创从RAG到Agentic RAG：构建更智能的检索增强系统

Agentic RAG的出现标志着检索增强技术从"被动工具"向"主动智能体"的关键跨越。它不再仅是LLM的"外挂知识库"，而是具备认知、判断和优化能力的智能系统——如同一位经验丰富的研究员，能根据问题特性动态调整检索策略，像人类一样在"思考-查询-反思"的循环中逼近正确答案。

2025-07-04 08:15:00 1209

原创 2025年软件开发者必备的10大AI智能体框架全解析

从LangChain的模块化设计到MetaGPT的软件开发自动化，从Rasa的专业对话能力到Camel-AI的跨模态协作，2025年的AI智能体框架已形成丰富的技术生态。对于开发者而言，这些框架不仅是工具，更是构建智能应用的基础设施——它们降低了AI开发的技术门槛，拓展了可能性边界。

2025-07-03 08:15:00 1225

原创为什么大多数 AI 代理在生产中失败（以及如何构建不会失败的 AI 代理）

AI智能体的生产化落地，是一场从"实验室艺术"到"工业级工程"的艰难跃迁。那些折戟沉沙的项目，往往败于对生产环境复杂性的低估，败于对工程化能力的忽视。而那些屹立不倒的智能体，无不是在扎实的工程基础上，构建了"稳定可靠、知识赋能、架构清晰、持续进化"的核心能力

2025-07-02 08:15:00 859

原创意图驱动的自然语言接口：混合LLM与意图分类方法

我们展示了一种混合系统，该系统将语义搜索（通过嵌入+FAISS）与为数据洁净室环境量身定制的安全SQL生成相结合。通过将SQL生成基于模式和意图模板，并仅在必要时回退到LLM，该架构在表达能力和安全性之间取得了实际平衡。

2025-07-01 08:15:00 1371

原创选择合适的大语言模型：Llama、Mistral 与 DeepSeek 全面对比

从技术演进看，2025年的开源LLM已突破"参数竞赛"的初级阶段，转而在效率优化、领域专精和生态建设上展开竞争。Llama-3-8B的通用性、Mistral 7B的高效性、DeepSeek 8B的专业性，分别代表了当前开源模型的三大发展路径。对于技术决策者而言，理解这些模型的底层设计逻辑与适用场景，比单纯比较基准分数更具实际意义。

2025-06-30 08:15:00 786 1

原创突破内存壁垒：使用vLLM实现分布式推理

从固定大小分块到语义感知分块，从单一GPU推理到分布式张量并行，大型语言模型的发展始终伴随着对内存限制的突破和推理效率的追求。vLLM作为这一领域的先锋，通过PagedAttention、分布式张量并行和高效的算子优化，为我们提供了突破内存壁垒的强大工具。

2025-06-29 08:15:00 1410

原创探索谷歌Agent开发工具包（ADK）：从技术架构到应用生态的全面解析（含code）

谷歌Agent开发工具包（ADK）的推出，标志着智能体技术从理论研究走向大规模工程应用的转折点。它不仅提供了一套完整的智能体开发工具链，更通过模块化架构和开放生态，降低了复杂智能系统的开发门槛。

2025-06-28 08:15:00 1531

原创面向RAG与LLM的分块策略权威指南：从基础原理到高级实践

从固定大小分块的简单性，到语义分块的细微差别，再到层次结构的系统性，分块技术塑造了知识呈现给模型的方式。选择的策略将决定系统是精确检索还是泛泛而谈，是生成有根有据的见解还是自信的幻觉。

2025-06-27 08:15:00 2013

原创 C2A 编排平台：构建可控可定制的智能体协同生态

C2A编排平台通过标准化框架、模块化设计和先进的数据管理技术，成功解决了多智能体协同中的互操作性和可控性难题，为构建复杂AI系统提供了可复用的“操作系统级”解决方案。其核心价值不仅在于技术层面的创新（如动态记忆链接、领域特定委托），更在于通过协同机制释放了智能体的集体效能——单个智能体的“专项技能”通过平台升维为整个网络的“群体智慧”。

2025-06-26 08:15:00 760

原创人工智能通信协议的对比：MCP、ACP与A2A

MCP、ACP和A2A并非竞争关系，而是互补的技术方案，分别服务于模型能力扩展与代理间对等协作这两个不同的架构层。MCP是模型连接外部世界的“接口层”，ACP和A2A则是代理构建智能生态的“社交层”。开发者在选型时，需深入分析系统的架构目标（集中式vs分布式）、交互模式（工具调用vs代理对话）、数据特性（结构化vs非结构化）及团队技术栈等因素，避免因“错层使用”导致性能瓶颈或功能缺失。

2025-06-25 08:15:00 881

原创大型多模态智能体与多智能体系统：对比分析

大型多模态智能体与多智能体系统代表了AI发展的两条核心路径——前者通过单一实体的多维度能力突破，实现对复杂世界的综合理解；后者借助分布式智能的协作优势，解决单体难以处理的大规模问题。两者并非对立，而是在技术互补与架构融合中走向共生：LMA为MAS的智能体赋予更强的环境理解能力，MAS为LMA的应用拓展提供群体协作框架。

2025-06-24 08:15:00 949

原创探索Agno——构建智能体系统的全栈Python框架

Agno作为一个全面的智能体框架，通过模块化设计和丰富的功能组件，降低了构建复杂智能体系统的门槛。从单个智能体的快速原型到多智能体团队的复杂协作，从本地开发到生产级部署，Agno提供了全生命周期的支持。

2025-06-23 08:15:00 1654

原创 Infinite Context：用工程化方案破解AI记忆挑战困境

Infinite Context的实践表明，AI记忆问题的突破不在于算法的玄学创新，而在于工程化思维的巧妙应用。通过将记忆流程解耦为"快速摄入-异步处理-智能检索"的流水线，系统实现了从理论概念到生产可用的跨越。

2025-06-22 08:15:00 897

原创 LLM面试 50 问终极指南：掌握核心知识，攻克下一场面试

LLM面试 50 问终极指南：掌握核心知识，攻克下一场面试

2025-06-21 08:15:00 637

原创 Meta, Google & NVIDIA的里程碑研究：大语言模型何时停止记忆并开始泛化

Meta、Google和NVIDIA的这项里程碑研究，为我们打开了一扇深入了解LLMs记忆与泛化能力的大门。它不仅解决了长期以来困扰学界和业界的难题，更为未来AI技术的发展指明了方向。相信在这一研究成果的基础上，我们能够开发出更加智能、高效、安全的人工智能系统，为人类社会的发展带来更多的福祉。

2025-06-20 08:15:00 900

原创 GraphRAG系统：利用LangChain、Gemini和Neo4j构建智能文档检索与生成解决方案

GraphRAG系统：利用LangChain、Gemini和Neo4j构建智能文档检索与生成解决方案

2025-06-19 08:15:00 884

原创 Agent Memory：智能体应用中被低估的超级能力

严格来说，记忆并非智能体的必需组件，但在几乎所有智能体应用中，长时记忆都是“零后悔”的升级选择。它不仅能让智能体记住用户偏好和历史交互，还能构建更连贯的对话体验，使AI从“一次性交互工具”进化为“持续学习的智能伙伴”。在智能体应用爆发的2025年，记忆能力将成为区分平庸与卓越智能体的关键超级能力。

2025-06-18 08:15:00 1321

原创如何使用LangGraph在AI应用中动态路由查询（结合RAG与LLMs）

通过LangGraph实现的动态路由机制，AI应用得以摆脱“一刀切”的处理模式，根据用户查询的语义、上下文和业务需求，动态选择最优处理路径。这种能力不仅提升了系统的响应效率和准确性，更赋予AI应用可扩展的“智慧中枢”——无论是结合RAG处理专业数据，还是通过LLM实现自然交互，LangGraph都为开发者提供了灵活且强大的编排工具。

2025-06-17 08:15:00 850

原创 AI Agent架构：基于A2A与MCP协议的技术整合与实践探索

AI Agent架构的核心竞争力在于标准化带来的规模化协作能力。通过A2A与MCP协议，不同厂商的AI模型、工具与资源得以在统一框架下协同工作，形成从数据输入、任务分解到执行落地的完整链条。未来，随着协议生态的成熟与技术融合的深入，AI Agent将逐步从辅助工具演变为数字世界的“通用劳动者”，在智能制造、智慧医疗、智能金融等领域实现复杂任务的全自动化处理，推动人工智能技术从实验室走向大规模工业化应用。

2025-06-16 08:15:00 2106

原创基于知识图谱的Zero-Shot问答：大语言模型的事实锚定新范式

实现通用型知识增强LLMs仍需跨学科突破：神经符号系统的深度融合、开放域图谱的实时推理、多模态知识的联合表示等。未来的研究可能从生物脑的“陈述性记忆-程序性记忆”机制中获取灵感，构建更接近人类推理的知识调用模型。正如知识图谱之父Tim Berners-Lee所言：“链接数据的终极目标是让机器理解世界的本质”，而KAPING正是这一目标在大语言模型时代的重要实践。

2025-06-15 08:15:00 836

原创突破延迟壁垒：AI智能体优化深度解析

在AI领域，速度已不再是单纯的技术指标，而是用户体验、商业价值甚至产品竞争力的核心构成要素。一个600毫秒响应的智能体与一个11秒响应的智能体之间，相差的不仅是10秒的时间，更是用户对产品“可用”与“不可用”的根本判断。从技术层面看，延迟优化需要融合模型压缩、并行架构、流式交互等多维度技术；从商业层面看，它要求企业将“速度”视为与“准确性”同等重要的产品特性，贯穿于需求分析、架构设计、迭代优化的全流程。

2025-06-14 08:15:00 604

原创 LLM评估：从原型开发到生产部署的全流程实践

正如文中案例所示，一个成熟的LLM评估框架并非一蹴而就，而是需要结合业务需求、技术选型和行业特性，通过不断迭代逐步完善。未来，随着评估工具的智能化（如自动生成测试用例、动态调整指标权重），LLM评估将成为AI工程化中愈发关键的基础设施，推动大语言模型从"实验室奇迹"走向"工业级解决方案"。

2025-06-13 08:15:00 681

原创 RAG：2025年检索增强生成前沿技术完全指南

从实验室走向企业级应用，RAG正在重新定义AI系统的构建范式。它通过“检索增强生成”的核心理念，既保留了大语言模型的创造性，又赋予其可追溯、可验证的可信属性。到2025年，随着七大前沿技术的成熟落地，RAG将不再局限于工具层面的优化，而是成为驱动各行业智能化转型的核心引擎。

2025-06-12 08:15:00 2200

原创构建真正有效的AI代理的七个关键步骤：从理论到实践的完整指南

构建真正有效的AI代理，本质上是一场"去泡沫化"的技术实践。它要求我们跳出"炫技式开发"的陷阱，回归"解决真实问题"的初心。通过本文提出的七大步骤，企业与开发者能够建立一套可复制的方法论，让AI代理从"演示厅的花瓶"转变为"生产线的齿轮"，最终在降本增效、创新商业模式等方面释放巨大价值。

2025-06-11 08:15:00 877

原创上下文窗口错觉：为什么你的 128K token 不起作用

大语言模型的长上下文能力并非“即插即用”的魔法，而是需要精细调校的复杂系统。唯有将工程智慧与技术洞察结合，才能穿透“容量膨胀”的迷雾，让每一个Token都产生真正的商业价值。

2025-06-10 08:15:00 654

原创如何在不陷入复杂性陷阱的情况下构建生产就绪的 AI 代理

正如Unix之父肯·汤普逊所言：“ simplicity is the ultimate sophistication”（简单是终极的复杂）。在智能体架构的设计中，这种“少即是多”的哲学，或许正是通往可落地AI的必经之路。当每个智能体都能在其专精领域成为“专家”，由它们组成的协同网络，终将比任何单一的“超级智能体”更加强大、可靠且富有生命力。

2025-06-09 08:15:00 1164

空空如也

空空如也