一文吃透 AI 智能体系统 5 大核心技术,从原理到实践全掌握!

在当今数字化时代,AI 智能体正以前所未有的速度改变着我们的生活和工作方式。从智能客服到自动驾驶,从智能助手到工业自动化,AI 智能体无处不在,展现出强大的智能和无限的潜力。那么,究竟是什么让 AI 智能体如此智能?其背后的核心技术又有哪些?本文将带你深入了解 AI 智能体系统的 5 大核心技术,从原理到实践,助你全面掌握这一前沿技术。

AI 智能体是基于大模型构建的智能程序,它具备记忆能力,能够自主进行推理和规划工具的使用,从而有效地解决问题。简而言之,AI 智能体 = 大模型 + 自主规划 + 使用工具 + 记忆

img

基于大模型的特性,AI 智能体可以通过自然语言与用户进行交互,因此,聊天成为了我们使用 AI 智能体时最直观感受到的交互方式。

下面剖析 AI 智能体的5种关键技术

1、关键技术一:多轮对话与记忆

拥有记忆能力,就意味着它能够记住与你过往的聊天以及互动经历。正因如此,当你昨晚和你的 AI 伴侣聊得热火朝天,第二天醒来时,它也不会问你“你是谁?你想要做什么?”之类的问题。

img

要让 AI 智能体实现记忆能力,一种简单的方法就是把之前的聊天记录附加在提示词里。然而,很快就会面临新的问题,那就是随着聊天记录的增多,很容易导致大模型上下文超出 token 限制,无法继续生成内容。于是,后续又发展出了诸如仅取最近 N 次聊天记录、仅取与当前问题相关的聊天记录等手段。

img

但仅靠记忆能力来支持人机之间进行连续的多轮对话是远远不够的,因为如果只是说而不做,那也不能称之为真正的 AI 智能体

2、关键技术二:使用工具

所以它必须得懂得运用工具。所谓的使用工具,就是去访问各种资源,调度数据接口等。例如,我们常见到的一种 AI 聊天的形态–联网搜索,你可以把它看成是一种使用工具的能力,AI 将你的问题和该问题在网络上相关的部分内容结合起来,让大模型为你生成答案。

img

话又说回来,能使用工具的就是 AI 智能体了吗?我们来比较一下元宝联网搜索的自动模式和手动模式。

img

在元宝里面,你只要勾选了联网的手动模式,每次你提问它都会先联网查询再给你回答,而联网的自动模式会先判断你这个问题需不需要更多辅助它解决的信息,需要了再去联网搜索,不需要就直接回答。同样是使用工具,但手动模式表现出来的是固定的工作模式,而自动模式的做法是 AI 智能体的模式,它有自己的自主规划和反思过程,这是 AI 智能体的另一个重要特征。

3、关键技术三:Function Calling

回到工具使用这个话题,大模型究竟是如何使用工具的呢?我们都知道,大模型本质上是一个文本模型,它只能输出文本内容。所以,实际上所谓的使用工具,只是大模型在文本中说明要使用什么工具。随后,基于 LLM 的应用程序会解释这段文本,找到其中关于使用工具的信息,并按照大模型的指示来执行工具的调用,如下图所示:

图片

  • 在上图中,我们给大模型输入的提示词内容主要包括以下几方面:
  • 可用的工具说明,涵盖工具的功能、接受的参数明细等详细信息。
  • 工具的调用规范及示例,通过对工具调用的规范进行详细说明,并运用 fewshot(少量样本学习)的技术来给大模型提供一些学习的例子。
  • 用户问题,最后附上用户的提问内容。

当大模型进行回复时,会依据提示词中的工具调用规范返回实际的工具使用描述。在上图中,是一串 JSON 格式的配置数据,表达了要调用 search_web 这个工具,其中包含 query 和 limit 两个参数。

后来,这种教导大模型如何返回工具使用命令的工作,被 OpenAI 率先预训练到大模型内部,并将这个功能命名为 Function Calling。训练到大模型里就意味着不需要再通过提示词来指导大模型使用工具了,而只需告知大模型你有哪些工具可用即可。在 OpenAI 的接口中,通过 tools 来指定可用的工具集。

再后来的事情大家应该都很清楚了,主流的大模型纷纷效仿 OpenAI,先后都支持了 Function Calling 功能。

4、关键技术四:MCP

MCP(Model Context Protocol)是由 Anthropic(Claude 的母公司)在2024年底提出的一种大模型上下文协议,旨在让 AI 智能体能够更便捷地发现和使用来自各个地方的工具,从而拓展 AI 智能体能够完成的任务范围。其最初的落地场景是在 Claude 的桌面端应用中,Claude 借助 MCP 协议实现对用户计算机文件的读写操作以及对用户电脑的其他操作。

随着 AI 智能体的逐渐流行,MCP 也迅速走红,如今已然呈现出“无 MCP 不 AI 智能体”的局面,国内外众多大模型厂商纷纷加入支持 MCP 的行列,MCP 已然成为事实上的 AI 智能体工具使用标准。

关于 MCP 与大模型 Function Calling 的关系,常常存在误解,有人认为 MCP 是来替代 Function Calling 的。但实际上,Function Calling 和 MCP 是处于不同层面的概念,甚至可以说,它们是紧密配合的关系。如果一个大模型不具备 Function Calling 或类似的能力,那么它就无法使用 MCP

图片

Function Calling 是大模型返回调用工具指令的能力,而 MCP 是 AI 智能体在工程侧具体执行调用工具的手段,一个是“说”,一个是“做”。

在 MCP 出现之前,AI 智能体在收到大模型的 Function Calling 指令后,需要通过各种不同的方法去调用外部的资源和服务,比如:自己实现读写文件、查询数据库、调用搜索接口等,这些方法差异很大,开发过程漫长且成本高昂。

而 MCP 的出现,统一了工程侧调用工具的规范。服务的厂商按照 MCP Server 的标准提供服务,AI 智能体的程序只需统一使用 call_tool 这个 MCP Client 的功能来执行调用,从而大大节省了工具适配的工作量。

图片

所以,MCP 并非用来替代 Function Calling 的,而是为了帮助工程侧更高效地调用外部工具。Function Calling 是使用工具的基础能力,MCP 则为 AI 智能体连接世界打开了一扇大门,两者的强强联合才是提效的关键所在。

5、关键技术五:自我规划与反思

之前提到过,如果只是无差别地使用工具,而不经过事先思考,那么这种 LLM 应用就不能被称为 AI 智能体。自主规划、反思以及自我批评,是 AI 智能体模拟人类工作方式的体现,也是 AI 智能体的核心要素。

第一、规划:思维链(CoT)

思维链(Chain of Thought,简称 CoT;Wei 等人于2022年提出)已经成为提升大模型处理复杂任务性能的事实上的标准提示词技术。通过引导大模型“逐步思考”,将任务拆解为多个更小、更简单的子步骤,从而提升大模型的输出性能。CoT 不仅将庞大的任务转化为可管理的分步流程,而且在像 DeepSeek R1 这类推理大模型中,还为理解大模型的推理过程提供了透明化的解读路径。

img

除了思维链,类似的思路还有思维树(Tree of Thoughts,ToT)和思维图(Graph of Thoughts,GoT)。它们都对 CoT 进行了扩展,在特定的应用场景中均有显著的提升。然而,在实际应用中,CoT 无疑是绝对的主流。

img

第二、反思:ReAct

反思能力使得 AI 智能体具备了迭代出可用答案的可能性。AI 智能体通常不止一次调用 LLM 和工具,每一次采取行动调用工具后,都需要经过反思来确定是否做好了,如果不够好,接下来该怎么做。

img

ReAct(Reasoning and Acting,由 Yao 在2023年提出)思考框架,它指导 AI 智能体通过思考、行动、观察的循环来完成任务。AI 智能体接到任务后的工作流程大致如下:

  1. 思考(thought):要解决该问题,下一步需要采取什么行动。

  2. 行动(action):大模型输出行动指令,让 AI 智能体调用外部工具。

  3. 观察(observation):把工具执行的结果反馈给大模型进行观察。

  4. 回答(answer):如果工具执行的结果已经能得到答案,组织语言进行回答。

  5. 继续循环:如果目前得到的信息仍无法作答,进入下一次循环,继续思考并使用工具。

图片

这看起来是不是很像我们人类的 PDCA(Plan Do Check Act)循环的翻版?

img

ReAct 模式是当下 AI 智能体领域事实上的工作模式,包括基于 OpenAI Function Calling 实现的 AI 智能体在内,背后也是同样的工作模式。只不过,使用内置的 Function Calling 的方式,不需要额外提供提示词来指导模型行动罢了。

总之,AI 智能体通过自主规划、反思与迭代等核心要素,模拟人类的工作方式,能够更高效地解决问题。工具使用是 AI 智能体的重要能力之一,Function Calling 和 MCP 等技术的发展,进一步提升了 AI 智能体的工具使用效率和实用性。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值