第二章:解构 AI Agent:核心组件与知识表示

在第一章中,我们对 AI Agent 的概念、核心能力和面临的挑战有了宏观的认识。现在,是时候像解剖精密仪器一样,深入其内部,探究构成 Agent 的核心组件,理解它们各自的功能、如何协同工作,并特别关注一个关键问题:知识(信息)是如何在 Agent 内部被有效表示和存储的? 这对于理解 Agent 如何进行“思考”和“记忆”至关重要。

2.1 Agent 的通用架构蓝图与信息流

要理解 Agent 的运作,首先需要一个清晰的架构蓝图。虽然具体的实现千差万别,但一个通用的 AI Agent 通常包含以下核心组件:核心大脑(LLM)、记忆模块、规划模块和行动模块。这种模块化的设计思想,可以追溯到像 MRKL Systems [1] 这样的早期概念,旨在将复杂任务分解给不同的专业模块处理。

然而,Agent 并非这些组件的静态组合,而是一个动态协作的系统。信息在这个系统中流动,驱动着 Agent 的行为。一切始于信息入口:环境感知与输入处理。这可能是用户的指令、来自 API 的响应、传感器的数据或其他外部信号。这些输入信息首先被 Agent 感知,通常会传递给核心大脑(LLM)进行理解和处理,或者直接触发某个工具的调用。
图 1 - Agent 核心组件交互图

理解这个蓝图的关键在于认识到组件间的交互关系与信息流向。LLM 需要查询记忆获取知识,规划模块依赖 LLM 的推理并可能参考记忆,行动模块执行规划并反馈结果。正是这种持续的信息流动与交互,赋予了 Agent 活力。一个复杂的例子是 Generative Agents [2],它们通过模拟人类行为展示了内部状态、记忆和交互的复杂动态。

2.2 核心大脑:LLM (Large Language Model) - 隐式知识与通用处理

大型语言模型(LLM)无疑是当前 AI Agent 的核心引擎,扮演着“通用大脑”的角色。它的主要作用在于:

  • 理解复杂的自然语言指令和环境信息。
  • 进行推理,包括常识推理和逻辑推断。
  • 生成初步的规划意图或直接生成行动指令。
  • 生成代码或调用工具所需的参数。
  • 在某些高级 Agent 中,进行反思和自我评估。

有趣的是,LLM 本身就蕴含着一种知识表示形式。通过在海量数据上进行预训练,LLM 将大量的世界知识隐式地编码在其庞大的参数(权重)和嵌入(Embeddings)中。这种表示的优势在于其强大的泛化能力,能够处理训练数据中未直接出现的任务和概念。然而,其局限性也很明显:

  • 黑盒性: 很难精确知道某个知识点具体存储在哪里,也难以对其进行精确修改。
  • 更新困难: 更新 LLM 的知识通常需要代价高昂的重新训练或微调。
  • 易产生幻觉: 可能生成与事实不符或虚构的信息。

因此,在为 Agent 选型 LLM 时,需要综合考量:能力(如 Deepseek- R1 vs GPT-4o vs Gemini-2.5 Pro)、成本、速度和开放性(API vs. 开源模型如 Qwen, v)。选择合适的 LLM 是构建高效 Agent 的第一步,但这颗“大脑”需要其他组件的辅助才能充分发挥潜力。

2.3 记忆模块:维持状态与知识积累

如果说 LLM 是大脑,那么记忆模块就是 Agent 的海马体和知识库。它的作用至关重要:维持对话状态、存储经验、积累领域知识、辅助决策。

Agent 的记忆通常分为:

  • 短期记忆 (Short-Term Memory): 通常指 LLM 的上下文窗口 (Context Window) 或一个临时的“工作区 (Scratchpad)”。它管理着当前任务直接相关的信息,但其容量有限且内容易逝。

  • 长期记忆 (Long-Term Memory): 用于持久化存储信息。这里,显式知识表示变得尤为重要。两种关键的选项是:

    • 向量数据库 (Vector Database):
      • 原理与应用: 将信息转换为向量,存储并支持基于语义相似度的快速检索。这是实现检索增强生成 (Retrieval-Augmented Generation, RAG) [3] 的核心技术,广泛用于为 LLM 提供外部知识,减少幻觉。适合存储非结构化经验、对话历史、文档片段等。在这里插入图片描述

      • 知识表示范式: 它侧重于隐式的、基于语义相似性的知识表示

    • 知识图谱 (Knowledge Graph, KG):
      • 原理与应用: 以图(节点表示实体,边表示关系)的形式显式地存储结构化事实、实体间的关系、领域本体。可以构建 Agent 的经验图谱。近年来,如何统一大型语言模型与知识图谱 [4] 成为研究热点,旨在结合两者的优势,例如使用 KG 进行更精确的问答或增强 LLM 的推理能力。在这里插入图片描述

      • 知识表示范式: 它侧重于显式的、结构化的知识表示,强调实体间的精确关系
        图 2 - 向量记忆 vs. 图谱记忆对比

    对比分析:向量记忆 vs. 图谱记忆

    特性向量数据库 (Vector DB)知识图谱 (Knowledge Graph, KG)
    知识表示隐式,基于语义相似性显式,结构化,强调精确关系
    主要存储内容非结构化/半结构化文本、经验片段结构化事实、实体、关系、本体
    查询方式语义相似度搜索精确的结构化查询 (如 Cypher, SPARQL)
    查询结果相似信息片段列表精确的事实、路径、子图
    知识更新相对简单(添加/删除向量)可能较复杂(维护图结构一致性)
    推理支持关联性推理(基于相似度)逻辑推理、多跳关系推理、路径分析
    适用场景RAG [3], 对话历史, 经验检索精确问答, 复杂关系分析, 领域建模 [4]

    为了结合两者的优势,混合记忆架构 (Hybrid Memory) 应运而生,例如,可以先通过向量检索召回相关候选信息,再利用知识图谱进行精确过滤、关系验证或补充缺失的结构化信息。

    记忆的存储时机内容选择检索机制(语义 vs. 结构化/图查询)是设计高效记忆模块的关键考量。

2.4 规划模块 (Planning Module) 初探:从意图到步骤

仅仅理解用户意图是不够的,Agent 需要将高层目标转化为具体的行动计划。这就是规划模块的职责。它的核心作用是接收 LLM 的高层目标或初步意图,将其分解为一系列更小、更具体的、可执行的步骤序列。

规划并非凭空进行,它需要与其他组件交互

  • 利用 LLM 的推理能力: 通过精心设计的 Prompt,引导 LLM 生成初步的计划草稿。一个重要的基础技术是思维链 (Chain-of-Thought, CoT) [5],它通过引导 LLM “一步一步思考”来提升推理和规划的质量。在这里插入图片描述

  • 查询记忆模块: 获取辅助规划所需的信息(如可用工具、先前经验、领域知识)。

在本阶段(初探),我们先了解这些基础的规划方法。更复杂的策略,如树状思考或图状思考,将在后续章节介绍。

2.5 行动模块 / 工具使用 (Action / Tool Use Module) 初探:与世界交互

有了计划,就需要执行。行动模块负责将规划好的步骤付诸实践。其核心作用是根据规划模块生成的指令,选择执行合适的工具(如调用 API、运行代码、控制 Web 浏览器)与外部环境交互。
在这里插入图片描述

让 LLM 能够有效使用工具是 Agent 能力的关键。早期的研究如 TALM [6] 和 Toolformer [7] 探索了如何让 LLM 学会或被增强以调用外部工具。在 Agent 框架中,通常需要清晰地定义工具的功能、输入/输出接口

行动模块同样需要与其他组件紧密交互

  • 接收规划模块的指令。
  • 将执行结果或观察 (Observation) 反馈给 LLM 进行解读、判断下一步行动或调整计划,并将重要结果写入记忆模块供未来使用。例如,ReAct 框架 [8](我们将在下一章详细讨论)就显式地将工具执行的观察结果反馈给 LLM,用于下一步的思考。在这里插入图片描述

行动模块是 Agent 连接内部思考与外部世界的桥梁。

总结

在本章中,我们拆解了 AI Agent 的核心构造:作为大脑的 LLM、负责记忆的存储模块(向量库与知识图谱的对比)、进行任务分解的规划模块,以及执行计划的行动模块。我们不仅理解了它们各自的功能,更重要的是,看到了它们之间紧密的信息流交互关系,以及不同知识表示方式(隐式 vs. 显式)在其中扮演的关键角色。

理解这些基础组件及其协作方式,是掌握更高级 Agent 技术的前提。在下一章,我们将探讨两种主流的 Agent 执行逻辑——ReAct [8] 和 Plan-and-Execute,看看这些组件是如何被实际“编排”起来,驱动 Agent 完成任务的。


参考文献
[1] MRKL Systems:
Karpas, E., et al. (2022). MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning.
链接: https://arxiv.org/abs/2205.00445
[2] Generative Agents:
Park, J. S., et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior.
链接: https://arxiv.org/abs/2304.03442
[3] RAG (Retrieval-Augmented Generation):
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
链接: https://arxiv.org/abs/2005.11401
[4] Unifying LLMs and KGs (Roadmap):
Pan, Z., et al. (2023). Unifying Large Language Models and Knowledge Graphs: A Roadmap.
链接: https://arxiv.org/abs/2306.08302
[5] Chain-of-Thought (CoT):
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.
链接: https://arxiv.org/abs/2201.11903
[6] TALM:
Parisi, A., et al. (2022). TALM: Tool Augmented Language Models.
链接: https://arxiv.org/abs/2205.12255
[7] Toolformer:
Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools.
链接: https://arxiv.org/abs/2302.04761
[8] ReAct:
Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models.
链接: https://arxiv.org/abs/2210.03629

内容同步在gzh:智语Bot

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

(initial)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值