第二章：解构 AI Agent：核心组件与知识表示

（initial）

已于 2025-04-13 13:27:19 修改

阅读量763

点赞数 22

CC 4.0 BY-SA版权

分类专栏： AI Agents 构建实战文章标签：人工智能 agent

于 2025-04-12 00:30:00 首次发布

本文链接：https://blog.csdn.net/YPeng_Gao/article/details/147140998

AI Agents 构建实战专栏收录该内容

13 篇文章

订阅专栏

在第一章中，我们对 AI Agent 的概念、核心能力和面临的挑战有了宏观的认识。现在，是时候像解剖精密仪器一样，深入其内部，探究构成 Agent 的核心组件，理解它们各自的功能、如何协同工作，并特别关注一个关键问题：知识（信息）是如何在 Agent 内部被有效表示和存储的？ 这对于理解 Agent 如何进行“思考”和“记忆”至关重要。

2.1 Agent 的通用架构蓝图与信息流

要理解 Agent 的运作，首先需要一个清晰的架构蓝图。虽然具体的实现千差万别，但一个通用的 AI Agent 通常包含以下核心组件：核心大脑（LLM）、记忆模块、规划模块和行动模块。这种模块化的设计思想，可以追溯到像 MRKL Systems [1] 这样的早期概念，旨在将复杂任务分解给不同的专业模块处理。

然而，Agent 并非这些组件的静态组合，而是一个动态协作的系统。信息在这个系统中流动，驱动着 Agent 的行为。一切始于信息入口：环境感知与输入处理。这可能是用户的指令、来自 API 的响应、传感器的数据或其他外部信号。这些输入信息首先被 Agent 感知，通常会传递给核心大脑（LLM）进行理解和处理，或者直接触发某个工具的调用。
图 1 - Agent 核心组件交互图

理解这个蓝图的关键在于认识到组件间的交互关系与信息流向。LLM 需要查询记忆获取知识，规划模块依赖 LLM 的推理并可能参考记忆，行动模块执行规划并反馈结果。正是这种持续的信息流动与交互，赋予了 Agent 活力。一个复杂的例子是 Generative Agents [2]，它们通过模拟人类行为展示了内部状态、记忆和交互的复杂动态。

2.2 核心大脑：LLM (Large Language Model) - 隐式知识与通用处理

大型语言模型（LLM）无疑是当前 AI Agent 的核心引擎，扮演着“通用大脑”的角色。它的主要作用在于：

理解复杂的自然语言指令和环境信息。
进行推理，包括常识推理和逻辑推断。
生成初步的规划意图或直接生成行动指令。
生成代码或调用工具所需的参数。
在某些高级 Agent 中，进行反思和自我评估。

有趣的是，LLM 本身就蕴含着一种知识表示形式。通过在海量数据上进行预训练，LLM 将大量的世界知识隐式地编码在其庞大的参数（权重）和嵌入（Embeddings）中。这种表示的优势在于其强大的泛化能力，能够处理训练数据中未直接出现的任务和概念。然而，其局限性也很明显：

黑盒性： 很难精确知道某个知识点具体存储在哪里，也难以对其进行精确修改。
更新困难： 更新 LLM 的知识通常需要代价高昂的重新训练或微调。
易产生幻觉： 可能生成与事实不符或虚构的信息。

因此，在为 Agent 选型 LLM 时，需要综合考量：能力（如 Deepseek- R1 vs GPT-4o vs Gemini-2.5 Pro）、成本、速度和开放性（API vs. 开源模型如 Qwen, v）。选择合适的 LLM 是构建高效 Agent 的第一步，但这颗“大脑”需要其他组件的辅助才能充分发挥潜力。

2.3 记忆模块：维持状态与知识积累

如果说 LLM 是大脑，那么记忆模块就是 Agent 的海马体和知识库。它的作用至关重要：维持对话状态、存储经验、积累领域知识、辅助决策。

Agent 的记忆通常分为：

短期记忆 (Short-Term Memory): 通常指 LLM 的上下文窗口 (Context Window) 或一个临时的“工作区 (Scratchpad)”。它管理着当前任务直接相关的信息，但其容量有限且内容易逝。

长期记忆 (Long-Term Memory): 用于持久化存储信息。这里，显式知识表示变得尤为重要。两种关键的选项是：

向量数据库 (Vector Database):
- 原理与应用： 将信息转换为向量，存储并支持基于语义相似度的快速检索。这是实现检索增强生成 (Retrieval-Augmented Generation, RAG) [3] 的核心技术，广泛用于为 LLM 提供外部知识，减少幻觉。适合存储非结构化经验、对话历史、文档片段等。
- 知识表示范式： 它侧重于隐式的、基于语义相似性的知识表示。
知识图谱 (Knowledge Graph, KG):
- 原理与应用： 以图（节点表示实体，边表示关系）的形式显式地存储结构化事实、实体间的关系、领域本体。可以构建 Agent 的经验图谱。近年来，如何统一大型语言模型与知识图谱 [4] 成为研究热点，旨在结合两者的优势，例如使用 KG 进行更精确的问答或增强 LLM 的推理能力。
- 知识表示范式： 它侧重于显式的、结构化的知识表示，强调实体间的精确关系。

对比分析：向量记忆 vs. 图谱记忆

特性	向量数据库 (Vector DB)	知识图谱 (Knowledge Graph, KG)
知识表示	隐式，基于语义相似性	显式，结构化，强调精确关系
主要存储内容	非结构化/半结构化文本、经验片段	结构化事实、实体、关系、本体
查询方式	语义相似度搜索	精确的结构化查询 (如 Cypher, SPARQL)
查询结果	相似信息片段列表	精确的事实、路径、子图
知识更新	相对简单（添加/删除向量）	可能较复杂（维护图结构一致性）
推理支持	关联性推理（基于相似度）	逻辑推理、多跳关系推理、路径分析
适用场景	RAG [3], 对话历史, 经验检索	精确问答, 复杂关系分析, 领域建模 [4]

为了结合两者的优势，混合记忆架构 (Hybrid Memory) 应运而生，例如，可以先通过向量检索召回相关候选信息，再利用知识图谱进行精确过滤、关系验证或补充缺失的结构化信息。

记忆的存储时机、内容选择与检索机制（语义 vs. 结构化/图查询）是设计高效记忆模块的关键考量。

2.4 规划模块 (Planning Module) 初探：从意图到步骤

仅仅理解用户意图是不够的，Agent 需要将高层目标转化为具体的行动计划。这就是规划模块的职责。它的核心作用是接收 LLM 的高层目标或初步意图，将其分解为一系列更小、更具体的、可执行的步骤序列。

规划并非凭空进行，它需要与其他组件交互：

利用 LLM 的推理能力： 通过精心设计的 Prompt，引导 LLM 生成初步的计划草稿。一个重要的基础技术是思维链 (Chain-of-Thought, CoT) [5]，它通过引导 LLM “一步一步思考”来提升推理和规划的质量。
查询记忆模块： 获取辅助规划所需的信息（如可用工具、先前经验、领域知识）。

在本阶段（初探），我们先了解这些基础的规划方法。更复杂的策略，如树状思考或图状思考，将在后续章节介绍。

2.5 行动模块 / 工具使用 (Action / Tool Use Module) 初探：与世界交互

有了计划，就需要执行。行动模块负责将规划好的步骤付诸实践。其核心作用是根据规划模块生成的指令，选择并执行合适的工具（如调用 API、运行代码、控制 Web 浏览器）与外部环境交互。
在这里插入图片描述

让 LLM 能够有效使用工具是 Agent 能力的关键。早期的研究如 TALM [6] 和 Toolformer [7] 探索了如何让 LLM 学会或被增强以调用外部工具。在 Agent 框架中，通常需要清晰地定义工具的功能、输入/输出接口。

行动模块同样需要与其他组件紧密交互：

接收规划模块的指令。
将执行结果或观察 (Observation) 反馈给 LLM 进行解读、判断下一步行动或调整计划，并将重要结果写入记忆模块供未来使用。例如，ReAct 框架 [8]（我们将在下一章详细讨论）就显式地将工具执行的观察结果反馈给 LLM，用于下一步的思考。

行动模块是 Agent 连接内部思考与外部世界的桥梁。

总结

在本章中，我们拆解了 AI Agent 的核心构造：作为大脑的 LLM、负责记忆的存储模块（向量库与知识图谱的对比）、进行任务分解的规划模块，以及执行计划的行动模块。我们不仅理解了它们各自的功能，更重要的是，看到了它们之间紧密的信息流与交互关系，以及不同知识表示方式（隐式 vs. 显式）在其中扮演的关键角色。

理解这些基础组件及其协作方式，是掌握更高级 Agent 技术的前提。在下一章，我们将探讨两种主流的 Agent 执行逻辑——ReAct [8] 和 Plan-and-Execute，看看这些组件是如何被实际“编排”起来，驱动 Agent 完成任务的。

参考文献
[1] MRKL Systems:
Karpas, E., et al. (2022). MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning.
链接: https://arxiv.org/abs/2205.00445
[2] Generative Agents:
Park, J. S., et al. (2023). Generative Agents: Interactive Simulacra of Human Behavior.
链接: https://arxiv.org/abs/2304.03442
[3] RAG (Retrieval-Augmented Generation):
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
链接: https://arxiv.org/abs/2005.11401
[4] Unifying LLMs and KGs (Roadmap):
Pan, Z., et al. (2023). Unifying Large Language Models and Knowledge Graphs: A Roadmap.
链接: https://arxiv.org/abs/2306.08302
[5] Chain-of-Thought (CoT):
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.
链接: https://arxiv.org/abs/2201.11903
[6] TALM:
Parisi, A., et al. (2022). TALM: Tool Augmented Language Models.
链接: https://arxiv.org/abs/2205.12255
[7] Toolformer:
Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools.
链接: https://arxiv.org/abs/2302.04761
[8] ReAct:
Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models.
链接: https://arxiv.org/abs/2210.03629