LLM-Based Agent综述及其框架学习(五)

最新推荐文章于 2025-08-04 20:06:03 发布

原创最新推荐文章于 2025-08-04 20:06:03 发布 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#LLM-Based Agent

AI Agent 专栏收录该内容

24 篇文章

订阅专栏

文章目录

摘要
Abstract
1. 引言
2. 文本输出
3. 工具的使用
4. 具身动作
5. 学习智能体框架
参考
总结

摘要

本文围绕基于大语言模型（LLM）的智能体（Agent）展开探讨，重点分析了其动作模块的构建与功能实现。智能体通过模拟人类认知过程，整合感知信息并进行推理决策，最终执行与环境交互的动作。LLM赋予智能体强大的文本生成能力，使其成为高效的语言生成器。然而，智能体在专业知识、决策透明度和抗干扰能力等方面存在局限，而工具的使用能有效弥补这些不足。通过理解工具功能、学习使用工具甚至自主创建工具，智能体能够扩展行动空间，提升任务完成的质量和效率。工具不仅帮助智能体获取外部资源，还能实现多模态输出，从而拓展应用场景。特别值得关注的是"数字具身"智能体的发展，这类智能体能够通过工具或多模态方式与物理环境动态交互，实现从纯文本输出到具身行为的跨越。具身智能体通过与环境的持续互动获得智能，其行为模式更接近人类，能够主动感知、理解并修改环境。这一范式被视为实现通用人工智能（AGI）的关键路径，其核心在于将模型智能与物理世界紧密结合。未来，随着工具使用能力的提升和具身行为的完善，LLM-Based Agent有望在更广泛领域展现类人的适应性和创造性。

Abstract

This article focuses on Large Language Model (LLM)-based agents, with a particular emphasis on the construction and functional implementation of their action modules. These agents simulate human cognitive processes by integrating perceptual information, performing reasoning and decision-making, and ultimately executing actions to interact with their environment. LLMs endow agents with powerful text generation capabilities, making them efficient language generators. However, agents still face limitations in areas such as domain-specific knowledge, decision transparency, and robustness against interference. The use of tools can effectively mitigate these shortcomings. By understanding tool functionalities, learning to use tools, and even creating tools autonomously, agents can expand their action space and improve task performance in terms of both quality and efficiency. Tools not only help agents access external resources but also enable multimodal outputs, thereby broadening their application scenarios. Particularly noteworthy is the development of “digitally embodied” agents—agents capable of dynamically interacting with the physical environment through tools or multimodal means, bridging the gap between pure text output and embodied behavior. These embodied agents acquire intelligence through continuous interaction with their environment, exhibiting behavior patterns more akin to those of humans. They can actively perceive, understand, and modify their surroundings. This paradigm is considered a key pathway toward achieving Artificial General Intelligence (AGI), with its core lying in the deep integration of model intelligence and the physical world. In the future, as tool-use capabilities advance and embodied behaviors become more sophisticated, LLM-based agents are expected to demonstrate human-like adaptability and creativity across a wider range of domains.

1. 引言

人类感知环境后，大脑会对感知到的信息进行整合、分析、推理，并做出决策。随后，他们利用自己的神经系统来控制自己的身体，根据环境做出适应性或创造性的行动，比如进行对话、躲避障碍物或生火。当一个智能体拥有类似大脑的结构，具有知识、记忆、推理、规划和泛化能力，以及多模态感知能力时，它也有望拥有类似于人类的各种各样的行动，以应对周围的环境。在智能体的构建中，动作模块接收大脑模块发送的动作序列，并执行与环境交互的动作。下面将介绍关于LLM-Based Agent概念框架中关于动作模块的内容。

2. 文本输出

基于transformer的生成式大型语言模型的兴起和发展赋予了LLM-Based Agent固有的语言生成能力。它们生成的文本质量在流畅性、相关性、多样性、可控性等各个方面都表现优异。因此，LLM-Based Agent可以是非常强大的语言生成器。

3. 工具的使用

工具是工具使用者能力的扩展。当面对复杂的任务时，人类使用工具来简化任务解决和提高效率，从而释放时间和资源。同样，如果智能体也学会使用和利用工具，它们也有可能更高效、更高质量地完成复杂任务。
LLM-Based Agent在某些方面存在局限性，使用工具可以增强代理的能力。首先，尽管LLM-Based Agent具有强大的知识库和专业知识，但它们不具备记住每一条训练数据的能力。他们也可能由于上下文提示的影响而无法转向正确的知识，甚至产生幻觉知识。再加上缺乏语料库、训练数据以及针对特定领域和场景的调优，在专注于特定领域时，智能体的专业知识也受到限制。专门的工具使法学硕士能够增强他们的专业知识，适应领域知识，并以可插拔的形式更适合特定于领域的需求。此外，LLM-Based Agent的决策过程缺乏透明度，使得它们在医疗保健和金融等高风险领域不那么值得信赖。此外，大语言模型容易受到对抗性攻击，并且它们对轻微输入修改的鲁棒性不足。相比之下，在工具的帮助下完成任务的智能体表现出更强的可解释性和鲁棒性。工具的执行过程可以反映代理处理复杂需求的方法，并增强其决策的可信度。此外，由于工具是专门为其各自的使用场景而设计的，使用此类工具的代理可以更好地处理轻微的输入修改，并且对对抗性攻击更具弹性。
LLM-Based Agent不仅需要使用工具，而且非常适合工具集成。利用通过预训练过程和CoT提示积累的丰富世界知识，大语言模型在复杂的交互环境中表现出卓越的推理和决策能力，这有助于智能体以适当的方式分解和处理用户指定的任务。此外，大语言模型在意图理解等方面显示出显著的潜力。当代理与工具相结合时，可以降低工具使用的门槛，从而充分释放人类用户的创造潜力。

3.1 理解工具

智能体有效使用工具的前提是全面理解工具的应用场景和调用方法。如果没有这种理解，智能体使用工具的过程就会变得不可信，无法真正增强智能体的能力。利用大语言模型强大
的零次和少次学习能力[40];41]，智能体可以通过使用描述工具功能和参数的零样本提示，或提供特定工具使用场景和相应方法演示的少量样本提示来获取关于工具的知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。当面对复杂的任务时，单一的工具往往是不够的。因此，智能体首先要以适当的方式将复杂的任务分解成子任务，它们对工具的理解在任务分解中起着重要的作用。

3.2 学会使用工具

智能体学习使用工具的方法主要包括从演示中学习和从反馈中学习。这涉及到模仿人类专家的行为，以及了解其行为的后果，并根据从环境和人类那里收到的反馈进行调整。环境反馈包括关于行动是否成功完成任务的结果反馈和捕获由行动引起的环境状态变化的中间反馈;人类反馈包括显式评估和隐式行为，如点击链接。如果智能体严格地应用工具而没有适应性，那么它将无法在所有场景中获得可接受的性能。智能体需要将他们在特定情境中学习到的工具使用技能推广到更一般的情境中，比如将一个在Yahoo搜索上训练过的模型转移到谷歌搜索上。要做到这一点，智能体有必要掌握工具使用策略中的共同原则或模式，这可以通过元工具学习来实现。增强智能体对简单工具和复杂工具之间关系的理解，比如复杂工具是如何建立在更简单工具的基础上的，可以有助于智能体概括工具使用的能力。这使得智能体能够有效地辨别各种应用场景之间的细微差别，并将之前学到的知识转移到新的工具中。课程学习允许智能体从简单的工具开始，逐步学习复杂的工具，这与需求是一致的。此外，受益于对用户意图推理和规划能力的理解，智能体可以更好地设计工具利用和协作的方法，从而提供更高质量的结果。

3.3 制作自给自足的工具

现有的工具通常是为了人类的方便而设计的，这对于智能体来说可能不是最优的。为了让智能体更好地使用工具，就需要专门为智能体设计的工具。这些工具应该更加模块化，具有更适合智能体的输入输出格式。如果提供了说明和演示，LLM-Based Agent还具有通过生成可执行程序或将现有工具集成为更强大的工具来创建工具的能力。他们还可以学习进行自我调试。此外，如果作为工具制造者的智能体成功地创建了一个工具，除了使用工具本身外，它还可以为多智能体系统中的其他智能体生成包含工具代码和演示的包。推测一下，在未来，智能体可能会变得自给自足，并在工具方面表现出高度的自主性。

3.4 工具可以扩展LLM-Based Agent的行动空间

在工具的帮助下，智能体可以在推理和规划阶段利用各种外部资源，如web应用程序和其他语言模型。这一过程可以为LLM-Based Agent提供高专业度、可靠性、多样性和高质量的信息，促进他们的决策和行动。例如，基于搜索的工具可以借助外部数据库、知识图和网页来提高智能体可访问知识的范围和质量，而领域特定工具可以增强智能体在相应领域的专业知识。一些研究人员已经开发出基于大语言模型的控制器，生成SQL语句来查询数据库，或者将用户查询转换为搜索请求，并使用搜索引擎获得期望的结果。更重要的是，LLM-Based Agent可以使用科学工具执行化学中的有机合成等任务，或者与Python解释器接口，以提高其在复杂的数学计算任务中的性能。对于多智能体系统，通信工具(如电子邮件)可以作为智能体在严格的安全约束下相互交互的手段，促进它们的协作，并表现出自主性和灵活性。

3.5 总结

虽然前面提到的工具增强了智能体的能力，但与环境交互的媒介仍然是基于文本的。然而，工具是为了扩展语言模型的功能而设计的，它们的输出并不局限于文本。用于非文本输出的工具可以使智能体行为的模式多样化，从而扩展了LLM-Based Agent的应用场景。例如，图像处理和生成可以由一个利用视觉模型的智能体来完成。在航空航天工程中，智能体正在被探索用于物理建模和求解复杂微分方程;在机器人领域，需要智能体来规划物理操作并控制机器人执行等等。能够通过工具或以多模态方式与环境或世界动态交互的智能体可以被称为数字具身。具身智能体一直是具身学习研究的中心焦点。

4. 具身动作

在追求通用人工智能(AGI)的过程中，具身智能体被认为是一个关键的范式，它努力将模型智能与物理世界相结合。具体化假说从人类智能发展过程中汲取灵感，提出智能体的智能来自于与环境的持续互动和反馈，而不是仅仅依赖于精心策划的教科书。类似地，与传统的深度学习模型(从互联网数据集学习明确的能力来解决领域问题)不同，人们预计LLM-Based Agent的行为将不再局限于纯文本输出或调用精确的工具来执行特定的领域任务。相反，它们应该能够主动感知、理解和与物理环境交互，做出决策，并基于LLM广泛的内部知识产生特定的行为来修改环境。我们将这些统称为具体化的行为，它使智能体能够以一种与人类行为非常相似的方式与世界进行交互和理解。

5. 学习智能体框架

参考

Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.

总结

本文探讨了基于大语言模型的智能体如何通过工具使用和具身行为实现类人交互能力。研究表明，虽然LLM赋予智能体强大的文本生成能力，但其在专业知识、决策透明度和抗干扰性等方面仍存在不足。通过理解工具功能、学习使用方法和自主创建工具，智能体显著扩展了行动能力边界。特别值得注意的是，工具不仅帮助智能体获取外部资源，还能实现多模态输出，推动智能体从纯文本交互向"数字具身"形态演进。这种能够通过多模态方式与环境动态交互的具身智能体，被视为实现通用人工智能的重要路径，其核心在于将模型智能与物理世界深度融合，通过持续互动获得类人的适应性和创造性。