从零开始搞懂 AI Agent

COOCC1

已于 2025-05-17 13:47:22 修改

阅读量748

点赞数 12

CC 4.0 BY-SA版权

文章标签：人工智能 transformer 深度学习目标检测机器学习 nlp AIGC

于 2025-05-17 11:43:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/COOCC1/article/details/148025899

一、AI Agent 的本质 —— 从 “听话” 到 “主动”

1.1 AI Agent 和普通 AI 的区别

普通 AI：被动执行单一指令，如 “你问我答”。
AI Agent：主动规划多步操作达成目标，如 “接受研究任务后自主搜索、分析并输出报告”。

对比示意图：

案例：研究 “AI Agent 定义” 时，AI Agent 会自主搜索论文、抽取定义、对比差异并生成报告。

1.2 AI Agent 的定义和工作循环

工作循环框架：

目标：人类给定的终点（如 “赢围棋”）。
观察：感知当前环境（如 “棋盘棋子位置”）。
行动：根据观察结果执行操作（如 “落子”）。
循环：持续调整策略直至目标达成。

案例：AlphaGo 通过 “扫描棋盘→计算落子→对手回应→再观察” 的循环实现自主对弈。

1.3 与强化学习（RL）的关联

传统 AI Agent：依赖 RL 训练（如 AlphaGo 通过赢棋奖励优化模型），但任务泛化能力差。
现代 AI Agent：基于大型语言模型（LLM），无需重新训练即可处理多种任务。

二、AI Agent 的 “新灵魂”—— 大型语言模型（LLM）

2.1 LLM 如何变身 AI Agent？

工作流程：

目标输入：文字描述目标（如 “帮我下赢围棋”）。
环境转换：将环境信息转为文字 / 图片（如 “黑子在 A1，白子在 B2”）。
行动输出：LLM 生成文字指令（如 “在 C3 落子”），由系统执行。
循环优化：根据环境变化调整策略。

2.2 LLM 做 Agent 的优缺点

优点：

灵活性：支持文字描述的各类任务（如编程、数据分析）。
无需预设奖励：直接根据反馈调整（如代码报错后自动修正）。
行动空间广：可输出任意文字指令（如调用工具、生成方案）。

缺点：

可靠性不足：可能生成错误或不合理的指令（如象棋中 “兵走成马”）。
依赖环境描述：信息不清晰时易出错（如模糊的棋盘状态描述）。

三、AI Agent 的三大关键能力

3.1 根据经验调整行为

核心机制：通过 “上下文学习” 利用历史反馈优化行动。

案例：
- 输入：“写加法函数” → 输出：def add(a, b): return a + b（缺类型）。
- 反馈：“b 未定义类型” → 新输出：def add(a: int, b: int) -> int: return a + b。

挑战与解决方案：

记忆爆炸：通过 Write（筛选关键反馈）、Read（RAG 检索相关经验）、Reflection（总结策略） 管理记忆。

经验学习循环图：

3.2 使用工具

工具的作用：弥补 LLM 能力短板（如查天气、执行代码）。
调用流程：

工具定义：告知 LLM 工具用法（如Temperature(地点, 时间)）。
问题输入：“今天台北多热？” → 生成指令：[Tool] Temperature(台北, 现在)。
结果整合：工具返回 “28°C” → 输出回答。

常用工具：搜索引擎、代码执行器、API 接口（如天气、图像识别）。
挑战：工具过多时通过 工具选择模块（RAG 检索匹配） 优化调用。

3.3 做计划

规划能力：将目标拆解为有序步骤（如 “成为百万订阅 YouTuber”→选主题→优化标题→制作视频）。
提升方法：

试错法（Tree Search）：生成多分支路径，剪除低效选项。
脑内模拟（World Model）：预演行动后果（如模拟网页点击流程）。
工具辅助：复杂限制（如预算、时区）调用专业求解器。

规划核心流程图：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。