一、AI Agent 的本质 —— 从 “听话” 到 “主动”
1.1 AI Agent 和普通 AI 的区别
- 普通 AI:被动执行单一指令,如 “你问我答”。
- AI Agent:主动规划多步操作达成目标,如 “接受研究任务后自主搜索、分析并输出报告”。
对比示意图:
案例:研究 “AI Agent 定义” 时,AI Agent 会自主搜索论文、抽取定义、对比差异并生成报告。
1.2 AI Agent 的定义和工作循环
工作循环框架:
- 目标:人类给定的终点(如 “赢围棋”)。
- 观察:感知当前环境(如 “棋盘棋子位置”)。
- 行动:根据观察结果执行操作(如 “落子”)。
- 循环:持续调整策略直至目标达成。
案例:AlphaGo 通过 “扫描棋盘→计算落子→对手回应→再观察” 的循环实现自主对弈。
1.3 与强化学习(RL)的关联
- 传统 AI Agent:依赖 RL 训练(如 AlphaGo 通过赢棋奖励优化模型),但任务泛化能力差。
- 现代 AI Agent:基于大型语言模型(LLM),无需重新训练即可处理多种任务。
二、AI Agent 的 “新灵魂”—— 大型语言模型(LLM)
2.1 LLM 如何变身 AI Agent?
工作流程:
- 目标输入:文字描述目标(如 “帮我下赢围棋”)。
- 环境转换:将环境信息转为文字 / 图片(如 “黑子在 A1,白子在 B2”)。
- 行动输出:LLM 生成文字指令(如 “在 C3 落子”),由系统执行。
- 循环优化:根据环境变化调整策略。
2.2 LLM 做 Agent 的优缺点
优点:
- 灵活性:支持文字描述的各类任务(如编程、数据分析)。
- 无需预设奖励:直接根据反馈调整(如代码报错后自动修正)。
- 行动空间广:可输出任意文字指令(如调用工具、生成方案)。
缺点:
- 可靠性不足:可能生成错误或不合理的指令(如象棋中 “兵走成马”)。
- 依赖环境描述:信息不清晰时易出错(如模糊的棋盘状态描述)。
三、AI Agent 的三大关键能力
3.1 根据经验调整行为
核心机制:通过 “上下文学习” 利用历史反馈优化行动。
- 案例:
- 输入:“写加法函数” → 输出:
def add(a, b): return a + b
(缺类型)。 - 反馈:“b 未定义类型” → 新输出:
def add(a: int, b: int) -> int: return a + b
。
- 输入:“写加法函数” → 输出:
挑战与解决方案:
- 记忆爆炸:通过 Write(筛选关键反馈)、Read(RAG 检索相关经验)、Reflection(总结策略) 管理记忆。
经验学习循环图:
3.2 使用工具
工具的作用:弥补 LLM 能力短板(如查天气、执行代码)。
调用流程:
- 工具定义:告知 LLM 工具用法(如
Temperature(地点, 时间)
)。 - 问题输入:“今天台北多热?” → 生成指令:
[Tool] Temperature(台北, 现在)
。 - 结果整合:工具返回 “28°C” → 输出回答。
常用工具:搜索引擎、代码执行器、API 接口(如天气、图像识别)。
挑战:工具过多时通过 工具选择模块(RAG 检索匹配) 优化调用。
3.3 做计划
规划能力:将目标拆解为有序步骤(如 “成为百万订阅 YouTuber”→选主题→优化标题→制作视频)。
提升方法:
- 试错法(Tree Search):生成多分支路径,剪除低效选项。
- 脑内模拟(World Model):预演行动后果(如模拟网页点击流程)。
- 工具辅助:复杂限制(如预算、时区)调用专业求解器。
规划核心流程图: