从零开始搞懂 AI Agent

一、AI Agent 的本质 —— 从 “听话” 到 “主动”

1.1 AI Agent 和普通 AI 的区别

  • 普通 AI:被动执行单一指令,如 “你问我答”。
  • AI Agent:主动规划多步操作达成目标,如 “接受研究任务后自主搜索、分析并输出报告”。

对比示意图

案例:研究 “AI Agent 定义” 时,AI Agent 会自主搜索论文、抽取定义、对比差异并生成报告。

1.2 AI Agent 的定义和工作循环

工作循环框架

  • 目标:人类给定的终点(如 “赢围棋”)。
  • 观察:感知当前环境(如 “棋盘棋子位置”)。
  • 行动:根据观察结果执行操作(如 “落子”)。
  • 循环:持续调整策略直至目标达成。

案例:AlphaGo 通过 “扫描棋盘→计算落子→对手回应→再观察” 的循环实现自主对弈。

1.3 与强化学习(RL)的关联

  • 传统 AI Agent:依赖 RL 训练(如 AlphaGo 通过赢棋奖励优化模型),但任务泛化能力差。
  • 现代 AI Agent:基于大型语言模型(LLM),无需重新训练即可处理多种任务。

二、AI Agent 的 “新灵魂”—— 大型语言模型(LLM)

2.1 LLM 如何变身 AI Agent?

工作流程

  1. 目标输入:文字描述目标(如 “帮我下赢围棋”)。
  2. 环境转换:将环境信息转为文字 / 图片(如 “黑子在 A1,白子在 B2”)。
  3. 行动输出:LLM 生成文字指令(如 “在 C3 落子”),由系统执行。
  4. 循环优化:根据环境变化调整策略。

2.2 LLM 做 Agent 的优缺点

优点

  • 灵活性:支持文字描述的各类任务(如编程、数据分析)。
  • 无需预设奖励:直接根据反馈调整(如代码报错后自动修正)。
  • 行动空间广:可输出任意文字指令(如调用工具、生成方案)。

缺点

  • 可靠性不足:可能生成错误或不合理的指令(如象棋中 “兵走成马”)。
  • 依赖环境描述:信息不清晰时易出错(如模糊的棋盘状态描述)。

三、AI Agent 的三大关键能力

3.1 根据经验调整行为

核心机制:通过 “上下文学习” 利用历史反馈优化行动。

  • 案例
    • 输入:“写加法函数” → 输出:def add(a, b): return a + b(缺类型)。
    • 反馈:“b 未定义类型” → 新输出:def add(a: int, b: int) -> int: return a + b

挑战与解决方案

  • 记忆爆炸:通过 Write(筛选关键反馈)、Read(RAG 检索相关经验)、Reflection(总结策略) 管理记忆。

经验学习循环图

3.2 使用工具

工具的作用:弥补 LLM 能力短板(如查天气、执行代码)。
调用流程

  1. 工具定义:告知 LLM 工具用法(如Temperature(地点, 时间))。
  2. 问题输入:“今天台北多热?” → 生成指令:[Tool] Temperature(台北, 现在)
  3. 结果整合:工具返回 “28°C” → 输出回答。

常用工具:搜索引擎、代码执行器、API 接口(如天气、图像识别)。
挑战:工具过多时通过 工具选择模块(RAG 检索匹配) 优化调用。

3.3 做计划

规划能力:将目标拆解为有序步骤(如 “成为百万订阅 YouTuber”→选主题→优化标题→制作视频)。
提升方法

  • 试错法(Tree Search):生成多分支路径,剪除低效选项。
  • 脑内模拟(World Model):预演行动后果(如模拟网页点击流程)。
  • 工具辅助:复杂限制(如预算、时区)调用专业求解器。

规划核心流程图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值