做好 AI Agent 最重要的是什么？_autoplanbench benchmark-CSDN博客

是评测，或者说是基准测试(Benchmark)。

为什么？

因为我们已经有足够的技术方案，只要定义清楚我们要解决的问题（基准测试），就能解决它。

OpenAI 姚顺雨近期提出“AI下半场”的概念，我们已经拥有了：

存储大量知识的预训练模型（先验知识），并知道怎么持续训练它
通过这个模型做思考推理并执行动作的 Agent 能力（环境）
强化学习算法

为预训练模型补充先验知识 → Agent为模型补充工具能力→强化学习激发知识的运用，整个方案已经标准化，能很好地泛化，所有场景都适用，能快速攻破一个又一个的基准测试。

重点会变成，我们应该定义什么样的基准测试？我们已经有涵盖数学推理编程等领域非常多的基准测试，经常大模型发布刷分刷得飞起，但对现实世界的影响却并没有那么大。

显然我们应该定义更能贴近现实世界问题的基准测试，只要定义了，用上述方案就能持续优化解决它：基准测试引导收集现实世界的数据→提升预训练模型先验知识→强化学习激发模型往基准测试方向输出。

而定义的基准测试越贴近现实世界，对世界产生的影响和价值就越大。这就是 AI 下半场最重要的问题，也是做好 AI Agent 最重要的问题。（AI Agent 就是目前 AI 的代表，大模型有先验知识和推理能力，Agent 给大模型装上环境感知和行动能力，要解决现实世界的问题，一定需要 Agent）

是什么？

什么是贴近现实世界的基准测试？

过去大量的基准测试，基本是封闭世界的固定任务，例如数学题、算法题、围棋、游戏，能明确定义问题、规则、答案，定义这样的基准测试是比较容易的，规则和过程都是现成的，推理也可以属于这一类，大模型发展到这个阶段，解决这些问题也是相对容易的。

但这些任务与现实世界大家日常要解决的问题距离太远，并不是现实世界的环境，因为之前缺乏感知和处理现实世界海量复杂规则任务的能力，现在大模型和 Agent 已经初步具备了这个能力。

目前有比较多横切面上单一维度的基准测试，包括规划能力（PlanBench、AutoPlanBench等）、工具调用能力（ToolBench、BFCL等）、反思能力（LLF-Bench、LLM-Evolve等），也有大统一的通用任务完成能力的基准测试，主要是操作浏览器和操作电脑方面，例如 OpenAI 的 browsecomp （评测复杂信息检索和理解能力），学术界的 OSWorld （评测理解 GUI 操作完成任务的能力）。

但这些横切面或者通用的基准测试，可能并不是用户关心的。AI Agent 要实用，用户角度上更关注的是垂直任务上的能力，例如它能不能帮我写好代码，做好客服，创作出好的故事，给出好的调研报告等。当前行业处于早期，先把基础通用的问题做好基准测试去解决，达到一定阈值后，垂直领域任务上的基准测试才是更重要的。

如果简单分类，可以把这些任务分为两类：目标明确和不明确的任务。

目标明确的任务

现实中有些任务，有很明确的结果是否正确的定义，能像数学那样有标准答案，但过程中又是需要跟现实环境不断交互。典型的是 AI Coding，程序能不能跑通，bug有没有修复，都是能明确验证的。其他的还有像客服、数据分析等。

这一类是最容易被 AI 突破，但要定义出好的基准测试也不容易。

发展得最好的 AI Coding，在这个领域最权威的基准测试是 SWE-Bench，它已经在尽量贴近现实世界去定义问题，以解决 github 上的真实 issue 为出发点，但它还是很难衡量实际 coding 场景中不同模型的效果。o1、DeepSeek R1、Claude 3.5 分数都在 49% 左右，但实际用起来，Claude 3.5 在可用性上高出一个档次，没有其他基准测试能反映 Claude 3.5 断档的效果，而 Claude 3.7 分数高达70%，但实际体验上跟 3.5 的差距没有分数上差距这么大。除了模型搭配上工具后，windsurf、cursor、trae、argument 等几十个 AI Coding 工具，他们实际效果差异怎样，如何评测衡量，都是不清楚的。

SWE-Bench 只覆盖了 Coding 的一部分，大型项目理解能力、视觉动画开发能力、代码CR、需求理解等，要补的基准测试还有很多，现在也有 SWE - bench Multimodal、AgentBench、SWELancer 这些基准测试在不断推出试图覆盖。

其他领域还没看到有相关的基准测试。

目标不明确的任务

大部分现实世界的任务，都是结果难以明确定义的，不是非黑即白。例如调研报告、旅行规划、简历筛选面试，各种涉及文字/图片/视频创作的场景，比如营销、故事创作、邮件回复沟通等，结果的好坏很多只有人能判断。

Deepseek 年初的一波火爆，除了各项分数刷爆外，其中有一个原因是它输出的中文质量很好，但这个点并没有基准测试能衡量到，因为确实是很难定义什么样的文字是明确的好，跟文化/偏好品味/逻辑性/多样性等都有关系。

图片视频生成也一样，过了一定门槛后，生成的图片怎样才算更好，也是有很多维度和人的主观判断，目前没有基准测试能做到。

如何做好这类任务的评测？

靠人工：例如对于图片生成，常见的做法是分维度人工打分，给不同模型生成的结果人工打分综合对比，文章/视频也可以是同样的评测方式。另外也有在线盲测PK，做大批量结果PK对比，按总得分区分各模型的排行。对于自己产品内部迭代，也可以通过上线后的采纳率等数据去评估好坏。但这些需要人参与，主观成分大，难以形成公认的标准基准测试。
靠模型：模型理解能力逐渐增强，它能拥有人一样的评估能力，就可以把上述靠人工的评估转为靠模型评估。例如对图片的评估，当前像4o这样的多模态模型理解能力越来越强，是能评估出部分好坏。文字也一样，可以有评估模型去评估，模型还可以根据场景自主给出评估的维度。如果大家公认某个模型的评估能力OK，定义好相关数据集、评估维度，就可以是一个基准测试，只是目前模型还没达到能与人工评估媲美的程度。
靠任务分解：不衡量整体结果，只衡量中间可明确定义的部分，把任务部分转成上面提到的目标明确的任务。例如邮件沟通，只评估邮件内是否含有需要的关键信息，旅行规划，只评估是否符合定性的偏好（如最低价）、订机票API调用等操作是否正确。

如果要让 Agent 在各个领域上能很好发挥作用产出价值，可能每个领域都有自己的垂类 Agent，也都需要定义自己的一个或多个基准测试去覆盖这个领域，AI Coding 领域跑得最快，已经有多个，像客服、电商、营销、创作、医疗、教育等等每个大课题下都会有小的垂类任务，每一类任务可能都需要一个基准测试，去衡量谁在这个任务上做得最好，去促进这个任务成功率的提升。

如果要做一个垂类 Agent，最值得做的是把基准测试定义好，比较像软件开发的TDD(测试驱动开发)，在 AI 时代这种做法可能更重要，它明确问题定义，指引优化方向，提供优化数据，不会受到模型升级的影响，是这个领域 Agent 的重要资产。