摘要:基于大语言模型(LLM)的网络智能体近期取得了显著进展,但其中大部分成果都诞生于闭源系统,这进一步拉大了其与开源替代方案之间的差距。目前,该领域的发展受到两大关键挑战的制约:其一,现有研究过于聚焦单步任务,而忽视了多步网页交互的复杂性;其二,对基于LLM的网络智能体进行后训练(post-train)需要高昂的计算成本。为解决上述问题,我们开展了首个基于统计方法的LLM网络智能体后训练计算资源分配研究。我们的方法采用两阶段流程:首先,通过监督微调(Supervised Fine-Tuning, SFT)训练一个Llama 3.1 80亿参数的“学生”模型,使其模仿Llama 3.3 700亿参数的“教师”模型;随后,采用在线策略强化学习(On-Policy Reinforcement Learning)进一步优化模型。我们发现,这一过程对超参数的选择极为敏感,全面遍历所有超参数组合既不现实也不可行。为避免他人重复进行成本高昂的试错实验,我们采样了1370组超参数配置,并运用自助法(Bootstrapping)估算出有效的超参数组合。实验结果表明,在WorkArena和MiniWob++两个数据集上,将SFT与在线策略强化学习相结合的方法,其性能始终优于单独使用任一方法。此外,这一策略在MiniWob++数据集上仅需55%的计算量,即可达到纯SFT方法的峰值性能,有效推动了计算资源-性能帕累托前沿的优化,并且是目前唯一能够缩小与闭源模型性能差距的策略。Huggingface链接:Paper page,论文链接:2507.04103
一、研究背景和目的
研究背景
近年来,基于大语言模型(Large Language Model, LLM)的网络智能体(Web Agents)在自动化网页交互任务中取得了显著进展。这些智能体能够通过理解自然语言指令并执行相应的网页操作,从而完成复杂的在线任务,如信息检索、表单填写、在线购物等。然而,尽管开源LLM在数学、代码生成等领域取得了令人瞩目的成果,但在训练能够处理多步骤、长序列网页交互任务的智能体方面,进展仍然有限。
目前,大多数研究集中在单步任务上,如简单的数学计算或代码片段生成,这些任务具有快速的反馈机制和简化的信用分配问题。然而,现实世界中的网页环境要求智能体能够处理多步骤、延迟奖励和稀疏反馈的复杂任务。现有的基准测试,如WebArena、WorkArena、OSWorld和The Agent Company,揭示了当前方法在处理这些复杂任务时的脆弱性。
此外,训练基于LLM的网络智能体需要高昂的计算成本,这主要归因于监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)的结合使用。由于训练过程对超参数的选择极为敏感,且单次实验结果波动较大,因此进行全面的超参数调优和多轮实验对于大多数实验室来说是不切实际的。
研究目的
本研究旨在解决上述挑战,提供一种基于统计的诊断方法,以优化基于LLM的网络智能体的训练过程。具体目标包括:
- 分析计算资源分配:研究如何在SFT和RL之间分配计算资源,以在给定的计算预算内实现最佳性能。
- 提供超参数优化建议:通过大规模实验和自助法(Bootstrapping)分析,识别关键超参数及其最佳配置,减少试错成本。
- 推动开源LLM网络智能体的发展:为小型研究团队提供可重复、经济高效的训练流程,使其能够在不增加模型规模的情况下,训练出接近最先进水平的开源LLM网络智能体。
二、研究方法
1. 两阶段训练流程
本研究采用了一个两阶段的训练流程:
- 第一阶段:监督微调(SFT):使用一个大型教师模型(Llama 3.3 70B)生成成功的任务轨迹,通过SFT训练一个小型学生模型(Llama 3.1 8B)。
- 第二阶段:在线策略强化学习(RL):从SFT的中间检查点开始,使用组相对策略优化(Group Relative Policy Optimization, GRPO)算法继续训练学生模型。
2. 实验设计
为了研究计算资源在SFT和RL之间的最佳分配,研究进行了1370组不同的训练配置实验,涵盖了10个关键超参数的变化。这些超参数包括解码温度、课程学习、优势归一化、批量大小等。
3. 自助法分析
由于单次实验结果波动较大,研究采用自助法对1370组实验结果进行重采样,以估计不同超参数配置对下游性能的影响。通过这种方法,研究能够识别出在不同计算预算下,哪些超参数配置最有可能实现最佳性能。
4. 评估协议
研究在两个基准测试集上评估了模型的性能:MiniWoB++和WorkArena。MiniWoB++包含30个中等复杂度的网页交互任务,而WorkArena则包含33个更复杂的企业知识工作任务。评估协议考虑了两种类型的泛化能力:训练任务中未见过的目标(held-out goals)和完全未见过的任务(held-out tasks)。
三、研究结果
1. 计算资源分配与性能权衡
研究结果表明,将SFT与RL相结合的方法在MiniWoB++和WorkArena上的性能始终优于单独使用任一方法。特别是在MiniWoB++上,结合方法仅需55%的计算量即可达到纯SFT方法的峰值性能,有效推动了计算资源-性能帕累托前沿的优化。
2. 超参数优化建议
通过自助法分析,研究识别出了在不同计算预算下最优的超参数配置。例如,解码温度设置为0.25时性能最佳,课程学习在从零开始训练RL时有益但在SFT预热后有害,错误日志反馈在没有SFT时有帮助但在有SFT时无显著影响等。
3. 任务性能饱和与分析
尽管结合方法显著提高了性能,但在WorkArena上的某些复杂任务(如排序和过滤)上,模型性能仍然停滞不前。这归因于教师模型本身的局限性以及奖励信号的稀疏性。此外,研究还发现,在SFT预热后,某些RL机制(如重要性比率校正和信任域)对模型性能有稳定作用。
四、研究局限
1. 实验范围有限
本研究主要关注于英语语言网页界面和Llama3模型系列(8B-70B参数范围)。对于更大规模的模型或其他语言环境,计算资源-性能权衡可能会有所不同。
2. 随机搜索覆盖不足
尽管进行了1370组实验,但由于随机搜索的局限性,可能仍存在未被发现的更优超参数配置。更全面的搜索可能会改变本研究的部分结论。
3. 不确定性来源
报告的不确定性部分源于随机搜索的覆盖不足。通过评估更多配置,可以进一步降低这种不确定性。
五、未来研究方向
1. 扩展模型规模和语言环境
未来的研究可以扩展到更大规模的模型和其他语言环境,以验证本研究的结论是否适用于更广泛的场景。
2. 更高效的训练方法
探索更高效的训练方法,如元学习、迁移学习等,以进一步降低训练成本并提高模型性能。
3. 更全面的超参数搜索
进行更全面的超参数搜索,以发现可能存在的更优配置,并进一步优化模型的性能。
4. 处理更复杂的任务
针对更复杂的任务(如排序和过滤),研究更有效的奖励信号设计和学习策略,以克服当前方法的局限性。
5. 增强模型的解释性和可靠性
研究如何增强模型的解释性和可靠性,使其能够在关键应用中更安全、更可靠地运行。这包括提高模型的透明度、减少偏见和错误等。
总之,本研究通过统计诊断方法优化了基于LLM的网络智能体的训练过程,提供了可重复、经济高效的训练流程,并为未来的研究指明了方向。