【AI论文】如何训练你的大语言模型（LLM）网络智能体：一项统计诊断分析-CSDN博客

本文链接：https://blog.csdn.net/m0_66899341/article/details/149256450

摘要：基于大语言模型（LLM）的网络智能体近期取得了显著进展，但其中大部分成果都诞生于闭源系统，这进一步拉大了其与开源替代方案之间的差距。目前，该领域的发展受到两大关键挑战的制约：其一，现有研究过于聚焦单步任务，而忽视了多步网页交互的复杂性；其二，对基于LLM的网络智能体进行后训练（post-train）需要高昂的计算成本。为解决上述问题，我们开展了首个基于统计方法的LLM网络智能体后训练计算资源分配研究。我们的方法采用两阶段流程：首先，通过监督微调（Supervised Fine-Tuning, SFT）训练一个Llama 3.1 80亿参数的“学生”模型，使其模仿Llama 3.3 700亿参数的“教师”模型；随后，采用在线策略强化学习（On-Policy Reinforcement Learning）进一步优化模型。我们发现，这一过程对超参数的选择极为敏感，全面遍历所有超参数组合既不现实也不可行。为避免他人重复进行成本高昂的试错实验，我们采样了1370组超参数配置，并运用自助法（Bootstrapping）估算出有效的超参数组合。实验结果表明，在WorkArena和MiniWob++两个数据集上，将SFT与在线策略强化学习相结合的方法，其性能始终优于单独使用任一方法。此外，这一策略在MiniWob++数据集上仅需55%的计算量，即可达到纯SFT方法的峰值性能，有效推动了计算资源-性能帕累托前沿的优化，并且是目前唯一能够缩小与闭源模型性能差距的策略。Huggingface链接：Paper page，论文链接：2507.04103

一、研究背景和目的

研究背景

近年来，基于大语言模型（Large Language Model, LLM）的网络智能体（Web Agents）在自动化网页交互任务中取得了显著进展。这些智能体能够通过理解自然语言指令并执行相应的网页操作，从而完成复杂的在线任务，如信息检索、表单填写、在线购物等。然而，尽管开源LLM在数学、代码生成等领域取得了令人瞩目的成果，但在训练能够处理多步骤、长序列网页交互任务的智能体方面，进展仍然有限。

目前，大多数研究集中在单步任务上，如简单的数学计算或代码片段生成，这些任务具有快速的反馈机制和简化的信用分配问题。然而，现实世界中的网页环境要求智能体能够处理多步骤、延迟奖励和稀疏反馈的复杂任务。现有的基准测试，如WebArena、WorkArena、OSWorld和The Agent Company，揭示了当前方法在处理这些复杂任务时的脆弱性。

此外，训练基于LLM的网络智能体需要高昂的计算成本，这主要归因于监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）的结合使用。由于训练过程对超参数的选择极为敏感，且单次实验结果波动较大，因此进行全面的超参数调优和多轮实验对于大多数实验室来说是不切实际的。

研究目的

本研究旨在解决上述挑战，提供一种基于统计的诊断方法，以优化基于LLM的网络智能体的训练过程。具体目标包括：

分析计算资源分配：研究如何在SFT和RL之间分配计算资源，以在给定的计算预算内实现最佳性能。
提供超参数优化建议：通过大规模实验和自助法（Bootstrapping）分析，识别关键超参数及其最佳配置，减少试错成本。
推动开源LLM网络智能体的发展：为小型研究团队提供可重复、经济高效的训练流程，使其能够在不增加模型规模的情况下，训练出接近最先进水平的开源LLM网络智能体。

二、研究方法

1. 两阶段训练流程

本研究采用了一个两阶段的训练流程：

第一阶段：监督微调（SFT）：使用一个大型教师模型（Llama 3.3 70B）生成成功的任务轨迹，通过SFT训练一个小型学生模型（Llama 3.1 8B）。
第二阶段：在线策略强化学习（RL）：从SFT的中间检查点开始，使用组相对策略优化（Group Relative Policy Optimization, GRPO）算法继续训练学生模型。

2. 实验设计

为了研究计算资源在SFT和RL之间的最佳分配，研究进行了1370组不同的训练配置实验，涵盖了10个关键超参数的变化。这些超参数包括解码温度、课程学习、优势归一化、批量大小等。

3. 自助法分析

由于单次实验结果波动较大，研究采用自助法对1370组实验结果进行重采样，以估计不同超参数配置对下游性能的影响。通过这种方法，研究能够识别出在不同计算预算下，哪些超参数配置最有可能实现最佳性能。

4. 评估协议

研究在两个基准测试集上评估了模型的性能：MiniWoB++和WorkArena。MiniWoB++包含30个中等复杂度的网页交互任务，而WorkArena则包含33个更复杂的企业知识工作任务。评估协议考虑了两种类型的泛化能力：训练任务中未见过的目标（held-out goals）和完全未见过的任务（held-out tasks）。