摘要:图形用户界面(Graphical User Interface,GUI)定位将自然语言指令映射到精确的界面位置,以实现自主交互。当前的强化学习方法采用二元奖励机制,将界面元素视为“命中或未命中”的目标,这种奖励机制产生的信号稀疏,忽略了空间交互的连续性。受人类点击行为(自然形成以目标元素为中心的高斯分布)的启发,我们提出了GUI高斯定位奖励(GUI Gaussian Grounding Rewards,GUI-G²)方法,这是一种基于原理的奖励框架,将GUI元素建模为界面平面上的连续高斯分布。GUI-G²集成了两种协同机制:高斯点奖励通过以元素中心为中心的指数衰减分布对精确定位进行建模,而覆盖奖励则通过测量预测的高斯分布与目标区域的重叠程度来评估空间对齐情况。为了处理不同大小的元素,我们开发了一种自适应方差机制,该机制根据元素尺寸校准奖励分布。这一框架将GUI定位从稀疏的二元分类转变为密集的连续优化,其中高斯分布会产生丰富的梯度信号,引导模型找到最佳交互位置。在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro基准测试中进行的广泛实验表明,GUI-G²的性能显著优于最先进的方法UI-TARS-72B,在ScreenSpot-Pro基准测试中,性能提升最高达24.7%。我们的分析表明,连续建模对界面变化具有更强的鲁棒性,并且对未见过的布局具有更好的泛化能力,为GUI交互任务中的空间推理建立了新的范式。Huggingface链接:Paper page,论文链接:2507.15846
《2507.15846v2》总结:研究背景和目的、研究方法、研究结果、研究局限、未来研究方向
1. 研究背景和目的
研究背景
随着人工智能技术的快速发展,图形用户界面(Graphical User Interface, GUI)的自动化交互成为了一个重要的研究领域。GUI作为用户与计算机系统交互的主要方式,其复杂性和多样性不断增加。为了实现更加智能和高效的GUI交互,需要一种能够准确理解自然语言指令并将其映射到GUI界面上精确位置的技术,即GUI定位(GUI Grounding)。
现有的GUI定位方法主要依赖于强化学习(Reinforcement Learning, RL)框架,但这些方法通常使用二元奖励机制(binary rewards),即只有当预测的位置完全落在目标区域内时才给予奖励,否则不给予奖励。这种机制忽略了空间交互的连续性,导致奖励信号稀疏且难以指导模型进行精确的空间定位。此外,人类在点击GUI元素时的行为自然形成以目标元素为中心的高斯分布,这一观察为设计更合理的奖励机制提供了灵感。
研究目的
本研究旨在提出一种新的奖励建模框架——GUI高斯定位奖励(GUI Gaussian Grounding Rewards, GUI-G²),以解决现有GUI定位方法中奖励信号稀疏和空间交互连续性被忽略的问题。具体目标包括:
- 设计高斯奖励机制:将GUI元素建模为界面平面上的连续高斯分布,通过高斯点奖励和覆盖奖励来捕捉空间交互的连续性和精确性。
- 提高定位精度:通过连续奖励信号引导模型找到最佳交互位置,提高GUI定位的准确性。
- 增强鲁棒性和泛化能力:使模型能够更好地适应不同界面布局和元素尺寸的变化,提高对未见布局的泛化能力。
2. 研究方法
高斯奖励建模
GUI-G²框架将GUI元素建模为界面平面上的二维高斯分布。每个元素的高斯分布由其中心坐标(均值)和协方差矩阵(决定分布的形状和大小)定义。具体实现包括:
- 高斯点奖励:通过以元素中心为中心的指数衰减分布对精确定位进行建模。预测位置越接近元素中心,奖励值越高。
- 高斯覆盖奖励:通过测量预测的高斯分布与目标区域的重叠程度来评估空间对齐情况。使用Bhattacharyya系数计算两个高斯分布之间的重叠程度作为覆盖奖励。
自适应方差机制
为了处理不同大小的GUI元素,GUI-G²引入了自适应方差机制。该机制根据元素尺寸动态调整高斯分布的方差,确保奖励分布能够适应不同元素的空间范围。具体实现中,使用了基于元素宽度和高度的统计原则(如2σ原则)来确定方差大小。
强化学习集成
将GUI-G²奖励机制集成到强化学习框架中,使用Group Relative Policy Optimization (GRPO)算法进行策略优化。在每个训练步骤中,采样多个预测响应并计算其奖励,然后基于奖励值更新策略。
实验设置
- 训练数据:从Widget Captioning、UI RefExp、ShowUI-web和OmniAct等数据集中采样约100K个GUI定位实例。
- 评估基准:在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro三个基准测试集上评估模型性能。
- 对比方法:与多种先进的GUI定位方法进行对比,包括UI-TARS、GUI-R1、InfiGUI-R1、SE-GUI和LPO等。
3. 研究结果
性能提升
GUI-G²在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro三个基准测试集上均取得了显著的性能提升。具体结果如下:
- ScreenSpot:GUI-G²-7B达到了92.0%的准确率,优于所有对比方法。
- ScreenSpot-v2:GUI-G²-7B达到了93.3%的准确率,比次优方法高出3.0%。
- ScreenSpot-Pro:GUI-G²-7B达到了47.5%的准确率,比最先进的UI-TARS-72B高出9.4%,且模型参数量仅为UI-TARS-72B的十分之一。
奖励机制分析
- 二元奖励与连续奖励对比:二元奖励在训练过程中表现出不稳定的优化轨迹,而连续奖励(如GUI-G²)提供了平滑的梯度信号,使模型能够更稳定地收敛到最优解。
- 高斯点奖励与覆盖奖励的协同作用:单独使用点奖励或覆盖奖励均会导致性能下降,而两者结合使用则能达到最佳性能,表明精确的局部定位和全面的空间覆盖对于GUI定位同样重要。
- 自适应方差机制的有效性:自适应方差机制能够根据元素尺寸动态调整奖励分布,显著提高模型对不同大小元素的定位精度。
4. 研究局限
尽管GUI-G²在GUI定位任务中取得了显著的性能提升,但仍存在一些局限性:
- 对复杂图标和文本的识别能力有限:在包含大量图标和文本的复杂界面中,模型的识别准确率会受到影响。这主要归因于模型对视觉符号的语义理解能力不足。
- 训练数据依赖:模型性能高度依赖于训练数据的质量和多样性。在面对未见过的界面布局或元素类型时,模型的泛化能力可能受到限制。
- 计算成本:虽然GUI-G²在性能上优于许多对比方法,但其计算成本也相对较高,尤其是在处理高分辨率界面时。
5. 未来研究方向
针对GUI-G²的局限性,未来的研究可以从以下几个方面展开:
- 增强视觉语义理解能力:通过引入更先进的视觉和语言模型,提高模型对复杂图标和文本的识别能力。例如,可以利用预训练的多模态模型来提取更丰富的视觉和语义特征。
- 扩展训练数据集:收集更多样化的GUI定位实例,包括不同领域、不同风格的界面截图,以提高模型的泛化能力。同时,可以考虑使用数据增强技术来增加训练数据的多样性。
- 优化计算效率:探索模型压缩和加速技术,降低GUI-G²的计算成本。例如,可以通过量化、剪枝和蒸馏等方法来减小模型大小并提高推理速度。
- 探索多模态交互:结合语音、手势等其他模态的交互方式,提供更自然、更高效的GUI定位和交互体验。这需要设计新的多模态奖励机制和交互策略。
- 实际应用测试:在实际应用场景中测试GUI-G²的性能和稳定性,收集用户反馈并持续优化模型。这有助于将研究成果转化为实际生产力,推动GUI自动化交互技术的发展。