VLM-R1：一种稳定且可泛化的R1风格大型视觉语言模型

最新推荐文章于 2025-05-31 18:21:22 发布

Paper易论

最新推荐文章于 2025-05-31 18:21:22 发布

阅读量1.1k

点赞数 13

CC 4.0 BY-SA版权

文章标签：语言模型目标跟踪人工智能

本文链接：https://blog.csdn.net/u013524655/article/details/147200751

沈昊展 ${ }^{1}$ ，刘鹏 ${ }^{2}$ ，李静成 ${ }^{2}$ ，方春新 ${ }^{2}$ ，马一博 ${ }^{2}$ ，廖佳佳 ${ }^{2}$ ，沈桥丽 ${ }^{2}$ ，张子伦 ${ }^{1}$ ，赵康嘉 ${ }^{1}$ ，张倩倩 ${ }^{2}$ ，许若晨 ${ }^{2}$ ，赵天诚 $}^{2,3 \text { a }}$
${ }^{1}$ 浙江大学 ${ }^{2}$ Om AI Research ${ }^{3}$ 浙江大学滨江研究院
{tianchez}@zju-bj.com

图1. VLM-R1 提供了一种标准管道，用于通过强化学习增强基础视觉语言模型 (VLMs)。

摘要

最近，DeepSeek R1 表明，通过简单而有效的设计，强化学习（RL）可以显著提高大型语言模型（LLMs）的推理能力。R1 的核心在于其基于规则的奖励公式，该公式利用具有确定性真实答案的任务来实现精确和稳定的奖励计算。在视觉领域，我们同样观察到，许多视觉理解任务本质上都配备了明确的真实注释。这一特性使它们自然与基于规则的奖励机制兼容。受此观察的启发，我们研究了将 R1 风格的强化学习扩展到视觉语言模型（VLMs），旨在增强其视觉推理能力。为此，我们开发了 VLM-R1，这是一种专门设计的框架，旨在利用 RL 提高 VLM 在一般视觉语言任务上的性能。使用该框架，我们进一步探索了将 RL 应用于视觉领域的可行性。实验结果表明，基于 RL 的模型不仅在视觉理解任务上表现出竞争力，而且在泛化能力方面超越了监督微调（SFT）。此外，我们进行了全面的消融研究，揭示了一系列值得注意的见解，包括目标检测中的奖励劫持现象、"OD 啊哈时刻"的出现、训练数据质量的影响以及不同模型规模下的 RL 扩展行为。通过这些分析，我们希望加深对强化学习如何增强视觉语言模型能力的理解，并希望通过我们的发现和开源贡献支持视觉语言 RL 社区的持续进步。我们的代码和模型可在 https://github.com/om-ai-lab/VLM-R1 获得。

${ }^{63}$ 对应作者。
## 1. 引言

OpenAI o1 [20] 的引入证明了强化学习（RL），它使大型语言模型（LLMs）能够直接从其输出反馈中学习，从而显著增强了它们的推理能力。最近，DeepSeek R1 [17] 进一步推进了这一见解，表明即使没有单独学习的奖励模型 [28, 39, 56]，简单的基于规则的奖励也足以自主赋予 LLMs 复杂的推理性能。

这种成功背后的一个关键因素是基于规则的奖励设计很容易适用于具有确定性真实答案的任务，允许稳定且可解释的奖励信号。在视觉领域，类似地，存在许多本质上包含精确且客观定义的真实注释的视觉理解任务。例如，诸如指代表达理解（REC）[37, 55] 等任务可以直接采用预测边界框与真实注释之间的交并比（IoU）作为显式的奖励指标。受这些观察的启发，很直观地要调查类似的 RL 方法是否可以同等增强视觉语言模型（VLMs）的推理能力。

为此，我们开发了 VLM-R1，这是一个专门且可扩展的框架，旨在应用 RL 来提高 VLM 在一般视觉语言任务上的性能。VLM-R1 以灵活性、可扩展性和易于实验为设计重点。它支持广泛的配置，并针对 VLMs 中基于 RL 的优化研究进行了定制。VLM-R1 的关键特性包括：

GRPO 兼容性：完全支持原生 GRPO [46] 算法，并对所有超参数进行细粒度控制。
- LoRA 基于训练：通过 LoRA [18] 实现参数高效训练，适合资源受限环境。
- 多节点训练：支持跨多个 GPU 或服务器节点的分布式训练以实现可扩展性。
- 多图像输入：支持每个样本多张图像，便于复杂的多图像推理任务。
- 模型灵活性：兼容各种 VLMs，目前支持 QwenVL [6, 50] 和 InternVL [10, 11]。
- 自定义数据集支持：轻松集成用户定义的数据集，允许特定任务或特定领域的实验
- 混合模态训练：支持同时训练图像文本和纯文本数据集，包括混合组合。
通过提供统一、模块化和高度适应性的训练管道，VLM-R1 成为了推动强化学习与视觉语言建模交叉领域研究的强大工具。
| 模型 | 模型大小 | Refcoso $_{\text {val }}$ | Refcoso+ $_{\text {val }}$ | Refcosog $_{\text {val }}$ | ODinW |
| :-- | :–: | :–: | :–: | :–: | :–: |
| Qwen2.5-VL-3B | 3.75 B | 89.1 | 82.4 | 85.2 | 37.5 |
| Grounding DINO | 341 M | $90.6\mathbf{9 0 . 6}$ | $88.2\mathbf{8 8 . 2}$ | $86.1\mathbf{8 6 . 1}$ | $55.0\mathbf{5 5 . 0}$ |

表1. Qwen2.5-VL-3B 和 Grounding DINO 在 REC 和 OVD 任务上的性能比较。尽管 Qwen2.5-VL-3B 的参数数量超过 Grounding DINO 十倍以上，仍然在这些评估数据集上表现不佳。这显示了 VLMs 在这些视觉理解任务上的不足。

在本报告中，利用 VLM-R1，我们选择了两个视觉理解任务——指代表达压缩（REC）和开放词汇对象检测（OVD）——来探索将 RL 应用于 VLMs 的可行性和有效性。REC 和 OVD 共享一个共同的输出格式——边界框——但在任务复杂性上有显著差异。在 REC 中，模型被期望根据给定的查询预测单个边界框，而在 OVD 中，模型必须准确输出每个查询目标对应的边界框。这种对比使我们能够分析具有相似输出结构但难度不同的任务如何影响强化学习在 VLMs 中的有效性。此外，我们观察到 VLMs 在这些任务上通常不如专用视觉模型（例如 Grounding DINO [32, 44]，OmDet [59, 60]）表现好。如表1所示，尽管 Qwen2.5-VL-3B 的参数数量超过 Grounding DINO 十倍以上，在 REC 和 OVD 基准测试中仍落后于后者。这种性能差距提出了一个重要问题：能否利用强化学习来增强 VLMs 在这些具有挑战性的视觉理解任务上的效果？

实验结果表明，与监督微调（SFT）相比，RL 显著提高了 VLMs 的视觉理解性能，更重要的是，在复杂的现实基准测试中获得了显著更大的泛化能力提升。在 REC 的背景下，我们的 3B RL 模型在 LISAGrounding [24] 域外评估基准上得分为 63.16（相对于 SFT 的 54.82）。对于 OVD 任务，3B RL 模型在 COCO [27] 上达到了 21.1 AP（相对于 SFT 的 17.8；7B 基础模型的 14.2），并在 OVDEval [54] 上实现了新的 SOTA 31.01 nms-AP（相对于 SFT 的 26.50；7B 模型的 29.08），尤其是在复杂子任务上表现出色。

此外，全面的消融研究进一步揭示了一系列重要见解。例如，我们观察到目标检测中的奖励劫持现象，并进行了奖励工程以缓解这一问题，其中模型出现了“OD 啊哈时刻”，首先推断对象存在然后再进行预测。此外，我们还演示了仔细选择训练数据可以提高最终性能，并分析了模型大小的影响。总的来说，我们的发现表明，更复杂的任务（如开放词汇对象检测）需要额外的优化才能实现强性能，而相对简单的任务（如 REC）可以通过较少的修改有效解决。我们的贡献可以总结为：

我们基于 open-r1 开发了 VLM-R1，这是一个专门且可扩展的框架，旨在应用强化学习来提高视觉语言模型的性能，追求灵活性、可扩展性、易于实验，并支持广泛的 RL 配置。
- 我们通过训练两个基本的视觉理解任务：指代表达压缩和开放词汇对象检测，展示了将强化学习应用于视觉语言模型的有效性。使用 VLM-R1 训练的 RL 模型相对于 SFT 模型实现了性能改进，特别是在复杂的现实域外基准测试中。
- 我们的扩展消融研究揭示了一系列有趣的见解，包括目标检测中的奖励劫持现象、“OD 啊哈时刻”的出现、训练数据质量的影响以及不同模型规模下的 RL 效果。我们报告了这些见解并分析了如何良好调整强化学习以增强 VLMs 的性能。
- 我们发布了框架代码库和所有模型权重，希望能为视觉语言强化学习的开源社区做出贡献。

2. 相关工作

2.1. 视觉语言模型

自大型语言模型（LLMs）问世以来，它们在各种语言应用中取得了成功，促进了视觉语言模型（VLMs）的出现，开创性的工作包括 [4, 22, 26]。随后，LLaVA [31] 使用 GPT-4 [2] 开发训练数据，在视觉对话和视觉推理方面取得了令人鼓舞的成果，激发了一系列专注于视觉指令数据的研究 [8, 13, 29]。然而，当时 VLMs 的关键局限性在于其受限的图像输入分辨率，这受到其底层视觉编码器能力的限制 [43, 47, 57]。为克服这一点，引入了 AnyRes 机制 [7, 11, 30]，允许灵活处理不同分辨率和宽高比的图像。这一进展提高了 VLMs 对多样化视觉输入的感知能力，并进一步增强了其推理能力。如今，一些最广泛采用的开源 VLM 系列包括 LLaVA[25, 30, 31]，QwenVL[6, 50] 和 InternVL $[10, 11]$ 。

2.2. 将 R1 应用于 VLMs 的尝试

几项同期研究探讨了将 R1 应用于视觉语言模型（VLMs）。同期工作的 R1-OneVision [53] 和 R1-V [9] 是这一方向中的显著作品。R1-OneVision 提出了一种跨模态推理管道，该管道将图像转换为视觉形式表示，然后通过语言模型构建视觉推理数据集。VLM 首先在这个数据集上进行训练，然后通过 RL 阶段进一步增强其推理能力。与此同时，R1-V 将 DeepSeek R1 [17] 中的 GRPO 方法 [46] 引入 VLM 训练，针对对象计数任务，并显著使 3B 模型超越 72B 模型。不久之后，VisualThinker-R1-Zero [61] 被提出，表明将 R1 应用于基础 VLM 而不是指令微调模型可以获得更显著的性能改进，并成功触发所谓的“视觉啊哈时刻”。另一项观察到啊哈时刻和模型响应长度增加的现象类似于 DeepSeek R1 的工作是 MMEureka [38]，它将 RLOO [3, 23] 应用于 8B 指令微调 VLM 和 38B 基础 VLM。类似于 R1-OneVision，Vision-R1 [19] 通过将视觉信息转换为语言格式并输入语言推理模型构建了一个多模态 CoT 数据集。这个数据集作为冷启动训练数据，随后通过 GRPO 进一步增强模型的多模态推理能力。此外，Curr-ReFT[14] 提出了具有逐步难度级别奖励的三阶段强化学习以优化 RL 训练，而 LMM-R1[42] 提出了两阶段基于规则的 RL，首先采用仅文本数据以加强模型的基本推理能力，然后继续在有限的复杂多模态推理任务上进行 RL。

上述大多数研究主要集中在提高多模态数学任务 [36, 48, 58] 的性能。相比之下，Visual-RFT [35] 将 RL 应用于视觉感知任务，使其更接近我们的工作。然而，我们的研究提供了更全面的调查，超越了简单的监督微调（SFT）和 RL 比较。具体来说，我们进一步分析了奖励工程的作用，并系统地检查了仔细选择训练数据的影响，特别是对于复杂任务。

3. VLM-R1 框架

在本节中，我们简要介绍了所提出的 VLM-R1 框架。VLM-R1 建立在 OpenR1 [16] 之上，这是一个开源框架，用于重现 DeepSeek R1 的语言推理能力。我们将其实现扩展到了视觉语言领域。

图2. VLM-R1 框架流程图。该图表展示了框架的功能转换。VLM-R1 的关键特性由绿色矩形显示。

除了我们的之外，还有几个其他开源框架针对视觉语言强化学习 [1, 9]。需要注意的是，我们的主要目标是将 R1 风格方法适应于视觉语言模型（VLMs）。因此，我们当前的实现专注于 GRPO [46] 算法，这是最初由 DeepSeek R1 采用的。因此，VLM-R1 当前仅支持 GRPO，计划在未来的工作中集成更多 RL 算法。接下来，我们首先概述框架，然后详细描述 VLM 模块，该模块实现了对各种 VLM 架构的无缝支持。

3.1. 概述

如图2所示，VLM-R1 框架由两个主要组件组成：grpo.jsonl.py 和 grpo_trainer.py，它们共同形成了完整的 GRPO [46] 算法到 VLMs 的管道。

在第一阶段（grpo.jsonl.py）作为准备阶段，用户可以灵活定义自定义奖励函数并准备适合其任务的训练数据。框架还通过模块化 VLM 模块定义支持各种 VLMs，这将在§3.2中描述。第二阶段（grpo_trainer.py）管理 GRPO 训练过程。它从模型初始化开始，随后确认由用户自定义参数决定的训练参数。我们支持 LoRA 微调、视觉塔冻结训练和全参数训练，可以根据不同的计算资源和任务需求进行适应。模型随后生成多个序列，使用定义的奖励函数对其进行评分。这些奖励信号随后用于计算 GRPO 损失以进行参数优化。

图3. 训练器和 VLM 模块之间的交互。通过 VLM 模块，GRPOTrainer 只需调用标准化接口即可与不同的 VLMs 进行交互，无需处理模型特定实现。

VLM-R1 提供了对 GRPO 训练的全面支持，同时在奖励设计、模型选择和优化策略方面提供了灵活性，使其成为基于 RL 的视觉语言研究的多功能工具。

3.2. VLM 模块

为了促进各种 VLMs 无缝集成到训练过程中，我们设计了一个统一的组件，我们称之为 VLM 模块。该模块封装了通用的 VLM 功能，例如检索模型类名和将输入问题格式化为模型特定的聊天模板。通过抽象这些操作，GRPOTrainer 只需调用 VLM 模块提供的标准化接口即可与不同的 VLMs 进行交互，无需处理模型特定实现。这一设计不仅简化了新模型的集成，还增强了整体框架的模块化和可读性。训练器与 VLM 模块之间的交互如图3所示。

4. 奖励设计

正如第1节所述，我们选择指代表达理解（REC）和开放词汇对象检测（OVD）作为代表性任务，基于两个考虑。首先，这两个任务共享一个共同的边界框输出格式，但在复杂性上有所不同，提供了一个合适的设置来检验 RL 在不同难度任务中的影响。其次，专门的视觉模型在这些基准测试中始终优于 VLMs，提供了一个宝贵的机会来评估 RL 是否能帮助缩小这种性能差距。

在本节中，我们首先简要介绍一般的 GRPO 算法，然后介绍整合到 GRPO 的 REC 和 OVD 任务的奖励设计。

4.1. GRPO 抽象

与 PPO [45] 等需要额外的批评模型来估计策略性能的强化学习算法不同，组相对策略优化（GRPO）直接比较候选响应组，消除了对单独批评模型的需求。给定一个问题 $q$ ，GRPO 从策略 $πθ\pi_{\theta}$ 中采样 $N$ 个候选响应 ${o1,o2,…,oN}\left\{o_{1}, o_{2}, \ldots, o_{N}\right\}$ 并使用奖励函数 $R(q,oi)R\left(q, o_{i}\right)$ 评估每个响应 $o_{i}$ ，该函数衡量候选响应在给定问题上下文中的质量。为了确定这些响应的相对质量，GRPO 通过计算它们的均值和标准差来归一化奖励，随后得出优势为：

$A_{i}=\frac{r_{i}-\operatorname{mean}\left\{r_{1}, r_{2}, \ldots, r_{N}\right\}}{\operatorname{std}\left\{r_{1}, r_{2}, \ldots, r_{N}\right\}}$

其中 $A_{i}$ 表示候选响应 $o_{i}$ 相对于其他采样响应的优势。GRPO 通过更新策略 $πθ\pi_{\theta}$ 使用以下目标函数鼓励模型生成组内具有更高优势的响应：

$\begin{aligned} \mathcal{J}_{G R P O}(\theta) & =\mathbb{E}\left[\left\{o_{i}\right\}_{i=1}^{N} \sim \pi_{\theta_{o l d}}(q)\right] \\ \frac{1}{N} & \sum_{i=1}^{N}\left\{\min \left[s_{1} \cdot A_{i}, s_{2} \cdot A_{i}\right]-\beta \mathbb{D}_{K L}\left[\pi_{\theta} \| \pi_{r e f}\right]\right\} \\ s_{1} & =\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{o l d}}\left(o_{i} \mid q\right)} \\ s_{2} & =\operatorname{clip}\left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{o l d}}\left(o_{i} \mid q\right)}, 1+\epsilon, 1-\epsilon\right) \end{aligned}$

正如在3.1节中提到的，上述方程中的所有超参数都包含在我们提出的 VLM-R1 框架中。

接下来，我们将介绍 REC 和 OVD 任务中采用的奖励函数 $R$ 。遵循 DeepSeek-R1，我们使用两种类型的奖励：准确性奖励和格式奖励。

4.2. 指代表达理解的奖励函数

准确性奖励。指代表达理解（REC）是一项要求模型识别由指代表达描述的对象区域边界框的任务。记 $q$ 为输入问题， $b^{*}$ 为真实边界框， $o$ 为 VLM 输出句子， $f_{\text {rec }}$ 为从输出句子中提取边界框的函数。REC 的准确性奖励定义为：

$R_{\text {acc }}^{r e c}(q, o)=\operatorname{IoU}\left(b^{*}, f_{\text {rec }}(o)\right)$

其中 IoU 是交并比度量。该奖励函数旨在鼓励模型生成与真实情况紧密匹配的边界框。
格式奖励。REC 的格式奖励检查响应是否遵循指定的格式，即要求模型在标签中输出 json 样式响应并包含一个边界框 (…{… [x1, y1, x2, y2] …})，根据合规性返回 1 或 0。

4.3. 开放词汇对象检测的奖励函数

准确性奖励。开放词汇对象检测（OVD）要求模型检测图像中的给定对象标签并输出相应的边界框和类别标签。此任务的输出格式与 REC 类似，但由于需要生成边界框和类别标签，更加复杂。在此任务中，我们提示 VLM 输出边界框及其相应类别标签的列表，这些可以通过函数 $f_{\text {ovd }}$ 提取为组合列表 $={(b1,c1),(b2,c2),…,(bn,cn)}\mathbf{b}_{\text {pred }}=\left\{\left(b_{1}, c_{1}\right),\left(b_{2}, c_{2}\right), \ldots,\left(b_{n}, c_{n}\right)\right\}$ ，其中 $b_{i}$ 是边界框， $c_{i}$ 是类别标签。设 $q$ 表示输入问题， $mAP(⋅)\mathrm{mAP}(\cdot)$ 表示计算平均精度度量的函数， $bgt\mathbf{b}_{g t}$ 表示真实边界框和类别标签组合的列表， $L_{g t}$ 表示真实组合的数量， $L_{\text {pred }}$ 表示预测组合的数量。OVD 的准确性奖励定义为：

$\begin{aligned} s_{\text {ovd }} & =\max \left(1, \frac{L_{g t}}{L_{\text {pred }}}\right) \\ R_{\text {acc }}^{\text {ovd }}(q, o) & =s_{\text {ovd }} \cdot \operatorname{mAP}\left(\mathbf{b}_{\text {pred }}, \mathbf{b}_{g t}\right) \end{aligned}$

其中 $s_{\text {ovd }}$ 是对 VLMs 冗余预测的惩罚因子，我们的实验表明，这个惩罚因子有助于提高 OVD 任务的性能。这个奖励被称为 odLength 奖励。

格式奖励。OVD 的格式奖励检查响应是否遵循指定的格式，即要求模型在标签中输出 markdown 样式的 JSON 响应 (… ’ ’ ‘json…’ ’ )，根据合规性返回 1 或 0。

5. 实验

5.1. 实现细节

选定的 VLM。我们选用 Qwen2.5VL-3B-Instruct 作为我们的基础模型，因为它在视觉语言理解方面的潜在性能预计可通过强化学习得到开发，我们还在某些实验中引入了 Qwen2.5VL-7B-Instruct 和 32B 以研究模型大小的影响。

超参数设置。当使用 RL 训练 REC 时，我们采用默认的 GRPO 参数设置，将 $N$ 设为 8，温度设为 0.9，迭代次数设为 1，KL 散度比率（即 $β\beta$ ）设为 0.04。我们训练模型 2 个 epoch，RL 和 SFT 的学习率均为 1e-6。对于 OVD，我们仅将 $β\beta$ 设为 0，保持其他所有参数不变。

提示模板。

REC 问题模板

请提供该句描述的区域的边界框坐标： ${\{$ 查询 $}\}$ 。

图4. REC 任务的域内和域外数据集之间的差异。域内数据仅描述对象的空间或外观属性信息，而域外数据要求模型使用开放世界知识识别足球守门员的角色，然后定位它。

OVD 问题模板

请仔细检查图像并检测以下对象：{目标列表}。以 JSON 格式输出每个检测到的目标的 bbox 坐标。bbox 坐标的格式为：
"'json
[“bbox_2d”: [x1, y1, x2, y2], “label”: “目标名称”, “bbox_2d”: [x1, y1, x2, y2], “label”: “目标名称”] ".
如果图像中没有这样的目标，只需回复 None。

思考提示

{问题} 在 $< /$ think $>$ 和最终答案在标签中输出思考过程。

5.2. 主要结果

5.2.1 指代表达理解

训练数据集。我们使用 Refco $co/+g[37,55]\mathrm{co} /+\mathrm{g}[37,55]$ 的训练拆分作为我们的训练数据。这些是最广泛使用的 REC 任务数据集，主要包含基于空间或外观属性的对象描述，不涉及明确的推理信息。我们的目标是调查在一个非推理数据集上训练的模型是否可以通过 RL 过程获得的推理能力推广到更具挑战性的评估场景。
评估数据集。我们选择 Refco $co/+g[37,55]\mathrm{co} /+\mathrm{g}[37,55]$ 的 val 拆分进行域内评估，并选择 LISA-Grounding [24] 的测试拆分进行域外评估。LISAGrounding 是一个推理密集型数据集，要求模型执行细粒度的视觉感知、准确的

表2. SFT 和 RL 在域内和域外评估数据集上的性能比较。所有结果均来自在 Refcoco $\mathrm{g}$ 训练拆分上训练的 Qwen2.5VL-3B-Instruct。步骤 0 表示 Qwen2.5VL-3B-Instruct 自身的结果。 $ΔRL−SFT\Delta_{R L-S F T}$ 表示 RL 模型相对于 SFT 模型的改进值。

域内测试数据上的性能（RefCOCO/+/g Val 拆分的 Avg Acc）

域外测试数据上的性能（LISA-Grounding 的 Acc）

图5. SFT 和 RL 模型之间的性能比较。RL 模型在域外评估数据集上的泛化性能明显优于 SFT 模型。
引用表达的理解以及对象之间的关系推理，以正确本地化目标边界框。图4展示了两个数据集之间的差异示例。在 LISA-

模型	mAP	$=0.5)\underset{\text { GP (IoU }=0.5)}{\text { COCO }}$	GR (IoU=0.5)
Base 3B	14.2	56.06	33.79
Base 7B	14.4	54.73	33.36
SFT Model 3B	18.5	53.15	39.4
RL Model 3B	$21.1\mathbf{2 1 . 1}$	$67.34\mathbf{6 7 . 3 4}$	$43.84\mathbf{4 3 . 8 4}$

表3. OVD 任务在 $\mathrm{COCO}_{\text {filtered }}$ 上的结果。Base 3B 表示 Qwen2.5VL-3B-Instruct，Base 7B 表示 7B 模型。GP 和 GR 分别代表贪婪精度和贪婪召回。

Grounding 作为模型将从较少推理需求的域内数据集中获得的推理技能推广到显著更具挑战性的域外场景的关键测试。
结果。表2展示了 SFT 和 RL 模型在四个数据集中的性能，并在图5中提供了相应的可视化以便更清晰的比较。在域内测试数据中，无论训练步数多少，SFT 模型相对于基础模型（即步骤 0 ）显示出有限的改进，而 RL 模型则始终实现稳定的性能提升（图5顶部）。更重要的是，在域外测试数据中，随着训练的进行，SFT 模型的性能略有下降。相比之下，RL 模型有效地将其推理能力推广到域外设置，保持稳定且优越的性能（图5底部）。这些结果清楚地证明了强化学习在改善 VLMs 在需要强烈推理的挑战场景中的泛化能力方面的优势。

5.2.2 开放词汇对象检测

训练数据集。我们使用描述检测数据集 $(D3)[52]\left(\mathrm{D}^{3}\right)[52]$ 作为我们的训练数据，该数据集为训练对象检测模型提供了几个独特的优势：(1) 完整的注释覆盖，(2) 不受限制

模型	名人	标志	地标	颜色	材料	位置	关系	否定	总体 NMS-AP
专用 OVD 模型
Grounding-DINO [32]	0.7	10.3	15.1	9.4	9.0	67.5	10.7	52.5	25.30
OmDet [60]	1.8	6.1	26.3	22.9	16.3	21.2	41.98	35.1	25.86
VLM
Base 3B	13.2	26.5	21.3	2.9	$11.6\mathbf{1 1 . 6}$	$47.9\mathbf{4 7 . 9}$	13.1	38.7	25.46
Base 7B	48.4	35.8	44.6	3.0	10.5	40.5	16.2	$39\mathbf{3 9}$	29.08
SFT 模型 3B	50.4	$34.9\mathbf{3 4 . 9}$	$50.7\mathbf{5 0 . 7}$	4.3	7.6	33.7	13.1	34.4	26.50
RL 模型 3B	$55.0\mathbf{5 5 . 0}$	34.6	47.9	$4.5\mathbf{4 . 5}$	9.7	42.9	$21.5\mathbf{2 1 . 5}$	37.7	$31.01\mathbf{3 1 . 0 1}$
$ΔRL−SFT\Delta_{R L-S F T}$	+4.6	-0.3	-2.8	+0.2	+2.1	+9.2	+8.4	+3.3	+4.51

表4. OVD 任务在 OVDEval 上的结果。Base 表示 Qwen2.5VL-3B-Instruct，Base 7B 表示 7B 模型。 $ΔRL−SFT\Delta_{R L-S F T}$ 表示 RL 模型相对于 SFT 模型的改进值。我们还列出了当前专用开放词汇检测中最先进的 OmDet 的性能，以便进行全面比较。
语言描述，(3) 实例级注释，以及(4) 缺失表达支持。在训练期间，我们随机引入其他训练样本中的 $\sim 3$ 个描述作为负表达。
评估数据集。我们选择 $\mathrm{COCO}_{\text {filtered }}$ 和 OVDEval [54] 进行评估。 $\mathrm{COCO}_{\text {filtered }}$ 是从 COCO [27] 数据集的 instances_val2017.json 文件创建的。由于 VLMs 通常在 OD 任务中召回率较低（详见 [21]），我们过滤掉标注框超过 10 个的类别，确保只包括标注框较少的类别。OVDEval 用于评估模型的能力。这是一个专门为开放词汇检测设计的综合基准，系统地评估模型在六个关键语言方面的表现 ${ }^{1}$ 。它进一步引入了硬负样本以评估鲁棒性，并引入了一种新的 NMS-AP 指标以解决常见的“膨胀 AP 问题”，从而提供更准确的 OVD 评估。所有由 VLM 生成的输出框在计算 AP 时都被分配一个置信度分数 $1\mathbf{1}$ 。在 COCO 评估期间， ${\{$ 目标列表 $}\}$ 一致设置为所有 COCO 80 个类别。对于 OVDEval 评估，我们保留官方评估设置。
结果。表3展示了在 $\mathrm{COCO}_{\text {filtered }}$ 上的性能。RL 训练的模型相对于 SFT 模型表现出显著的改进，mAP 提高了 2.6 个百分点（21.1% vs 18.5%），贪婪精度提高了 4.42 个百分点（57.57% vs 53.15%），贪婪召回提高了 4.33 个百分点（43.73% vs 39.4%）。这些在所有指标上的一致改进展示了 RL 更强的泛化能力。

在更具挑战性和综合性的基准 OVDEval 上，从表4可以看出，RL 模型在 9 个检测类别中的 7 个类别上超过了 SFT，特别是在需要更深理解的复杂任务中表现出显著改进：位置检测（+9.2 个百分点）、关系检测（+8.4 个百分点）和否定处理（+3.3 个百分点）。此外，尽管 SFT 在名人、标志和地标检测等特定类别中表现出强劲性能，RL 在不同视觉任务中表现出更平衡的改进，表明更好的整体视觉理解泛化能力。

结果表明，虽然 SFT 在某些特定任务中可能有效，但 RL 提供了更全面的改进。平均 nms-ap 提高了 4.51 个百分点（31.01 vs 26.50），表明 RL 具有更强的学习可泛化特征的能力。
与 SoTA OD：OmDet 的比较。OmDet [60] 代表了当前专用开放词汇检测中最先进的技术。然而，我们的 VLM-R1 模型证明了 VLMs 在几个关键方面可以超越专用架构。

RL 模型与 OmDet 之间的性能差距揭示了关于不同方法优缺点的一些有趣见解：

世界知识和实体识别：在名人检测中，VLM-R1 达到 55.0 nms-ap，而 OmDet 仅为 1.8。这种巨大的差异（>50 个百分点）展示了 VLMs 预训练世界知识的价值，类似的模式出现在标志和地标检测中，语义理解至关重要。
- 细粒度检测：我们注意到 OVDEval 的属性类别包含大量小物体。在这种小物体检测场景中，OmDet 表现出更强的性能差距（颜色：22.9 vs 4.5）。这表明专用架构在细粒度、局部特征检测方面表现出色。
这些比较建议了一个有前途的未来方向：结合两者互补的优势。专用 OD 架构在细粒度检测和高召回场景中表现出色，而 VLMs 则带来了丰富的世界知识。未来的研究可以集中在创建利用两者预-否定处理的混合架构上。专用 OD 架构擅长细粒度检测和高召回场景，

5.3. 消融与扩展实验

5.3.1 关于“奖励劫持”的调查

什么是奖励劫持？在强化学习中，奖励劫持 [5] 是指代理利用奖励函数中的漏洞，在没有真正完成预期任务的情况下获得高奖励的现象。当奖励函数与设计者的真实目标不一致时，这种情况就会发生，导致代理采用意外或捷径行为。例如，在一个迷宫导航任务中，如果代理每走一步得 +1 分，走出迷宫得 +100 分，代理可能会无限循环走路以积累步数奖励，而不是解决迷宫问题。这种行为技术上最大化了奖励，但未能达到任务的真实目标。一些文献 $[15, 33, 40, 41, 49, 51]$ 也在大语言模型研究中探讨了这一现象。
OVD 任务中的奖励劫持。表5展示了我们提出的 odLength 相比原生 $A P_{50}$ 和 $m A P$ 奖励的优越性能。仔细检查后，我们识别出原生 $A P 50$ 和 $m A P$ 奖励函数的关键限制。具体来说，我们观察到，使用官方 COCO 评估 API 计算 AP 值时，图像中不存在的类别会被排除在评估之外。鉴于我们的提示设计，始终包含所有正类和几个负类，模型被激励预测所有类别以最大化其奖励——这是一种奖励劫持实例。这种行为在完整数据集评估时会降低精度，因为所有 COCO 80 类别都存在，且不会有任何类别被排除。相比之下，我们的 odLength 奖励通过引入额外的冗余预测惩罚项解决了这一问题。这鼓励模型将预测对象的数量与真实值对齐，从而促进 VLMs 更精确和忠实的输出。
完成长度的可视化。图6展示了不同奖励设置下输出序列长度的变化。值得注意的是，使用原生 $A P_{50}$ 奖励训练的模型——特别是那些没有 KL

图6. 在 OVD 任务中不同奖励设置下的完成长度可视化。可以观察到，使用原生 $A P$ 奖励的模型总是生成过长的完成内容，表明冗余的预测对象。
正则化的模型——在训练过程中表现出显著增加的输出长度。这种趋势表明存在严重的奖励劫持现象，模型被激励枚举过多的对象类别以最大化奖励，导致高度冗余的输出。相反，使用我们提出的 odLength 奖励训练的模型保持稳定且显著更短的输出，有效抑制了不必要的预测。

OD 啊哈时刻。图7展示了有无我们提出的 odLength 奖励的情况对比。在没有 odLength 奖励的情况下，VLM 产生极其冗余的输出，包括正确但重复和错误但重复的检测。尽管检测结果质量较差，原生 $m A P$ 仍然赋予相对较高的奖励，揭示了其易受奖励劫持影响的特点。然而，使用我们提出的 odLength 奖励时，VLM 被激励精确定位每个对象，展现出一种新兴的推理行为，我们称之为“OD 啊哈时刻”。面对涉及多个潜在目标（包括难例）的复杂检测任务时，模型自发采用两步策略：首先通过明确的“思考”步骤确定哪些对象确实存在，然后进行准确的边界框预测。

图7. 有无我们提出的 odLength 奖励情况的对比。左：没有 odLength，模型生成冗余和重复的边界框，但仍从原生 $m A P$ 中获得高奖励。每个圆圈表示一个预测的边界框，相同颜色的圆圈表示坐标相同的边界框。右：有 odLength，模型展现出“OD 啊哈时刻”，首先推断对象是否存在，然后生成准确的边界框。

表6. 不同训练数据模型的性能比较。GP：贪婪精度；GR：贪婪召回；Cel：名人；Land：地标；Mat：材质；Pos：位置；Rel：关系；Neg：否定。

| | $\mathrm{COCO}_{\text {filtered }}$ | | | | | | | | | | |
| :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: | :–: |
| 模型 | mAP | GP | GR | Cel | Logo | Land | Color | Mat | Pos | Rel | Neg | Overall |
| Qwen2.5VL-3B-Instruct | 14.2 | 56.06 | 33.79 | 13.2 | 26.5 | 21.3 | 2.9 | 11.6 | 47.9 | 13.1 | 38.7 | 25.46 |
| 使用 RL | 21.1 | 67.34 | 43.84 | 55.0 | 34.6 | 47.9 | 4.5 | 9.7 | 42.9 | 21.5 | 37.7 | 31.01 |
| Qwen2.5VL-7B-Instruct | 14.4 | 54.73 | 33.36 | 48.4 | 35.8 | 44.6 | 3.0 | 10.5 | 40.5 | 16.2 | 39.0 | 29.08 |
| 使用 RL | 21.9 | 74.46 | 41.2 | 57.1 | 38.3 | 49.4 | 7.8 | 14.7 | 39.4 | 20.1 | 43.1 | 32.42 |
| Qwen2.5VL-32B-Instruct | 18.6 | 57.26 | 47.58 | 57.7 | 32.5 | 46.7 | 4.4 | 13.6 | 41.7 | 20.6 | 47.0 | 32.79 |
| 使用 RL | 23.0 | 74.04 | 48.67 | 57.8 | 35.8 | 48.3 | 7.8 | 19.1 | 44.5 | 27.0 | 51.7 | 36.79 |

表7. 不同规模模型及其对应的 RL 模型之间的性能比较。GP：贪婪精度；GR：贪婪召回；Cel：名人；Land：地标；Mat：材质；Pos：位置；Rel：关系；Neg：否定。

5.3.2 训练数据的选择

表6展示了在 COCO 和 $D3\mathrm{D}^{3}$ 数据集上训练的模型之间的性能比较。值得注意的是，使用 $D3\mathrm{D}^{3}$ 训练的模型显著优于在 COCO 上训练的模型——即使是在与 COCO 训练数据分布一致的域内 $\mathrm{COCO}_{\text {filtered }}$ 评估集上也是如此。关键区别在于训练查询的语义复杂性：COCO 类别通常
简单，往往由单个单词标签组成（如人、汽车），而 $D3\mathrm{D}^{3}$ 查询语义更为丰富，通常以完整的、意义密集的句子形式表述（见图7示例）。我们假设这种语义丰富性的差异在观察到的性能差距中起着关键作用。在强化学习的背景下，具有挑战性和语义复杂的训练数据对于鼓励模型发展更强大的推理链至关重要，最终导致更好的任务表现。

5.3.3 不同模型规模下的 RL 效果

表7展示了不同规模模型及其相应的 RL 增强版本之间的性能比较。出现了一些值得注意的观察：

需要推理能力的关系子任务显示出应用 RL 后在所有模型规模上的显著性能提升 $\rightarrow 21.5,16.2 \rightarrow 20.1$ , $\rightarrow 27.0)$ ，这表明 RL 可以利用 VLMs 的高级推理能力。
- 另一个推理密集型子任务，否定，7B 和 32B RL 模型均实现了改进 ( $\rightarrow 43.1$ , $\rightarrow 51.7$ )，而 3B 模型则出现了轻微的性能下降 ( $\rightarrow 37.7$ )。我们认为这种差异源于基础模型的固有能力。正如 [34] 所示，强化学习主要服务于强化正确的推理模式，而非注入新知识。考虑到 7B 和 32B 基础模型的更大容量，可以合理推测强化学习更有效地利用了它们的潜在推理能力。
- 在颜色子任务方面，7B 和 32B RL 模型相较于 3B 模型表现出更多的性能增益 $\rightarrow 4.5$ vs. $\rightarrow 7.8,4.4 \rightarrow 7.8)$ 。由于 OVDEval 中的颜色子任务主要涉及小物体，这一比较突显了大型 VLMs 在精细视觉细节方面的卓越视觉感知能力。
- 在 $\mathrm{COCO}_{\text {filtered }}$ 子集中，所有规模的模型在贪婪精度方面相对于贪婪召回表现出更大的增益。这种差异与 odLength 奖励的设计一致，该设计明确惩罚冗余边界框预测。虽然这种修正通过抑制过度预测提高了精度，但也可能导致由于模型输出预测时更加保守而导致的召回率略有下降。
- 较大规模的模型总体上表现稍好。

6. 讨论

6.1. 强化学习与监督微调

在指代表达理解的背景下，除了在域内任务上实现稳定的性能提升外，RL 模型还将从非推理训练数据中获得的推理模式推广到需要更细致理解和复杂推理的域外设置。这表明 RL 不仅优化了已见场景的性能，还鼓励模型发展可应用于更具挑战性、未见任务的可转移能力。

此外，在开放词汇对象检测实验中，RL 模型在复杂的 OVDEval
基准测试中大多数子任务上超越了其监督 SFT 对手，特别是在一些具有挑战性的子任务上实现了显著的收益。此外，正如在5.3.3节中讨论的那样，几乎所有规模的模型在这些以推理为中心的任务中都受益于 RL，进一步验证了这种训练范式的泛化优势。

这些发现强有力地支持了 [12] 提出的结论：“SFT 记忆，RL 泛化”。我们的结果加强了 RL 在增强 VLMs 的泛化能力方面的有效性，尤其是在需要推理模式的场景中。

6.2. 通过奖励工程防止奖励劫持

在本报告中，我们揭示了在 OVD 任务中使用原生 $m A P$ 奖励时的奖励劫持现象，并演示了我们提出的 odLength 奖励在缓解这一问题方面的有效性。如图7所示，设计不佳的奖励函数激励模型为了追求更高的奖励值而不加区分地进行过度预测。这种行为导致在评估基准上表现下降。相比之下，结合 odLength 奖励显著抑制了这种冗余输出，导致奖励信号与评估指标之间更好地对齐，并更重要的是，出现了“OD 啊哈时刻”，即首先推断对象存在然后再生成准确的边界框。

这些结果强调了在强化学习管道中精心设计奖励的重要性，特别是在复杂任务中，天真定义的目标可能无法捕捉期望的模型行为。

6.3. 推理和泛化中的数据角色

我们的研究结果突出了训练数据在塑造模型性能中的关键作用。我们观察到，复杂且具有挑战性的训练样本可以有效地激发 VLMs 的推理行为，这与 [38] 中的观察一致。相反，低质量或过于简单的数据可能会阻碍学习，甚至对泛化产生负面影响（表6）。这些见解强调了仔细选择训练数据的必要性。

同样重要的是评估数据的选择。全面且适当具有挑战性的基准对于准确评估模型的推理和感知能力至关重要。在本研究中，我们选择了 LISAGrounding 和 OVDEval 作为评估数据集，因为它们都是为了探测复杂的真实世界场景中的语义理解和泛化能力而设计的。总的来说，我们的结果加强了高质量训练和评估数据对推进 VLMs 能力的重要性。

6.4. 从简单到复杂：为 OVD 适应 RL

在本报告中，我们探索了将 R1 风格的强化学习框架应用于两个结构相似的任务的可行性：指代表达理解（REC）和开放词汇对象检测（OVD），这两个任务都需要模型根据文本描述输出边界框。尽管表面上相似，我们的对比分析揭示了在更复杂的 OVD 任务中成功应用 RL 需要额外的优化。

首先，尽管简单的奖励函数足以用于 REC，但由于奖励劫持，它在 OVD 中无法产生有效的训练，因此有必要设计更强大、定制化的奖励——如我们提出的 odLength。其次，尽管在相对简单的域内数据集（即 RefCOCO）上训练的模型在 REC 设置中表现良好，但这种方法并未有效转移到 OVD。为了解决这个问题，我们精心选择了一个更适合 OVD 的训练数据集（即 $D3\mathrm{D}^{3}$ ），从而取得了优越的结果。

这些发现强调了在更复杂的场景中应用 RL 时需要进行任务特定的优化。

7. 结论

在这项工作中，我们介绍了 VLM-R1，这是一个统一的框架，将 R1 风格的强化学习带入视觉理解领域。我们的框架针对视觉语言模型进行了定制，支持灵活的数据定义、模型模块化和训练可扩展性。使用 VLM-R1，我们成功地将 RL 应用于两个代表性的视觉理解任务——指代表达理解和开放词汇对象检测，展示了任务性能和域外泛化的显著提升。除了实证结果外，我们还提供了关于奖励工程、数据选择和模型扩展的关键见解，这对于有效将 RL 应用于复杂的视觉语言任务至关重要。我们的工作为更广泛地适应视觉语言研究中的强化学习奠定了基础。在未来的工作中，我们旨在探索跨任务泛化，并将 VLM-R1 扩展到更具挑战性的多模态场景。

参考文献

[1] Easyr1: 一个高效、可扩展、多模态 RL 训练框架。https://github.com/hiyouga/ EasyR1, 2025. 4
[2] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat 等。Gpt-4 技术报告。arXiv 预印本 arXiv:2303.08774, 2023. 3
[3] Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer, Olivier Pietquin, Ahmet Üstün, Sara Hooker。回归基础：重新审视从人类反馈中学习的 REINFORCE 风格优化在 LLMs 中的应用。arXiv 预印本 arXiv:2402.14740, 2024. 3
[4] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds 等。Flamingo: 一个用于少样本学习的视觉语言模型。神经信息处理系统进展，35:23716-23736, 2022. 3
[5] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané。人工智能安全中的具体问题。arXiv 预印本 arXiv:1606.06565, 2016. 9
[6] 白帅，陈克勤，刘雪婧，王佳琳，葛文斌，宋思博，党凯，王鹏，王世杰，唐军等。Qwen2. 5-vl 技术报告。arXiv 预印本 arXiv:2502.13923, 2025. 2, 3
[7] 陈科臻，Thapa Rahul，Chalamala Rahul，Athiwaratkun Ben，Song Shuaiwen Leon，Zou James。Dragonfly: 多分辨率缩放超级充电大型视觉语言模型。arXiv 预印本 arXiv:2406.00977, 2024. 3
[8] 陈林，李继松，董晓毅，张攀，何聪慧，王嘉琪，赵峰，林达华。Sharegpt4v: 通过更好的标题改进大型多模态模型。arXiv 预印本 arXiv:2311.12793, 2023. 3
[9] 陈亮，李磊，赵浩哲，宋一帆，Vinci。R1-v: 用不到 $3 强化视觉语言模型的超泛化能力。https://github. com/Deep-Agent/R1-V, 2025. 访问日期: 2025-02-02. 3, 4
[10] 陈哲，王伟云，曹越，刘阳洲，高章伟，崔尔飞，朱金国，叶胜龙，田昊，刘兆洋等。通过模型、数据和测试时间扩展提高开源多模态模型的性能边界。arXiv 预印本 arXiv:2412.05271, 2024. 2, 3
[11] 陈哲，王伟云，田昊，叶胜龙，高章伟，崔尔飞，童文文，胡孔志，罗家鹏，马征等。我们离 GPT-4V 还有多远？通过开源套件缩小与商业多模态模型的差距。arXiv 预印本 arXiv:2404.16821, 2024. 2, 3
[12] Chu Tianzhe, Zhai Yuexiang, Yang Jihan, Tong Shengbang, Xie Saining, Schuurmans Dale, Le Quoc V, Levine Sergey, Ma Yi。Sft 记忆，rl 泛化：基础模型再训练的比较研究。arXiv 预印本 arXiv:2501.17161, 2025. II
[13] 戴文良，李俊楠，李东旭，Anthony Meng Huat Tiong，赵俊琦，王维生，李伯洋，冯帕斯卡尔，霍伊。Instructblip: 通过指令微调实现通用视觉语言模型。2023. 3
[14] 邓辉林，邹顶，马锐，罗宏辰，曹洋，康禹。通过课程强化学习提升视觉语言模型的泛化和推理能力。arXiv 预印本 arXiv:2503.07065, 2025. 3
[15] Carson Denison, Monte MacDiarmid, Fazl Barez, David Duvenaud, Shauna Kravec, Samuel Marks, Nicholas Schiefer, Ryan Soklaski, Alex Tamkin, Jared Kaplan 等。奉承至诡计：调查大型语言模型中的奖励篡改。arXiv 预印本 arXiv:2406.10162, 2024. 9
[16] Hugging Face。Open r1: Deepseek-r1 的完全开放再现，2025. 3
[17] Guo Daya, Yang Dejian, Zhang Haowei, Song Junxiao, Zhang Ruoyu, Xu Runxin, Zhu Qihao, Ma Shirong, Wang Peiyi, Bi Xiao 等。Deepseek-r1: 通过强化学习激励 LLMs 的推理能力。arXiv 预印本 arXiv:2501.12948, 2025. 2, 3
[18] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen 等。Lora: 大型语言模型的低秩自适应。ICLR，1(2): 3,2022.2
[19] 黄文轩，贾博涵，翟子杰，曹少盛，叶哲烨，赵飞，胡瑶，林少晖。Vision-r1: 激励多模态大型语言模型的推理能力。arXiv 预印本 arXiv:2503.06749, 2025. 3
[20] Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney 等。OpenAI o1 系统卡。arXiv 预印本 arXiv:2412.16720, 2024. 2
[21] 江青，罗根，杨玉琴，熊宇豪，陈意浩，曾昭阳，任天河，张雷。Chatrex: 驯服多模态 LLM 以联合感知和理解，2024. 8
[22] Koh Jing Yu, Ruslan Salakhutdinov, Daniel Fried。将语言模型接地到图像以实现多模态输入和输出。机器学习国际会议论文集，第 17283-17300 页。PMLR，2023. 3
[23] Wouter Kool, Herke van Hoof, Max Welling。买 4 个 reinforce 样本，免费获得一个基线！2019. 3
[24] 赖欣，田卓涛，陈昱康，李彦伟，袁玉慧，刘澍，贾佳亚。LISA: 通过大型语言模型进行推理分割。计算机视觉和模式识别 IEEE/CVF 会议论文集，第 9579-9589 页，2024. 2, 6
[25] 李博，张元翰，郭东，张仁瑞，李锋，张浩，张凯晨，张培远，李彦伟，刘子薇等。LLaVA-OneVision: 简单的视觉任务迁移。arXiv 预印本 arXiv:2408.03326, 2024. 3
[26] 李俊楠，李冬旭，Silvio Savarese，Steven Hoi。BLIP-2: 使用冻结图像编码器和大型语言模型引导的语言-图像预训练。机器学习国际会议论文集，第 1973019742 页。PMLR，2023. 3
[27] Lin Tsung-Yi, Maire Michael, Belongie Serge, Hays James, Perona Pietro, Ramanan Deva, Dollár Piotr, Zitnick C Lawrence。Microsoft COCO: 上下文中的常见对象。计算机视觉-ECCV 2014: 第 13 届欧洲会议，瑞士苏黎世，2014 年 9 月 6-12 日，会议记录，第 13 卷，第 740-755 页。Springer，2014. 2, 8
[28] 刘成宇，曾梁，刘佳才，颜睿，何菊杰，王超杰，严淑城，刘洋，周雅慧。Skywork-reward: LLMs 奖励建模的技巧包。arXiv 预印本 arXiv:2410.18451, 2024. 2
[29] 刘昊天，李春媛，李雨恒，李永杰。通过视觉指令微调改进基线。计算机视觉和模式识别 IEEE/CVF 会议论文集，第 26296-26306 页，2024. 3
[30] 刘昊天，李春媛，李雨恒，李博，张元翰，沈盛，李永杰。LLaVA-next: 改进的推理、OCR 和世界知识，2024. 3
[31] 刘昊天，李春媛，吴清扬，李永杰。视觉指令微调。神经信息处理系统进展，36，2024. 3
[32] 刘世龙，曾昭阳，任天河，李风，张浩，杨杰，江庆，刘春岩，李淳源，杨建伟，苏航等。Grounding DINO: 将 DINO 与地面预训练相结合用于开放集对象检测。欧洲计算机视觉会议论文集，第 38-55 页。Springer，2024. 2, 8
[33] 刘轶奇，Moosavi Nafise Sadat，林成华。作为自恋评估者的 LLMs: 当自我膨胀评价分数时。arXiv 预印本 arXiv:2311.09766, 2023. 9
[34] 刘子辰，陈昌宇，李文君，祁鹏辉，庞天宇，杜超，李敏，Lee Wee Sun，林敏。理解 R1-zero 类似训练：批判性视角。arXiv 预印本 arXiv:2503.20783, 2025. 11
[35] 刘子钰，孙泽一，臧宇航，董晓义，曹玉航，段浩东，林达华，王佳琦。VisualRFT: 视觉强化微调。arXiv 预印本 arXiv:2503.01785, 2025. 3
[36] 盘璐，Hritik Bansal，Tony Xia，刘机成，李春媛，Hannaneh Hajishirzi，程浩，Chang Kai-Wei，Michel Galley，高剑峰。MathVISTA: 评估基础模型在视觉环境中的数学推理能力。arXiv 预印本 arXiv:2310.02255, 2023. 3
[37] 毛俊华，黄宗虎，Toshev Alexander，Camburu Oana，Yuille Alan L，Murphy Kevin。生成和理解无歧义对象描述。IEEE 计算机视觉和模式识别会议论文集，第 11-20 页，2016. 2, 6
[38] 孟凡庆，杜领潇，刘宗凯，周志祥，陆全丰，傅道诚，石伯添，王文海，何俊军，张开鹏等。MM-Eureka: 使用基于规则的大规模强化学习探索视觉啊哈时刻。arXiv 预印本 arXiv:2503.07365, 2025. 3, 11
[39] Ouyang Long, Wu Jeffrey, Jiang Xu, Almeida Diogo, Carroll Wainwright, Mishkin Pamela, Zhang Chong, Agarwal Sandhini, Slama Katarina, Ray Alex 等。通过人类反馈训练语言模型遵循指令。神经信息处理系统进展，35:2773027744, 2022. 2
[40] Alexander Pan, Erik Jones, Meena Jagadeesan, and Jacob Steinhardt. 语言模型中的反馈循环会导致上下文中奖励劫持。arXiv 预印本 arXiv:2402.06627, 2024. 9
[41] Jane Pan, He He, Samuel R Bowman, and Shi Feng. 自发性奖励劫持在迭代自我改进中。arXiv 预印本 arXiv:2407.04549, 2024. 9
[42] 彭英哲，张功锐，张淼森，游志远，刘杰，朱启鹏，杨凯，徐兴忠，耿欣，杨旭。LMM-R1: 通过两阶段基于规则的 RL 赋予 3B LMMs 强大的推理能力。arXiv 预印本 arXiv:2503.07536, 2025. 3
[43] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark 等。从自然语言监督中学习可转移的视觉模型。机器学习国际会议论文集，第 8748-8763 页。PMLR，2021. 3
[44] Ren Tianhe, Jiang Qing, Liu Shilong, Zeng Zhaoyang, Liu Wenlong, Gao Han, Huang Hongjie, Ma Zhengyu, Jiang Xiaoke, Chen Yihao 等。Grounding DINO 1.5: 推进开放集对象检测的“边缘”。arXiv 预印本 arXiv:2405.10300, 2024. 2
[45] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov。近端策略优化算法。arXiv 预印本 arXiv:1707.06347, 2017. 5
[46] 邵志宏，王培怡，朱其浩，许润鑫，宋俊晓，毕晓，张浩伟，张明川，Li YK，Wu Y 等。Deepseekmath: 推动开放语言模型中数学推理的极限。arXiv 预印本 arXiv:2402.03300, 2024. 2, 3, 4
[47] 孙权，方玉欣，吴乐德，王新龙，曹岳。EVA-CLIP: 改进 CLIP 的大规模训练技术。arXiv 预印本 arXiv:2303.15389, 2023. 3
[48] 王科，潘军婷，石威康，卢子木，任厚行，周傲军，战明杰，李洪升。用 Math-Vision 数据集衡量多模态数学推理。神经信息处理系统进展，37:95095-95169, 2024. 3
[49] 王培怡，李磊，陈良，蔡泽凡，朱大伟，林炳怀，曹云波，刘启，刘天宇，隋智芳。大型语言模型不是公平的评估者。arXiv 预印本 arXiv:2305.17926, 2023. 9
[50] 王鹏，白帅，谭思楠，王世杰，白金泽，陈克勤，刘学婧，王佳琳，葛文斌等。Qwen2-VL: 提高视觉语言模型在任意分辨率下的世界感知能力。arXiv 预印本 arXiv:2409.12191, 2024. 2, 3
[51] 温佳欣，钟瑞琪，Akbir Khan，Ethan Perez，Jacob Steinhardt，黄民莉，Samuel R Bowman，He He，Feng Shi。语言模型通过 RLHF 学习误导人类。arXiv 预印本 arXiv:2409.12822, 2024. 9
[52] 谢驰，张昭，吴逸轩，朱峰，赵瑞，梁爽。描述对象检测：解放具有灵活表达的对象检测。神经信息处理系统进展，36:79095-79107, 2023. 7
[53] 杨毅，何晓萱，潘鸿坤，姜曦艳，邓燕，杨兴涛，卢海友，尹大成，饶凤云，朱敏峰等。R1-OneVision: 通过跨模态形式化推进广义多模态推理。arXiv 预印本 arXiv:2503.10615, 2025. 3
[54] 姚亿阳，刘鹏，赵天诚，张倩倩，廖佳佳，方春新，李圭松，王青。如何评估检测的泛化能力？一个全面的开放词汇检测基准。arXiv 预印本 arXiv:2308.13177, 2023. 2, 8
[55] 余立成，Poirson Patrick，杨山，Berg Alexander C，Berg Tamara L。指代表达中的上下文建模。计算机视觉-ECCV 2016: 第 14 届欧洲会议，荷兰阿姆斯特丹，2016. 10月11-14日，2016年会议记录，第II部分14，第69-85页。Springer，2016. 2,6
[56] 臧宇航，董晓义，张潘，曹玉航，刘子钰，梁子禹，吴沈溪，马宇波，段浩东，张文伟等。InternLM-XComposer2.5-Reward: 一种简单而有效的多模态奖励模型。arXiv预印本 arXiv:2501.12368, 2025. 2
[57] Zhai Xiaohua，Mustafa Basil，Kolesnikov Alexander，Beyer Lucas。用于语言图像预训练的Sigmoid损失函数，2023. 3
[58] 张仁瑞，江冬志，张一池，林浩坤，郭子宇，邱鹏硕，周傲军，卢潘，陆凯威，乔宇等。Mathverse: 您的多模态LLM是否真正看到了视觉数学问题中的图表？在欧洲计算机视觉会议论文集，第169-186页。Springer，2024. 3
[59] 赵天诚，刘鹏，陆小鹏，李圭松。OmDet: 具有大规模视觉语言多数据集预训练的语义感知目标检测。CoRR, 2022. 2
[60] 赵天诚，刘鹏，李圭松。OmDet: 带有多模态检测网络的大规模视觉语言多数据集预训练。IET 计算机视觉，18(5): 626-639, 2024. 2, 8
[61] 周恒光，李锡锐，王若晨，程明浩，周天一，谢吉辉。R1-zero在2B非SFT模型上的“啊哈时刻”视觉推理。arXiv预印本 arXiv:2503.05132, 2025. 3