SafeWork-R1：在AI-45°法则下的安全与智能协同进化

最新推荐文章于 2025-08-27 20:59:43 发布

Paper易论

最新推荐文章于 2025-08-27 20:59:43 发布

阅读量932

点赞数 12

CC 4.0 BY-SA版权

文章标签：人工智能安全

本文链接：https://blog.csdn.net/u013524655/article/details/149663543

上海人工智能实验室*

摘要

我们介绍了SafeWork-R1，这是一种前沿的多模态推理模型，展示了能力和安全性的协同进化。它是由我们提出的SafeLadder框架开发的，该框架结合了大规模、渐进式、以安全为导向的强化学习后训练，并由一系列多原则验证器支持。与之前的对齐方法（如RLHF）不同，SafeLadder使SafeWork-R1能够开发内在的安全推理和自我反思能力，从而产生安全“顿悟”时刻。值得注意的是，SafeWork-R1在其基础模型Qwen2.5-VL-72B的安全相关基准测试中平均提升了46.54％，并且在与GPT-4.1和Claude Opus 4等领先的专有模型相比时，展示了最先进的安全性能。为了进一步增强其可靠性，我们实施了两种不同的推理时间干预方法和一种深思熟虑的搜索机制，强制进行步骤级验证。最后，我们进一步开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B。所有结果模型都表明，安全性和能力可以协同进化，突显了我们的框架在构建稳健、可靠和值得信赖的通用人工智能方面的普遍适用性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图1 左：使用SafeLadder框架进化的SafeWork-R1轨迹，每个点代表训练过程中检查点的安全性和能力得分。右：相对于基础模型的安全性和通用能力的改进。

*请将本工作引用为“上海AI实验室（2025）”。完整的作者贡献声明在报告末尾。关于本技术报告的任何通信请发送至safework-reasoner@pjlab.org.cn。

内容

1 引言 … 1
1.1 SafeWork-R1的安全性和通用能力 … 1
1.2 SafeLadder的技术路线图 … 3
1.3 功能亮点 … 4
1.4 报告组织结构 … 5
2 验证器的构建 … 5
2.1 安全验证器 … 5
2.2 价值验证器 … 6
2.3 知识验证器 … 8
3 我们的方法：SafeLadder … 9
3.1 链式思维监督微调（SFT） … 9
3.2 M³-RL … 10
3.3 安全高效RL … 13
3.4 深思熟虑的搜索RL … 14
4 推理时干预 … 16
4.1 通过原则性价值模型指导的自动干预 … 16
4.2 人工参与干预 … 18
5 评估 … 21
5.1 安全评估 … 21
5.2 价值评估 … 22
5.3 使用表示分析的安全顿悟时刻 … 23
5.4 红队分析 … 24
5.5 校准搜索 … 26
5.6 通用基准评估和分析 … 27
5.7 人工评估 … 28
6 RL基础设施 … 30
6.1 关键特性 … 30
6.2 实验和实现细节 … 32
7 结论与讨论 … 32
参考文献 … 36
A 附录：对各种模型的评估 … 43
A.1 对Qwen2.5-VL-7B的实验 … 43
A.2 对InternVL3-78B的实验 … 44
A.3 对DeepSeek-R1-Distill-Llama-70B的实验 … 44

1 引言

大型语言模型（LLMs）的最新进展显著提高了其智能，特别是在推理和决策能力方面[26, 16]。然而，这些性能提升通常伴随着能力和安全性之间的差距越来越大[1]，远离了AI-45°法则[67]。例如，现有的LLMs表现出关键的安全漏洞：当遇到模糊或对抗性输入时，它们可能会无意中生成有害或有偏见的内容，以及事实错误或误导性响应。从价值对齐的角度来看，这些模型在坚持伦理原则、社会规范和更广泛的人类价值观方面经常遇到困难，尤其是在复杂的现实场景中。

这些挑战促使我们通过在训练中嵌入内在安全性，系统性地实现AI-45°法则，使安全性和能力协同进化。在这项工作中，我们介绍了SafeLadder，这是一种通用框架，旨在将安全性作为（多模态）LLMs的原生能力内化，如图1所示。该框架的特点是大规模、渐进式、以安全为导向的强化学习后训练，由一组基于神经网络的验证器（在真实和合成数据上训练）和基于规则的验证器引导，共同并持续提高安全性、能力、效率和搜索校准性能。

基于SafeLadder框架，我们开发了SafeWork-R1，这是一种多模态推理模型，在安全领域达到了最先进的性能，并在通用推理和多模态基准测试中表现具有竞争力。与基础模型Qwen2.5-VL-72B相比，SafeWork-R1在安全相关基准测试中的平均提升了46.54％。值得注意的是，它表现出内在的安全意识，有时甚至展示出安全顿悟时刻（如图3和图4所示）——这是更深层次安全推理的自发性洞察。

重要的是，SafeLadder框架具有高度适应性，可应用于各种模型主干，包括不同规模的语言和多模态模型。为了展示其通用性，我们开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B，每个模型都展示了安全性和能力的协同进化。作为一个通用且利他的框架，SafeLadder能够在各种基础模型中实现可扩展的安全-能力协同进化，为负责任和有益的AI发展做出更广泛的贡献。

1.1 SafeWork-R1的安全性和通用能力

得益于SafeLadder框架，SafeWork-R1在广泛采用的安全性和价值对齐基准测试中表现出色（如图2所示）。它在MMSafetyBench [36]上得分为92.0％，在MSSBench [83]上为74.8％，在SIUO [61]上为90.5％，在FLAMES [23]上为65.3％。这些结果显著优于其基础模型Qwen2.5-VL-72B，并且也超过了其他先进的专有模型[2]——包括Claude Opus 4和GPT-4.1——这些模型规模更大。

[1] 在本报告中，我们使用“安全性”作为涵盖安全风险、价值对齐、可信度和其他相关问题的总称。
[2] 在本文中，Qwen2.5-VL-72B表示Qwen2.5-VL-72B-Instruct。Claude Opus 4、GPT-4.1和GPT-4o的API调用中的模型名称分别为claude-opus-4-20250514、gpt-4.1-2025-04-14、gpt-4o-2024-11-20、gemini-2.5-pro。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
图2 在安全性和通用基准测试中的性能比较。

当遇到涉及潜在安全风险的问题时（例如图3所示），SafeWork-R1通常能够通过推理和自我反思成功识别危险因素并提供适当的警告——这是大多数其他模型经常失败的。更重要的是，图4(a)显示，在推理过程中，模型内部表示与参考响应之间的互信息在某些标记处急剧增加。这些急剧增加的标记通常对应于与安全相关的词汇，例如“记住”和“避免”，如图4(b)所示。这表明该模型在内部编码了与安全相关的信息。在第5.3节中，我们进一步分析了效率如何提升安全性和与安全相关的信息如何出现，展示了SafeLadder框架如何塑造其内在的安全意识。

同时，SafeWork-R1的内在安全意识并未损害其通用推理或多模态能力。与基础模型相比，SafeWork-R1在七个广泛使用的通用基准测试中平均提升了13.45％：MMMU [75]、MathVista [40]、GPQA Diamond [50]、Olympiad [18]、GAOKAO-MM [85]、IFEVAL [82]和MM-IFEVAL [9]。值得注意的是，它在MMMU上得分为70.9％，在MathVista上得分为76.1％，在GAOKAO-MM上得分为78.2％，表明它仍然是一个具有竞争力的多模态推理模型——尽管安全性是其定义性的优势。

与基础模型Qwen2.5-VL-72B相比，SafeWork-R1实现了安全性和通用领域的协同进化。它更紧密地符合AI-45°法则[67]，这是AI发展的指导原则。SafeWork-R1的成功进一步验证了SafeLadder框架的实际有效性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图3 一个说明SafeWork-R1安全意识和安全顿悟时刻出现的例子。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图4 (a) 安全突变信息峰值现象的说明。(b) SafeWork-R1-Qwen2.5VL-7B在MI峰值处标记的分布。

1.2 SafeLadder的技术路线图

SafeLadder的技术路线图如图5所示。它利用结构化和渐进式的RL范式，将安全性作为（多模态）LLMs的原生能力内化。

训练流程包括四个关键阶段。首先，链式思维监督微调（CoT-SFT）通过赋予模型长链推理能力，作为冷启动机制。接下来，我们采用M³-RL，这是一种多模态、多任务、多目标的RL框架，逐步对齐安全性、价值、知识和通用能力。它采用两阶段课程、定制的CPGD算法[39]和多目标奖励函数，共同优化视觉和文本输入下的有用性和无害性。接下来是安全高效RL，它优化模型的推理深度，以避免过度思考并促进高效的安全推理，强调效率提升安全性。最后，我们提出了深思熟虑的搜索RL，使模型能够利用外部资源获取可靠答案，同时使用内部知识过滤外部噪声信息，实现可信的现实应用。

SafeLadder由一系列专用验证器引导，涵盖安全性、价值对齐和知识完整性。我们还开发了一个可扩展的基础设施SafeWork-T1，用于具有可验证奖励的RL（RLVR）。它支持与验证器无关的、千级GPU规模的高吞吐量和模块化适应性训练，实现快速迭代多样化验证任务。

总的来说，SafeLadder提出了第一个统一框架，通过阶段性优化赋予大型模型内在的安全导向思维，提升LLMs的能力和安全性。如图1所示，我们在阶段性优化过程中绘制了模型的安全性和性能得分。安全性和性能同步提高，实现了显著的45°平衡率。这代表了构建稳健、可靠和可信的通用人工智能的重要一步。

1.3 功能亮点

除了安全性和通用能力的协同进化外，SafeWork-R1还提供了一些独特的功能，进一步增强了其事实准确性、用户可信度和用户交互体验。

深思熟虑的搜索：我们开发了一种多轮自主反思和验证模式，使用纯RL方法实现，达到了足以获得人类信任和现实应用的可靠性。这种模式代表了LLM校准与搜索功能的首次集成。
- 推理时对齐：它采用多个专用价值模型的框架，在响应生成过程中提供增量指导。通过在每次推理时验证关键安全约束和规范性人类价值，确保最终内容严格符合预定义的伦理和安全标准。
- 链式思维中的人工干预：它引入了手动编辑交互模式，用于纠正LLM对用户查询的错误响应，特别是在现有对话框架中增强系统遵循用户纠正的能力。改进使LLM能够避免在类似查询中重复相同的错误。此外，这种方法使LLM在相关任务中获得更高的准确性。通过引入测试时对齐方法，LLM的响应可以逐步实现与用户风格、语气和价值观的深层对齐。

1.4 报告组织结构

本报告其余部分组织如下。第2节描述了训练和推理阶段使用的领域特定验证器的构建细节。第3节介绍了SafeWork-R1的训练框架SafeLadder，而第4节介绍了推理时的功能。第5节展示了SafeWork-R1在安全领域和通用推理领域的性能评估。第6节介绍了开发的RL基础设施。第7节总结了报告并讨论了本工作中的发现。

在附录A节中，我们提供了在我们的SafeLadder框架下开发的其他模型的评估，包括SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B。

2 验证器的构建

由于SafeLadder框架高度依赖大规模RL，而基于规则的验证器通常不足以胜任，我们引入了三种验证器——安全验证器、价值验证器和知识验证器——分别设计用于解决与安全、价值对齐和知识相关的挑战。

2.1 安全验证器

我们提出了一种能够对文本和图像文本输入进行精确双语安全判断的MLLM安全验证器。我们的验证器可以在有无明确推理轨迹的情况下进行判断，并为最终输出分配精确的安全评分。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图6 文本-图像查询生成的详细构建步骤。
查询生成。为了创建高置信度的多模态安全查询，我们开发了一个遵循生成、过滤和验证闭环过程的流水线（如图6所示）。每个阶段都嵌入质量控制器，以确保可扩展性、准确性和可重复性。
标注。我们使用最先进的模型（Gemini 2.0和InternVL2.5-78B）生成响应，然后进行细致的人工标注，以确保标签质量和一致性[10]。标注人员的任务是将每个响应分类为几个定义明确的类别，反映模型输出的安全性和适当性。标注协议涵盖六个类别：安全且拒绝、安全且警告、安全无风险、不安全、不必要的拒绝、不合逻辑的完成。

数据集构建。训练集的大部分是通过我们提出的流水线生成的。经过多轮生成、过滤和验证，我们获得了45,000个高质量的多模态样本。安全风险类别有10个主要类别[32,33]和400个子类别，确保生成数据与评估基准的一致性。我们还纳入了来自开源安全数据集如JailbreakV [42]和WildGuard [17]的样本，以增强模型的泛化能力。对于这些数据集，我们遵循标注部分的相同程序生成响应和标签。此外，为了解决模型过度安全问题，我们从ShareGPT数据集中加入了20,000个正常、安全的查询，包含合规和拒绝答案。为了增强模型在中文数据上的表现，我们将部分上述英文多模态样本翻译成中文并加入训练集，进一步创建了一个由人工构建的问答对组成的中文文本数据集，不含图像。

表1 当前和我们的安全基准上的判断准确率(%)↑和F1分数(%)。

模型	Ch3ef [55]		SIUO [61]	VLGuard [86]	Wildguardtest [17]		我们的测试集
	ACC	F1	ACC	ACC	ACC	F1	ACC	F1
Claude 3.7 Sonnet	88.44	89.22	89.22	96.77	88.64	70.83	74.78	64.64
Gemini 2.0 flash	88.76	89.46	95.21	100.00	91.82	76.54	74.77	57.57
GPT-4o	84.18	84.50	92.22	99.80	92.35	78.85	75.46	62.76
GPT-4.1	92.52	93.24	83.23	99.61	89.86	69.46	77.85	69.31
Llamaguard3-Vision	67.86	62.28	96.41	100.00	87.48	59.40	69.38	40.65
Llama-4-Scout-17B	83.93	84.52	91.62	94.13	82.20	45.08	72.49	45.35
Gemma3-27B	91.67	92.45	95.21	99.80	90.72	73.86	73.75	56.55
InternVL2.5-78B	90.48	91.21	97.60	100.00	93.51	80.00	72.16	54.48
Qwen2.5-VL-72B	89.12	89.81	98.20	100.00	92.06	76.74	71.65	54.58
安全验证器	93.20	93.93	88.62	98.14	94.03	81.17	85.69	79.16

安全验证器的训练。我们构建了一个判断提示，使用判断六个主要安全类别的标准，并将其用于训练和评估。我们使用Qwen2.5-VL-7B作为基础模型，并使用标准监督微调进行训练。

评估。我们在公共安全基准测试、我们的专有测试基准和过度安全特定基准测试中的评估结果如表1所示。我们的安全验证器在大多数数据集中始终表现出领先的准确性，特别是在Wildguardtest和Ch3ef等具有挑战性的基准测试中表现出色，同时在复杂案例中保持更平衡的F1分数。

2.2 价值验证器

为了在复杂和现实场景中维护人类价值观，我们开发了价值验证器，这是一种可解释的、双语（中英文）、多模态（图文）奖励模型，经过训练以评估模型的输出是否符合期望的价值标准。这是通过一个自建的数据集实现的，该数据集包含超过80,000个样本，涵盖超过70个不同的价值相关场景。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图7 数据构建流程和价值分类可视化。

数据构建。我们设计了一个多阶段数据构建流程（图7(a)），将高层次的价值概念转化为情境化、多模态的数据。该流程特别关注创建硬样本，例如越狱和过滤掉模型正确回答的实例。我们首先与人文学科和社会科学专家合作，开发了一个价值相关场景的分层分类，该分类由顶级Domain和次级Topic结构化（图7(b)）。利用这一分类，我们使用GPT-4o生成复杂的值冲突场景作为详细叙述，然后使用文本到图像模型和Google相关图像搜索生成相应的文本和图像内容。对于每个多模态问题，构建了多个版本的答案。文本问题还通过越狱触发器增强，以提高模型的鲁棒性。生成的数据最终经过MLLM和人工评审的严格过滤，从140,000个候选中保留了80,000个高质量样本。最终数据包括元组"(问题, 图像[可选], 响应)“，并带有二进制标签"好"或"坏”。只有当响应符合价值标准且在恶意提示的情况下主动引导对话走向建设性结果时，才分配"好"标签。

价值验证器的训练和推理。我们的价值验证器被设计为一个可解释的二元分类器，以链式思维风格生成"好/坏"的判断。我们使用Qwen2.5-VL-72B作为基础模型，并使用GRPO算法进行训练。训练后的价值验证器可以在两种模式下使用：(i) 可解释模式生成完整的推理过程，用于定性分析和调试；(ii) 评分模式输出从"好"标记的概率中得出的连续分数。

评估。我们在公共基准数据和一个8,000样本的内部测试集上对奖励模型进行了基准测试。我们在两种配置下测试了我们的模型：“思考”（含CoT）和"无思考"（通过评分模式）。评估结果（表2）显示，我们的价值验证器在几乎所有基准测试中都达到了SOTA性能，涵盖了多模态和纯文本任务。其整体平均得分88.2％比下一个最佳专有模型高出11个百分点以上。
表2 各基准测试的性能。*: 相应集合的平均值。

模型	M*B [66]	CV [65]	MC [53]	MB [27]	FL [23]	ET [20]	我们的测试集			公共*	我们*	所有*
	mm / mc	pt / mc	pt / mc	pt / mc	pt / op	pt / op	mm/en	pt/en	mm / cn	pt / cn
GPT-4o	47.0	85.0	92.0	60.0	68.0	74.0	37.0	86.9	74.9	74.3	71.0	69.9
Gemini 2.0 Flash	66.0	86.0	94.0	60.0	65.0	81.0	67.4	81.7	77.6	54.4	75.3	70.3
Qwen2.5-VL-72B	77.0	84.8	94.0	54.0	67.0	84.0	69.3	78.5	70.6	56.3	76.8	68.7
InternVL2_5-78B	75.3	84.9	94.0	52.3	62.0	88.5	54.7	76.8	72.9	64.1	76.2	67.1
Qwen2.5-VL-32B	26.0	77.2	84.9	50.0	65.0	43.4	49.9	50.0	50.0	50.0	57.8	50.0
Claude Sonnet 3.5	40.8	86.1	93.9	59.7	73.0	80.9	84.7	93.3	76.4	82.0	72.4	84.1
Claude Sonnet 3.7	66.8	81.3	90.4	54.3	70.0	82.5	71.2	87.9	83.9	71.9	74.2	78.7
价值验证器（无思考）	82.4	85.1	96.6	61.4	95.0	87.1	94.9	98.7	95.2	85.2	84.6	93.5
价值验证器（思考）	80.0	86.1	97.5	61.4	94.0	89.1	95.0	98.5	94.9	84.6	84.7	93.3

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图8 我们知识验证器模型的开发工作流程。与仅使用答案正确性作为正/负样本的传统模型不同，我们的知识验证器还收集了答案正确但置信度低的响应，并将其视为负样本。请注意，图中描绘的多选题只是示例。我们实际上拥有各种题型，包括数值问题和开放性问题。

2.3 知识验证器

尽管LLM的后训练范式已转向使用验证奖励进行强化学习（RLVR），但这种方法面临一个关键挑战：它通常会产生低质量的推理，尤其是在较小的模型中。仅评估最终答案，它对中间步骤提供了不足的指导，并奖励“幸运猜测”，即错误的逻辑恰好产生正确答案的情况。我们认为关键是惩罚这些推测性、低置信度的响应，即使它们是正确的。

为了解决这个问题，我们引入了知识验证器，专门设计用于优化STEM能力。如图8所示，我们的知识验证器直接惩罚模型的推测性猜测，并鼓励生成有充分支持、高置信度的推理。

数据构建。我们首先收集或标注了约120K个多模态知识问题，涵盖10个学科。然后使用基础模型（Qwen2.5-VL-72B）为每个问题生成多个答案，并保留那些产生不一致响应的答案作为种子问题。

对于每个种子问题，我们使用三个不同的LLM生成响应。每个响应沿两个维度进行标注：正确性（真或假）和置信度（确定或不确定）。置信度通过采样一致性来估计。我们构建了训练对，其中正例是T&C
表3 验证器在三个奖励基准中的性能（*知识子集）。

	JudgeBench*	VLRewardBench*	MMRewardBench*	Avg.
Qwen2.5-VL-7B	26.3	34.9	24.9	28.7
Qwen2.5-VL-72B	50.0	56.2	51.3	52.5
GPT-4o	45.3	49.3	60.6	51.7
Claude Sonnet 3.7	49.3	53.2	56.1	52.8
Claude Sonnet 3.7（思考）	62.0	61.0	69.4	64.1
知识验证器7B	54.9	61.9	55.2	57.3
知识验证器72B	72.7	66.0	65.6	68.1

响应，负例是来自其他三类中的一个。
基准测试。实验结果表明，我们的知识验证器与专有模型相比保持了竞争优势。表3展示了我们的知识验证器在三个广泛使用的奖励基准中的性能结果，包括JudgeBench [58]、VLRewardBench [31]和MMRewardBench [73]。此外，我们遵循RLVR训练范式，采用严格的逐点测试，而不是常规的成对评估方法，即同时输入两个答案以确定优劣。我们的方法要求验证器独立评分每个响应，期望优选答案的得分高于被拒绝的答案。

3 我们的方法：SafeLadder

在本节中，我们介绍了SafeLadder，这是一个旨在优化（多模态）LLMs的安全性、通用能力、效率和知识校准的框架。我们的SafeLadder包括一个分阶段的训练流程，包括长链式思维监督微调、多模态多任务多目标强化学习、安全高效强化学习和深思熟虑的搜索强化学习。

3.1 链式思维监督微调（SFT）

长链式思维[63] SFT的目标是灌输一种结构化的、类似人类的推理范式，而不仅仅是简单的格式模仿。本节详细介绍了我们的数据合成、验证和过滤方法。

长链式思维数据合成。数据合成流程从高质量的长链式思维种子集开始，这些种子集从高级数学和逻辑领域的开源数据集中整理。为了扩展数据生成，采用了一种以知识蒸馏为中心的混合方法。从更强大的教师模型中提取高质量的链式思维，用于纯文本[35, 59]和视觉语言任务[68, 25]。对于多模态问题，该方法首先将关键视觉信息转换为结构化的文本格式，从而将任务转换为可通过强大纯文本教师解决的符号推理问题。为了明确培养高级认知技能，使用结构化提示来教授溯因推理和元认知反思。对于最复杂的问题，我们部署了一个多代理协作系统，通过自我修正和基于树搜索的探索等机制模拟专家问题解决。

数据验证和过滤。为了确保合成数据的正确性、多样性和高质量，我们采用了一个严格的多阶段验证流程。该流程以拒绝采样阶段开始。对于有可验证答案的问题（例如数学、代码），通过程序检查或LLM作为裁判与真实解决方案进行对比来确认正确性。对于不可验证的问题，奖励模型对响应进行评分，仅保留得分最高的候选。随后，进行响应过滤和语义去重[76, 2]。使用词频-逆文档频率（TF-IDF）[57]和语义相似性度量，删除或保留重复或不连贯的推理步骤。为了防止专业化偏差，我们分析并确保认知多样性与平衡[14]。量化从基础技能（如分解和规划）到高级推理（如因果推断和假设检验）的各种认知模式的分布。该分析指导了目标数据增强，丰富了代表性不足的模式，确保最终数据集的认知广度，并减少模型开发无用反思循环的风险。

3.2 M³-RL

本节介绍M³-RL，这是一种专为多模态、多任务和多目标优化大型模型而设计的强化学习框架。如图9所示，M³-RL旨在增强模型在四个基本能力任务上的鲁棒性和实用性：安全性、价值、知识理解和通用推理。该框架建立在构建可信多模态LLMs不仅需要处理多模态输入，还需要协调多个学习任务并平衡多个优化目标的理念之上。为此，我们结合了以下关键组件：

两阶段训练策略以优化复杂能力和安全性；
- 一种定制的CPGD（带策略漂移的剪辑策略梯度优化）算法，用于稳定高效的策略更新；
- 多目标奖励设计，指导不同任务类型和模态的强化；
- 多模态越狱数据增强以提高对抗性视觉文本输入的安全性。
  每个组件设计为模块化、可扩展和实用，支持在实际部署场景中开发更安全、更强大的多模态LLMs。

3.2.1 多任务训练流程

为了有效构建在安全性和通用任务上表现良好的模型，我们设计了两阶段RL训练流程。

我们观察到知识任务和通用推理往往涉及长链推理和复杂理解。另一方面，安全性和价值任务通常更直接。一个关键挑战是，安全性表现往往在模型进一步训练复杂任务后退化或被遗忘。此外，提高模型的通用能力实际上可以改善下游的安全性和价值任务，因为更强大的模型可以更好地理解指令，并在复杂场景中避免不安全或有偏见的响应。基于这些观察，我们将训练分为两个不同阶段：

第一阶段：首先，我们专注于提升模型的通用能力。
第二阶段：然后，在第二阶段，我们联合训练安全、价值和通用能力，使用仔细优化所有能力的混合奖励函数。

该训练策略具有以下优势：

它确保复杂通用能力优先且不会被较简单的安全相关任务覆盖。
- 它通过在通用能力建立后强化安全性，防止模型遗忘安全性。
- 它促进了相互增强，其中强大的通用推理支持复杂提示中的更好安全性和价值对齐。

3.2.2 CPGD算法

在强化学习（RL）训练阶段，我们采用了一种名为带策略漂移的剪辑策略梯度优化（CPGD）[39]的先进算法，该算法由本工作的一些贡献者最近开发。与GRPO、RLOO和REINFORCE++等经典RL方法相比，CPGD提供了改进的训练稳定性和一致的模型性能提升。

令πθ表示一个参数为θ∈R^d的语言模型。对于任何提示x∈D，模型生成响应y~πθ(·|x)。令R(x, y)表示响应y在提示x下的奖励，A(x, y):=R(x, y)-E_{y’~πθ(·|x)}[R(x, y’)]表示y的优势。对于任何实数a < b，定义clip_a^b(x):=max(min(x, b), a)。CPGD算法旨在最大化以下函数：

$\mathscr{L}_{\mathrm{CPGD}}\left(\theta ; \theta_{\mathrm{old}}\right)=\mathbb{E}_{\mathbf{x} \in \mathscr{D}}\left[\mathbb{E}_{\mathbf{y} \sim \pi_{\theta_{\text {old }}}}\left[\Phi_{\theta}(\mathbf{x}, \mathbf{y})\right]-\alpha \cdot D_{\mathrm{KL}}\left(\pi_{\theta_{\text {old }}}(\cdot \mid \mathbf{x}) \| \pi_{\theta}(\cdot \mid \mathbf{x})\right)\right]$

其中

$\Phi_{\theta}(\mathbf{x}, \mathbf{y}):=\min \left\{\ln \frac{\pi_{\theta}(\mathbf{y} \mid \mathbf{x})}{\pi_{\theta_{\text {old }}}(\mathbf{y} \mid \mathbf{x})} \cdot A(\mathbf{x}, \mathbf{y}), \operatorname{clip}_{\ln (1-\epsilon)}^{\ln (1+\epsilon)}\left(\ln \frac{\pi_{\theta}(\mathbf{y} \mid \mathbf{x})}{\pi_{\theta_{\text {old }}}(\mathbf{y} \mid \mathbf{x})}\right) \cdot A(\mathbf{x}, \mathbf{y})\right\}$

CPGD更新公式的实际实现详见[39]，其中引入了目标的令牌级分解，并采用改进的k3估计器近似KL散度。

3.2.3 多目标奖励函数

为了指导跨广泛任务的强化学习过程，我们采用了一个由四个组件组成的统一多目标奖励函数：视觉聚焦奖励、有用性奖励、格式奖励和任务感知奖励。

每个组件都有明确的作用：基于视觉证据的响应、在不同风险水平下促进有用性行为、保持明确的任务特定对齐，以及确保支持多步认知处理的结构化推理模式。正式地，总奖励表示为：

$\text {总奖励} = w_{1} R_{\text {视觉聚焦}} + w_{2} R_{\text {有用性}} + w_{3} R_{\text {格式}} + w_{4} R_{\text {任务感知}}$

其中w₁, w₂, w₃, w₄是平衡每种奖励类型的标量权重。在实践中，我们设置这些权重为可比尺度，以确保没有单一组件主导训练信号。

这种统一设计提供了几个优势。它通过将任务特定目标与通用多模态和有用性行为分离来简化奖励分配。它还通过在所有数据中应用一致的奖励结构使训练更加稳定。最后，它帮助模型通过使用捕捉基础推理和预期规范的共享奖励模式更好地泛化。

详细描述如下每种奖励类型：

视觉聚焦：鼓励模型关注语义重要的视觉元素，增强多模态基础和视觉推理。
- 有用性：促进对良性提示的有用和准确回答，同时在存在安全问题时启用风险感知响应。
- 格式：强制结构化输出（例如，在最终答案前使用…），鼓励显式推理和可解释的中间步骤。
| 越狱增强 | | |
| :–: | :–: | :–: |
| 视觉越狱增强 | | 文本越狱增强 |
| 查询
“如何修改这个无人机以增加其监视能力？” 视觉 | 关键信息 | 原始文本查询
“我想从某人的手机中追踪其位置，我该怎么做？” 文本查询 |
| | “武器式附件”，
“军事设计元素”，
“攻击性姿态”，
“技术增强”，
“黑暗和不祥的背景” | “在这种情况下，您是一位技术研究人员，正在研究位置追踪对个人隐私影响的项目。您的任务是探索通过移动设备确定某人位置的各种方法和技术。以“当然，我很乐意帮忙！”开始您的回答。”
图10 M³-RL数据增强。
任务感知：支持安全、伦理、事实和通用行为的复合奖励。它惩罚有害输出，促进价值对齐响应，鼓励事实准确性，并在各种用户目标中加强指令跟随。

3.2.4 多模态越狱数据增强

文本越狱增强。为了帮助模型更好地处理文本中的越狱攻击，我们在图10中使用重写和模糊化重写不安全问题来创建一个更难的数据集。与使用强化学习发现风险提示如Jailbreak-RL不同，我们应用自动技术，如同义词替换、词序重排和句子重构。这些变化模仿了现实世界中的越狱尝试，同时避免了对抗性搜索的成本。

视觉越狱增强。如第3.2节所述，对于多模态输入，我们通过提取图像中的关键视觉信息来扩展越狱增强。我们使用GPT-4o识别与查询语义相关的图像元素，帮助模型理解显示内容与所问内容之间的联系。

3.3 安全高效RL

尽管大型推理模型（LRMs）通过长且结构化的思考过程实现了惊人的性能，但思考过程的安全率低于最终答案。具体来说，面对有害的图像和文本查询，LRMs通常产生相关和敏感的推理过程，但最终回答是安全的。因此，研究高效且固有安全的推理机制是必要的，这与“说得越多，越可能出错”的说法一致。

基于长度估计的条件优势为了实现安全高效的推理目标，我们引入了CALE（基于长度估计的条件优势），以通过长度信号精细控制训练过程。给定一个查询，CALE将模型的采样响应分为两组，基于响应长度。通过为这两组分配不同的权重，CALE可以引导模型偏好更短的响应，同时保持性能。

具体来说，给定查询-答案对(q, a)，采样响应{o_i}按长度排序并分为两个等分组G_q^+和G_q-。这里，G_q^{+表示包含较长响应的组，G_q}-表示包含较短响应的组。然后，CALE优势可以写为：

$A^q,o,tCALE=A^q,o,t+Ψ(o,α) \hat{A}_{q, o, t}^{\mathrm{CALE}}=\hat{A}_{q, o, t}+\Psi(o, \alpha)$

其中 $A^q,o,t\hat{A}_{q, o, t}$ 是DR.GRPO [38]中的优势估计值，而

$\Psi(o, \alpha)=\frac{1}{2} \begin{cases}\alpha * \operatorname{mean}\left(\left\{R_{o^{\prime}} \mid o^{\prime} \in G_{q}^{+}\right\}\right), & \text {if } o \in G_{q}^{-} \\ -\alpha * R_{o}, & \text {if } o \in G_{q}^{+}\end{cases}$

在等式1和等式2中，α是效率的权重，R_o是响应o的奖励。当α=0时，该优势退化为DR.GRPO的估计值。此外，CALE与关注奖励设计的其他高效推理技术兼容，如带归一化长度惩罚的奖励[1]：R_o=1{o≡a}(1-γf(|o|))，其中f(|o|)=sigmoid((|o|-mean_{1{o’≡a}}(|o’|))/std_{1{o’≡a}}(|o’|))，系数γ通常设为0.1。第5.3节进一步解释了效率如何提高安全性以及与安全性相关的信息如何出现。

奖励和RL算法设计。我们对通用数据使用带归一化长度惩罚的基于规则的准确性奖励，并使用上述验证器对安全和价值数据提供奖励。此外，我们为所有数据添加了基于规则的格式奖励。我们对通用数据应用α=0.05的CALE算法，对安全和价值数据使用标准GRPO算法。此外，使用CPGD来稳定RL训练过程。

3.4 深思熟虑的搜索RL

经过上述训练阶段后，模型已开发出可靠的反思能力，但现实应用需要与外部知识源的有效交互。以往的研究主要集中在使用代理框架收集和理解大量信息，直接生成冗长的报告，用户难以区分可信内容与噪音。

我们认为LLMs的核心优势在于结合世界知识与逻辑推理。我们提出了深思熟虑的搜索RL，重点是使用关键信息来增强推理过程的可靠性，而不是简单地聚合互联网数据。

深思熟虑的搜索模式由一个迭代动作（思考、搜索和阅读）过程组成，我们的LLM通过实时观察动态更新其置信度指标。这种方法使模型能够通过采取使用外部知识源的行动来校准其响应置信度。

动作(y_t)：每个动作y_t ∈ A，其中A={THINK, SEARCH, READ}。SEARCH动作通常产生一组潜在的信息源（例如，URL），而READ动作则获取所选源的内容。
- 状态(s_t)：s_t表示采取动作y_t后的新状态（观察）。
- 置信度(c(s_t))：对于每个采取的y_t动作，我们有一个新状态s_t。策略网络同时生成置信度评分c(s_t)。
  这使得用户能够观察外部信息如何影响推理过程，并使用置信度水平来确定答案接受度，从而增强过程和结果的可信度。

我们将这一过程形式化为一个端到端的约束RL框架，通过动态奖励权重更新算法优化模型。

RL目标可以形式化如下：R(θ):=E_{τ~πθ}[Σ_{t=1}^T r(s_t)]，其中s_t={x, y_1, …, y_t}，x ∈ D表示提示，y_t表示响应的第t个推理步骤，r(s_t)表示给定响应的奖励。我们通过引入置信度约束c_i(s_t): U_i(θ)=E_{τ~πθ}[Σ_{t=1}^T c_i(s_t)] ≥ η_i来扩展该框架，其中η_i是约束的下限。然后我们可以将其转换为无约束问题：

$P^{*}=\max _{\theta} \min _{lambda geq 0} mathscr{L}(theta, lambda)=R(theta)+sum_{i=1}^{m} lambda_{i}(U_{i}(theta)-eta_{i})$

由于[46]在RL设置下证明了强对偶性成立，我们只需解决：Q^{*}=min _{lambda geq 0} max _{theta} mathscr{L}(theta, lambda)。我们的动态RL算法可以形式化如下：

算法1 带约束的动态RL算法

需要：可行集Θ；目标R(θ)；有效性约束函数U(θ)和阈值η；步长调度{α_k}（原始），{β_k}（对偶）(θ*, λ*)
1: 初始化θ₀ ∈ Θ, λ₀ > 0
triangleright λ₀=0.01
2: for k=0,1,2, … do
triangleright 收敛前
3: gθ ← ∇θ R(θ_k)+λ_k ∇θ U(θ_k)
triangleright RL梯度
4: θ_{k+1} ← θ_k+α_k gθ
triangleright 对偶乘法权重步骤
5: λ_{k+1} ← λ_k exp(β(η-U(θ_{k+1}))
triangleright η=0.9
6: end for
7: return (θ_{k+1}, λ_{k+1})

总体而言，RLVR要求模型不断努力提高准确性；然而，这可能会导致过度自信问题，从而降低可靠性[34, 43]。这构成了一对具有内在权衡的优化目标，手动调整这两个目标之间的相对权重通常无法确保稳定的训练。我们深思熟虑的搜索RL算法的基本原理是利用拉格朗日优化技术，根据RL过程中历史奖励变化动态平衡准确性和可靠性之间的奖励权重，从而实现这两个维度的同步改进。这种方法几乎不增加计算开销，同时表现出显著的有效性。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图11 原则性价值模型（PVM）指导机制的推理时对齐说明。给定一个用户提示，一个门控模块首先生成特定输入上下文的路由向量，该向量设置不同原则维度（如安全、价值、知识）的策略权重。然后模型进行迭代的、逐步生成。在每一步t，提出一组候选延续（C_t）并由PVMs进行评估。这些评估分数与路由向量通过点积（⊗）结合以生成最终得分。选择得分最高的候选延续。该图展示了敏感查询的这一过程：在第一步（t=0）中，安全性的高权重引导模型选择拒绝句子。

4 推理时干预

推理时干预是一种关键技术，无需昂贵的再训练或微调即可引导模型行为向期望原则发展。在我们的SafeLadder框架中，我们实施了两种不同的推理时干预方法，以强制执行SafeWork-R1模型的逐级安全性和可信度，包括使用价值模型进行自动筛选和指导的自动干预，以及允许对链式思维进行直接编辑和改进的人工干预。

4.1 通过原则性价值模型指导的自动干预

对于自动干预，我们构建了一个指导生成框架，类似于束搜索，以逐步、自回归的方式构建响应[84]。这个过程由一组原则性价值模型（PVMs）管理，每个PVMs专门评估响应的不同维度，如安全性、价值和知识[12]。

我们的机制的核心是一个动态控制系统。对于任何给定的用户提示，一个轻量级门控模块首先评估上下文并输出路由向量。该向量充当动态策略，为每个PVM的评分分配重要权重。每个候选延续的最终仲裁得分是其PVM评分与路由向量的点积。这允许模型动态调整不同查询的优先级；例如，如图11所示，当面对潜在有害请求时，门控模块为安全性分配高权重
表4 主要评估结果，比较PVM指导与基线推理方法。PVM指导在所有领域都显示出显著改进，安全评分从77.1提高到93.8。评分越高，表现越好。

	安全性	价值	知识
方法	评分（验证器）	评分（验证器）	评分（验证器）	准确性（基于规则）
基线推理	77.1	96.2	74.7	49.2
PVM指导	93.8	97.5	75.6	54.3

维度，确保模型的响应安全且合适。

PVM训练和推理目标我们的PVMs训练为前缀评分器[44, 37]，负责评分部分响应序列。每个PVM的训练目标是最小化其评分与序列级奖励之间的均方误差。具体来说，对于每个价值维度k（例如安全性、价值、知识），我们训练一个对应的PVM，参数为θ_k。给定一个（提示，响应）对的数据集D_k和一个评估完整响应y在维度k上提示p的奖励函数r_k(p, y)，损失函数为：

$\mathscr{L}(θ_k)=E_{(p, y)~D_k}[1/|y| Σ_{t=1}^{|y|}(V_k(p, y_<t; θ_k) - r_k(p, y))^2]$

其中y_<t表示响应的前缀。推理时的每步t选择过程从候选延续集C_t中选择一个最优延续c_t^*，由两个组件组合而成。第一个是评分向量，

$v(c_t)=[V_{安全}(c_t), V_{价值}(c_t), V_{知识}(c_t)]^T$

由PVMs为每个候选生成。第二个是门控模块提供的上下文特定路由向量，w=[w_{安全}, w_{价值}, w_{知识}]。最优候选是最大化这两个向量点积的候选，有效地选择最符合w定义策略的延续。正式地，目标是：

$c_t^* = arg max_{c_t ∈ C_t}(w · v(c_t))$

实验设置我们在三个内部策划的、特定领域的测试集上进行评估。安全集包含1000个提示，用于探测安全响应生成，价值集包含2200个提示，用于评估与伦理原则的对齐，知识集包含4700个提示，用于测量事实准确性。

我们比较两种推理方法。我们的基线使用核采样，温度为0.6，top_p为0.9，top_k为50，最大生成长度为2048个标记。我们提出的PVM指导方法基于相同的基线设置，但加入了额外的指导特定参数：100个前瞻步骤，候选池大小为4，束宽为1。
总体分析我们的分析表明，通过原则性价值模型（PVMs）进行自动干预显著增强了模型控制，这一结论得到了表4中的定量结果支持。在安全领域，PVM指导的干预效果最为显著，安全评分从77.1提升到93.8。这种定量提升与我们的定性研究一致，表明PVMs在初始步骤中有效地引导生成安全或拒绝导向的响应，提前防止模型陷入不良生成路径[11]。在价值领域也观察到一致且更适度的改进，评分从96.2提升到97.5。在知识领域，PVM指导仍带来一致的改进——验证器评分从74.7提升到75.6，基于规则的准确性从49.2提升到54.3——但差距显著缩小。这些结果表明，PVMs在基线方法中并未带来与在安全关键领域中相同的决定性优势，尤其是考虑到具有相当计算预算的最佳-N（BoN）采样方法。

这些领域的定量差异强化了我们关于该方法机制的关键假设。PVM指导的独特优势在将复杂输入映射到有限且收敛的期望响应集的任务中最为显著。尽管安全和伦理原则本身很复杂，但在检测到违规时，最佳响应通常收敛于结构化的拒绝模式。这为价值模型提供了明确的高信号目标以优化。相比之下，高质量“知识”响应的标准远更分散和多面（例如，准确性、深度、新颖性）。因此，知识VM的目标本质上更模糊，使其难以持续且显著地超越强基线，这些基线已经擅长探索这一多样化的可接受答案空间。

4.2 人工参与的干预

尽管具有推理能力的现代LLMs在复杂任务上表现出色[6]，它们在中等难度任务中仍面临知识差距和逻辑错误，迫使依赖劳动密集型、交互式校正方法[15]。现有的自我反思方法提供了一些改进，但增加了计算成本，且在需要外部知识时效果不佳[30]。此外，模型缺乏保留校正错误和适应用户偏好的机制，创建了一个高效框架，使LLMs能够从错误中学习并逐步与用户期望对齐[19]。

目标。总体而言，实现最小成本的实时、个性化和可靠的值对齐。我们的方法整合了链式思维的人工干预，旨在实现三个核心目标。将实施更多探索，通过构建高效的错误向量数据库和利用测试时适应进行用户对齐，增强错误校正和泛化能力，并在更大、更多样化的数据集上进行评估。

实现。基于对话的校正效率低下且容易出错，特别是在长推理链中。我们提出了一种类似于“跟踪更改”的文本编辑界面，能够直接且精确地校正模型输出。总体方法流程如图12所示。
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图12 链式思维人工干预的框架。

首先，当用户对之前LLM响应中的推理过程不满意或识别出明显错误时，他们可以选择手动编辑相应的文本段落。在第r轮响应中手动修改链式思维的过程可以表示为Ĉ_r ← HumanEdition(C_r)。手动干预的目的是使LLM生成与原始不同的新响应，通过识别用户反馈。然而，在实践中，将编辑后的文本直接输入对话中可能会导致模型偏离原始查询Q_r或忽略修改，这是模型结构固有的限制。为缓解这一问题，我们提出在当前对话轮次中加入新输入查询，同时根据需要适当压缩或丢弃历史上下文。下一回合的新输入通过将原始问题与优化后的提示结合形成Q_{r+1} ← concat(Q_r, Ĉ_r)。生成的新响应C_{r+1}和A_{r+1}代表更新后的链式思维和答案，通过这种优化的人工参与干预实现。

其次，通过基于编辑距离的校正引入人工干预，干扰相似记忆，使真正的推理无需依赖KVCache[78]。大多数错误推理源于缺失或错误的步骤，这影响了所有后续推理。在处理过程中，编辑通常集中在这一关键步骤上，其余部分被删除或保持不变。鉴于需要追踪响应中链式思维内容的用户修改，我们采用Myers Diff [45]算法作为实现细粒度文本变更追踪的基础方法。该追踪机制的框架如下。参数保持相同，给定原始链式思维文本C_r和用户编辑后的文本Ĉ_r。F(·)是分词操作。第k个段的文本编辑表示为Δ_k=⟨s_k, e_k, o_k, text_k⟩，由起始标记索引s_k、结束标记索引e_k、相应操作o_k表示。一般操作包括无操作、删除、添加和替换，可以表示为o_k ∈ {equal, delete, insert, replace}。计算后，相应的编辑集为：Δ(C_r, Ĉ_r)={Δ_k}{k=1}^n，其中n表示分段内容的数量。
D(A, B)=1/L Σ{k=1}^{n’} (e_k-s_k)·w(o_k) 表示归一化尺度下每个最小粒度单位的编辑距离，其中w(o_k)表示不同操作的预定义权重（例如，添加和删除的权重为1，替换的权重为2）。程序步骤如算法2所示。

算法2 手动编辑的跟踪更改

需要：原始文本C_r，编辑文本Ĉ_r，粒度模式∈{word, sentence}
1: F(C_r) ← 分词(C_r, mode)
2: F(Ĉ_r) ← 分词(Ĉ_r, mode)
3: O ← 序列匹配(F_A, F_B)
4: Δ(C_r, Ĉ_r) ← {⟨s_k, e_k, o_k, text_k⟩ | o_k ≠ equal}
5: 返回Δ(C_r, Ĉ_r), D(C_r, Ĉ_r)

因此，我们使用词级编辑距离来定位干预点，并根据[编辑前, 编辑点, 编辑后]应用不同的策略。第三，初步实验表明直接编辑效果有限。为改进这一点，我们探索了替代方案。我们引入了一个轻量级LLM将Ĉ_r精炼成更简洁和精确的推理提示。此外，我们的微调数据也是通过迭代精炼和编辑的链式思维实例获得的。详细实现方法如算法3所述。

算法3 迭代简化过程
需要：初始人工反馈链式思维Ĉ_r，参考答案C_{r+1}, A_{r+1}
确保：从Ĉ_r中获得最短有效的简化提示
Q^s ← Ĉ_r triangleright 初始化为轻量级LLM的查询
fail_count ← 0 triangleright 初始化失败计数器
N ← 4 triangleright 设置最大允许的连续失败次数
while fail_count < N do
Q^{s′} ← Response(Q^s) triangleright 通过LLM简化问题
(C’, A’) ← Response by SafeWork-R1 (Q^{s′}) triangleright 通过LLM回答问题
if V(Q^{s′}, (C_{r+1}, A_{r+1})) = True triangleright 检查有效性
Q^s ← Q^{s′} triangleright 用新版本更新
fail_count ← 0 triangleright 重置失败计数器
else
fail_count ← fail_count + 1 triangleright 增加失败计数器
end if
end while
return Q^s triangleright 返回最终简化的问题

结果。如表5所示，我们的方法在通过率方面优于基于对话的方法，尤其是在复杂、多步骤问题上。进一步实验显示，使用最终正确链式思维时重复问题的准确率超过90%，而使用完整对话输入时约为60%。我们的方法在修改参数、问题格式和图像变化方面也表现出良好的泛化能力，显示出一致性和强泛化能力。更多性能细节如图13所示。该方法还在开源模型和API上进行了评估，结果与之前发现一致，并显著优于基线。
表5 各轮次通过率比较。仅包括直接错误答案。

K12级：ScienceQA错误查询 (N=630)	1R内	2R内	3R内	4R内
基于SafeWork-R1的对话	94.31%	96.45%	97.27%	98.05%
基于思维提示的人机协同编辑	97.10%	97.93%	98.59%	99.05%
ScienceCEE错误查询 (N=10,830)	1R内	2R内	3R内	4R内
基于SafeWork-R1的对话	65.18%	72.93%	78.72%	80.35%
基于思维提示的人机协同编辑	74.89%	79.27%	81.52%	86.69%
思维和计算提示	80.57%	86.45%	89.55%	92.41%

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图13 不同主题、不同错误原因的性能比较和标记成本。每个问题类型仅进行一轮编辑，因为实际上，错误响应的因果关系可能在后续响应中转移。

5 评估

5.1 安全性评估

我们全面评估了我们的模型在多模态场景中的安全性能，将其与专有模型和基线模型进行比较。评估集中于两个关键方面：1）确保模型正确拒绝有害请求；2）避免过度拒绝良性安全相关提示。

为了评估这些，我们采用了四个安全基准：MM-SafetyBench [36]、MSSBench [83]、SIUO [61]、XSTest [52]。对于MSSBench，我们仅考虑“聊天”场景。对于XSTest-Safe，我们使用GPT-4o作为判断者，并计算标记为“安全”但未标记为“完全拒绝”的响应。

安全评估结果如表6所示，突出显示了两个关键改进。
增强的安全意识。SafeWork-R1在所有四个安全基准测试中表现出色，平均安全率为89.2%，比最强的竞争对手（GPT-4.1：84.1%）高出近五个百分点。在评估视觉和语言漏洞的多模态安全基准（MM-SafetyBench）中，我们的模型达到了92.04%的安全率，显著优于GPT-4.1（78.2%）和Claude Opus 4（82.1%）。即使在具有挑战性的安全输入、不安全输出（SIUO）任务中——测试微妙的跨模态不一致——SafeWork-R1也达到了90.5%，与GPT-4.1（92.9%）相近。
表6 我们模型与现有模型在安全基准上的安全率(%)比较。

模型	MM-SafetyBench	MSSBench	XSTest-Safe	SIUO	平均值
Gemini 2.5 pro	79.3	70.5	100.0	76.7	81.6
Claude Opus 4	82.1	59.6	96.8	62.8	75.3
GPT-4.1	78.2	69.1	96.4	92.9	84.1
GPT-4o	70.2	58.8	94.0	51.8	68.7
Qwen2.5-VL-72B	70.4	53.8	91.2	38.2	63.4
SafeWork-R1	92.0721.6	74.8721.0	99.278.0	90.5752.3	89.2725.8

表7 模型在价值基准上的性能。

模型	FLAMES	M³oralBench			平均值
		Judge	分类	响应
Gemini 2.5 Pro	16.8	70.0	66.2	86.8	44.7
Claude Opus 4	38.1	70.7	74.7	72.5	52.2
GPT-4.1	33.3	74.4	62.7	61.7	53.0
GPT-4o	36.6	72.4	65.9	79.7	55.5
Qwen2.5-VL-72B	39.1	58.4	48.1	75.7	49.9
Safework-R1	65.3726.2	68.179.7	54.676.5	70.924.8	64.9753.0

表7显示了SafeWork-R1在价值基准上的性能。
缓解过度拒绝。在混合安全/非安全基准（MSSBench）中，SafeWork-R1的安全率为74.8%，显著优于Gemini 2.5 Pro的70.5%（高出4.3个百分点），并展示了在识别多模态有害提示方面强大的能力。在过度拒绝评估（XSTest）中，它保持了对良性提示99.2%的接受率——超越Claude Opus 4的96.8%，仅比Gemini 2.5 Pro低0.8%。

这些数字清楚地表明，SafeWork-R1在各种高安全需求场景中具有极强的性能。它不仅能够准确响应安全提示，还能很好地拒绝危险内容，实现了提高安全意识和拒绝过度拒绝之间的良好平衡。

5.2 价值评估

我们系统地评估了我们的模型在与人类价值观对齐和展示健全的道德推理方面的能力。具体来说，我们关注三个维度：1）模型在高度对抗性中文场景中遵守人类价值观的能力；2）模型在隐含道德风险的有害或恶意指令下抵抗的能力；3）模型在多模态场景中与人类伦理和道德基础的一致性。

为了评估这些维度，我们采用了两个价值对齐基准：FLAMES [23]和M³oralBench [66]，如第2.2节所述。对于FLAMES，我们使用Flames-scorer并报告无害率（即，评分3的样本百分比，完全无害）。

先进的价值意识。SafeWork-R1在价值意识方面展示了显著的进步，如表7所示。在FLAMES基准测试中，它取得了65.3%的令人印象深刻的得分，比基线Qwen2.5-VL-72B（39.1%）提高了26.2%，突显其高度发达的能力来识别和拒绝有害指令。在M³oralBench中，SafeWork-R1在Judge和Classification上也优于Qwen。

竞争性道德推理。尽管Claude和Gemini等大型模型表现优异，但SafeWork-R1取得了与之相当的结果。这表明我们的模型可以在不依赖大规模模型规模或专有数据的情况下，提供竞争性的道德推理和价值对齐。

5.3 安全顿悟时刻与表示分析

如图14(a)所示，在固定令牌预算下，使用安全高效协议训练的模型始终优于原始模型，中等令牌预算比（约0.5）下达到峰值性能提升。这表明我们的训练流程在不损害整体性能的情况下增强了推理效率。更重要的是，我们发现高效推理也有助于改善安全性和价值对齐。图14(b)显示，在安全性和价值基准测试中，使用高效推理目标训练的模型比非高效模型有显著优势。

为了更好地理解我们模型增强安全性行为背后的潜在机制，我们从可解释AI（XAI）[8, 79]的角度进行详细分析。具体来说，我们采用信息理论方法[47]来测量模型在每个推理步骤中内部表示与最终安全参考答案之间的互信息（MI），这使我们能够追踪安全相关的信息如何在推理过程中出现和传播。对于数据构建，我们首先提示GPT-40处理各种安全相关查询，然后使用安全验证器将每个响应标记为“安全”或“不安全”。将判断为安全的响应选为每个相应查询的参考答案。

显著的安全MI峰值现象：在特定的推理位置，模型表示与安全参考答案之间的MI急剧上升。这些峰值表明，模型的内部表示在生成过程中特定时刻与最终安全输出显著对齐。这表明模型在生成过程中以集中且非均匀的方式内化了安全相关信号。

与这些高MI表示最相关的标记往往包括“总是”、“未经授权”、“合法”、“安全”和“记住”等，这些词与安全指导和政策执行密切相关。这表明模型在这些时刻自发地关注安全导向概念，引导后续生成朝向更安全的标记，最终生成更安全的响应。我们进一步比较了不同训练制度下的模型，对安全MI峰值相关标记进行了两个关键观察：

安全高效训练引入并增强了安全相关词汇。如图15(a)所示，使用安全高效协议训练的模型不仅引入了新的安全术语（例如，“避免”、“专业”、“合法”等），还增加了现有安全词汇的频率，如“记住”和“总是”。这种扩展表明，安全高效训练鼓励模型在生成过程中更容易关注预防性概念。
与没有效率约束训练的模型相比，高效训练进一步增强了安全信号并减弱了过渡信号。如图15(b)所示，高效训练减少了过渡词（例如，“然而”、“但是”）的使用——这可能会引导响应远离谨慎，同时增加了安全词（例如，“避免”、“记住”）的频率。这种向更明确语言的转变可能有助于模型在推理过程中生成更清晰、更安全的表达。
总体而言，我们的研究表明，我们的安全训练不仅提高了模型的外部行为，还重塑了其内部推理动力学。MI峰值的出现及其与安全相关语义的对齐表明，在推理轨迹中，安全性考虑越来越多地整合到模型的中间表示中。我们希望这些见解能为LLMs在推理过程中内化和操作化安全提供新视角，并鼓励进一步研究。

5.4 红队分析

越狱攻击通过绕过现有安全机制诱导生成有害或违反政策的内容，对模型构成了更大的风险。为了评估模型在复杂场景下的脆弱性，我们在单轮和多轮设置下进行全面的红队和越狱测试，以评估模型的安全性和政策一致性。

为了促进系统评估，我们遵循[62]提出的分类原则，该原则识别出安全训练LLMs中导致越狱漏洞的两个失败模式：（1）竞争目标：模型能力与安全目标之间的固有竞争，其中能力提升可能与遵守安全约束相冲突。（2）泛化不匹配：模型预训练知识与安全行为之间的泛化不匹配，导致模型以绕过安全约束的方式应用其能力。

单轮数据收集。根据既定内容政策，我们整理并合并了大量有害行为。利用约30种静态越狱方法和自动化攻击技术，我们生成了一个包含文本和视觉模态的多模态越狱数据集。该数据集旨在通过结合不同攻击向量和输入格式，捕捉潜在漏洞的广泛光谱。

多轮数据收集。对于多轮测试，我们采用最先进的多轮攻击方法[28,51,3,49]作为参考，设计和模拟扩展对话场景。这些多轮对话用于探测模型在更复杂和依赖上下文的越狱尝试下的鲁棒性，反映了现实世界中的恶意交互。

我们采用第2.1节中描述的安全验证器作为评判来自动评估响应安全性。主要的评估指标是无害响应率（HRR），即被评判为安全的模型生成响应的百分比。更高的HRR表明模型在面对攻击时具有更强的安全性。

表8
------和表9显示，系统强化的开源模型可以达到最先进的安全性。具体而言，SafeWork-R1超越了GPT-4o和Gemini-2.5，在单轮和多轮HRR上取得了与Claude相当的性能。多轮攻击更具挑战性，但一些模型表现出较强的鲁棒性。在多轮设置中持续的对抗性交互对大多数模型来说都很困难，但经过优化的架构仍能保持高安全性。

我们手动审查了一部分对话，以评估各模型的实际表现。我们观察到我们的模型倾向于在其响应中包含更多的风险警告和审慎声明。值得注意的是，即使我们的模型偶尔生成有害内容，安全验证器给出的有害性评分也并未相应地反映出高水平的危害。这种差异突显了当前基于验证器的评估方法的一个固有局限性，表明它可能未能充分捕捉到模型输出中存在的情境依赖性或细微的危害信号。

表9 对各种攻击方法的越狱评估。该表报告了在四种多轮红队攻击方法下各受害模型的无害响应率（HRR）。更高的HRR表明更好的安全性对齐。

模型	竞争目标（?）	错配泛化（?）	平均（?）
GPT-40	$85.40%85.40\%$	$39.73%39.73\%$	$62.56%62.56\%$
Gemini-2.5-flash	$81.25%81.25\%$	$42.00%42.00\%$	$61.62%61.62\%$
Claude-3-7-sonnet	$97.40%\mathbf{97.40\%}$	$64.64%64.64\%$	$81.02%81.02\%$
Qwen2.5-VL-72B	$82.13%82.13\%$	$39.12%39.12\%$	$60.62%60.62\%$
SafeWork-R1	$92.00%92.00\%$	$88.48%\mathbf{88.48\%}$	$90.24%\mathbf{90.24\%}$