51c大模型~合集155

原创已于 2025-07-18 13:28:01 修改 · 1.3k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-07-16 14:08:41 首次发布

人工智能专栏收录该内容

428 篇文章

订阅专栏

自己的原文哦~ https://blog.51cto.com/whaosoft/14053474

#When Semantics Mislead Vision

大模型看图“猜”字? MLLMs场景语义幻觉首次揭秘！

近年来，多模态大模型（MLLMs）在图像理解领域飞速发展，然而在面对模糊、无语义的场景文字时，它们常常“翻车”：生成出看似合理、实则脱离图像内容的回答。

来自特伦托大学、香港科技大学等机构的研究者们将这一现象命名为 语义幻觉（Semantic Hallucination），并系统分析了其成因。研究发现—— 模型内部越关注文字区域的层，越能避免幻觉的发生，这为改进多模态感知提供了关键线索。

基于这一洞察，团队提出了一套 无需重新训练的幻觉抑制方案，包括两个核心模块： ZoomText：一种无需外部检测器的“由粗到细”策略，用于自动锁定潜在文本区域； Grounded Layer Correction：智能识别“抗幻觉”的模型层，在解码阶段引导输出更贴合图像。该方法可以无痛移植到任何MLLMs中，以提升多模态大模型在自然场景OCR的表现。

此外，团队还构建了首个专为语义幻觉设计的评估基准—— TextHalu-Bench，包含1730个真实复杂场景样本，覆盖5类常见生活场景，全面检验多模态大模型在场景文字识别和理解的鲁棒性。

论文标题：When Semantics Mislead Vision:Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding
论文链接：https://arxiv.org/abs/2506.05551
项目链接：https://github.com/shuyansy/MLLM-Semantic-Hallucination

背景介绍｜什么是语义幻觉？

随着多模态大模型（MLLMs）在通用图像问答领域的强势崛起，研究者们希望它们能取代传统 OCR 系统，实现端到端的场景文字识别与理解。然而，大模型在自然ocr场景下的鲁棒性是个悬而未决的问题。

实际上，当场景文本中的词语语义完整时，主流的MLLMs（Qwen-VL）能给出较为准确的答案，然而面对无语义的单词时，这些模型便会“看走眼”——它们仍然输出语义合理但视觉上错误的答案。例如将图像上的 “apole” 依旧识别成“apple”。我们称这种现象为：语义幻觉（Semantic Hallucination）。

通俗来说，就是模型靠“猜语义”而不是“看图像”在作答。

图一通过图像编辑方法和真实场景图片中进一步验证了这一猜想： 现有模型往往严重依赖语言先验，而非真正从图像中“看懂”文字。

图一：多模态大模型的语义幻觉探究 a: 大模型往往倾向于将没有语义的单词误识别为有语义的单词 b & c：大模型在OCRBench 和 ICDAR 2015上分别在有语义单词和无语义单词的识别结果

现象解剖｜语义幻觉的根源

那么，语义幻觉究竟是如何在模型中“悄悄发生”的？

研究团队深入挖掘了这一问题的根源，发现语义幻觉的出现，与模型不同层级的注意力分布密切相关。为此，他们计算了幻觉文本在每一层的“幻觉倾向得分”，并与真实文本进行了对比，进一步将这一信息融合到模型的注意力图中，从而观察模型在各层是“靠看”还是“靠猜”。

令人惊讶的是，模型在处理文本时的策略，随着层数的提升发生了显著变化：在底层，模型主要提取视觉特征，此时幻觉倾向较低；而在高层，特别是涉及语义理解的层，模型更倾向于根据语义进行“脑补”，幻觉文本的风险显著上升。换句话说：层级越高，模型越容易“用语义代替视觉”。

更进一步的分析还发现了一种有趣的“负相关关系”：当模型的注意力集中于真实文字区域时，反而不容易产生幻觉。这提示我们，也许在某些中间层，模型“看得更准”——既能识别文本，又不过度依赖语义推断。

于是，一个关键问题被提出：能否找到模型中“最会看字”的那一层，并让它帮助模型做出更精准的判断？

图二探究语义幻觉的原因

方法设计｜两大模块

1. ZoomText：无需外部检测器即可定位文字区域

为了找到模型中“最会看字”的那一层，首先需要定位文字区域的位置。尽管ocr专有模型可以检测文字区域，然而这会增大模型的推理效率。因此，能否利用模型自身的能力去定位文字至关重要。

首先，模型会通过计算文本查询token和图像token之间的交叉注意力，识别出潜在的文本区域。通过对这些高响应区域进行阈值筛选，获得粗略的文本区域候选集。同时，模型利用“相对注意力特性”，即和文本查询相关的视觉token在不同层展现不同的关注度，从而滤除噪声区域。

2. Grounded Layer Correction：优化解码过程，减少幻觉现象

利用zoomtext得到的文本token，模型会计算LLM中每个transformer层中的文本区域注意力，即文本区域中的视觉token attention ratio。随后，模型会选择最强的文本区域注意力层），并将该层的信息与最终解码层的隐藏状态结合。具体而言，研究团队利用加权融合的方式在解码前将来自视觉对齐层的知识与全局信息结合，从而优化模型输出，既保留了语义信息，又减少了幻觉的产生。

图三 ZoomText示意图

语义幻觉，如何评估？｜TextHalu-Bench

现有的场景文本基准如 ST-VQA 和 TextVQA，虽然在推动多模态研究上发挥了重要作用，但它们的测试集大多集中于语义明确、视觉清晰的图像。这种设计让模型可以“猜语义”而非“看图像”，很难真实评估其视觉感知能力。

为此，研究团队提出了首个聚焦语义幻觉现象的基准测试集——TextHalu-Bench。

该基准集从 ICDAR2013、ICDAR2015、MSRA-TD500 等多个公开数据集中精心筛选标注出 1,730 个样本，刻意选择那些视觉模糊、语义不完整的“非语义文本”场景：孤立数字、未完成单词、生僻字符……这些正是模型最容易“脑补”的地方。

为了全面评估模型的能力，TextHalu-Bench设计了两个子任务：Spotting（从图像中提取文本）和Understanding（评估模型能否进行语义对齐）

同时，数据涵盖商业、工业、交通、公共设施、日常生活五大现实场景，贴近实际应用，全面衡量模型在真实世界中的视觉稳健性。

TextHalu-Bench 的出现，不仅首次为“语义幻觉”提供了量化评估标准，也为后续模型训练与优化提供了方向。

图三 TextHalu-Bench示意图

实验结果｜幻觉明显减少，多模态理解任务全面提升

在我们对七个场景文本基准的广泛实验中，得出了三大主要结论：

1.语义幻觉仍然是多模态大模型的重大挑战

在提出的TextHalu-Bench上，表现最好的专有模型GPT-4o仅取得45.3的F1分数。这一挑战主要来自两个方面：首先，场景文本的复杂性和多样性比文档OCR任务更具挑战性；其次，非语义文本需要依赖精确的视觉定位，而非语义先验，很多模型在这一点上仍存在严重的幻觉问题。

2.本工作提出的幻觉抑制方法有效提升模型性能

该方法在不同模型上带来了显著的性能提升。具体而言，Mini-Monkey和Qwen2.5-VL分别提高了4.1%和5.5%的F1分数，表明该策略有效地帮助模型在场景文本的识别和理解中更好地对齐视觉信息。。

3.本工作方法的泛化能力

除了TextHalu-Bench，该方法在多个公共视觉-语言基准上也表现出色。比如，Mini-Monkey在ST-VQA上提升了约4%的准确率，Qwen2.5-VL在SEED-Bench上提高了约3%。这些结果表明，该抑制方法具有广泛的通用性，有效增强了视觉对齐能力，而不会削弱模型其他能力。

表一本工作主要实验结论

展望｜语义幻觉，这一大盲点正逐渐浮出水面

研究团队首次系统揭示了其成因与表现，并提出了专为该现象设计的评估基准，填补了多模态理解中缺乏“反语言偏置”测试样本的空白。在此基础上，进一步设计了面向场景文本任务的幻觉抑制方法，可无缝集成进主流多模态大模型中，大幅提升其视觉对齐能力。

目前数据、方法与代码均已开源，希望能为更稳健、更可信的多模态系统建设提供助力，推动大模型从“会说”走向“看懂再说”。

#Deterministic Object Pose Confidence Region Estimation

6D位姿置信区间估计的直接法

本篇分享 ICCV 2025 论文Deterministic Object Pose Confidence Region Estimation，提出6D位姿置信区间估计的直接法。

论文链接：https://arxiv.org/abs/2506.22720

在自动驾驶、机器人操作、增强现实等安全关键领域，精确感知三维物体的位置和姿态（6D位姿）至关重要。然而，仅提供单一的最优位姿估计，在面对视觉模糊等情况时无法保证系统的可靠性，甚至可能引发灾难性后果。因此，对位姿估计进行不确定性量化，即提供一个能以特定概率包围真实位姿的“置信区间”，已成为学术界和工业界的前沿方向。

当前主流的置信区间估算方法严重依赖于随机采样，这一过程不仅计算效率低下，而且生成的置信区间往往过于宽泛（体积过大），极大地限制了其实际应用价值。为解决这些挑战，国防科技大学图像测量与视觉导航团队提出了一种高效的确定性6D位姿置信区间估计方法。

该方法摒弃了耗时的采样过程，首先通过神经网络直接回归关键点的概率分布，然后利用归纳保形预测（Inductive Conformal Prediction）将其校准为具有用户指定覆盖率的2D关键点置信区间。核心创新在于，团队借助隐函数定理（Implicit Function Theorem），将2D关键点置信区间确定性地、直接地传播到6D位姿空间，生成紧凑的椭球置信区间。

实验结果表明，该方法在保证相近的真实位姿覆盖率的前提下，推理速度提升超过33%，并且生成的置信区间体积大幅度缩小——旋转置信区间体积最多减小99.9%，平移置信区间体积最多减小99.8%。该工作为高可靠性、安全关键应用的落地提供了坚实的技术支撑。

Abstract

本文提出了一种位姿置信区间估计的直接法。对于用户，只需要自定义覆盖率，其后算法能生成以指定覆盖率覆盖位姿真值的6D位姿置信区间，并且能够输出紧凑的位姿置信区间。

本文的贡献与创新点如下：

提出了一种基于 ICP (归纳保形预测) 的方法来预测关键点置信区域，该方法依赖于对高斯关键点分布的确定性回归。
利用 IFT (隐函数定理)，将关键点置信区域直接传播到6D位姿中，同时保持了与采样方法相当的位姿覆盖率。
提出了全面的度量标准来评估估计出的位姿置信区域。

Method

本文提出的确定性位姿置信区间估计流程如图2所示，主要包含三个核心步骤。给定输入图像(a)，方法首先回归关键点的二维高斯分布(b)；随后通过归纳保形预测校准得到2D关键点置信区间(c)；最后，通过基于隐函数定理的确定性传播，高效地得到紧凑的6D位姿置信区间(d)。

图2

1. 确定性关键点回归 (Keypoint Deterministic Regression)

不同于计算和存储开销大的热力图方法，本文采用一种高效的回归模型，直接预测图像中每个语义关键点的二维高斯分布参数（均值和协方差矩阵）。这种方式直接对关键点位置的不确定性（Aleatoric Uncertainty）进行建模。

2. 归纳保形预测与置信区间校准 (Conformal Prediction & Calibration)

为了使预测的置信区间具有严格的统计保障，本文采用归纳保形预测（ICP）框架。该框架利用一个校准数据集，计算出一个非符合性分数阈值。对于新的测试图像，该阈值可以确保生成的2D关键点置信区间（一系列以预测均值为中心，以协方差和阈值为半径的圆形区域）能够以用户预先设定的概率（例如）覆盖所有真实的关键点位置。

3. 基于隐函数定理的确定性传播 (IFT-based Deterministic Propagation)

这是本文的核心创新。团队摒弃了传统的随机采样，利用隐函数定理（IFT）来解析PnP求解器中6D位姿（输出）相对于2D关键点（输入）的雅可比矩阵。这个雅可比矩阵建立起了输入和输出不确定性之间的映射关系。随后，根据不确定性传播理论，将2D关键点的协方差矩阵（代表2D置信区间）通过该雅可比矩阵，“确定性”地、直接传播为6D位姿的协方差矩阵。这个6D协方差矩阵最终定义了一个紧凑的椭球体，作为最终的旋转和位移置信区间。

此外，本文还提出了一套更完善的评估指标，不仅评估位姿精度和覆盖率，还首次将置信区间的体积作为关键衡量标准，以更全面地评价不确定性量化方法的性能。

Experiments

Main Results

表3给出了本文方法的位姿真值覆盖率和其它采样方法的对比。从表中可以发现，由于大幅降低置信区间体检，我们的方法覆盖率相对于采样方法会降低一些。此外，为了更全面的展示我们的方法的性能，我们计算了数据集置信区间体积：

表4给出了本文置信区间估计方法和其它采样方法的对比，我们设计了专门用于置信区间的评价指标（置信区间体积）。从表中可以发现，我们的方法作为一种无需采样的范式，其置信区间更紧凑。

可视化实验

此外，为了更全面的展示我们的方法的性能，我们进行了位姿置信区间的可视化：

如图3所示，我们展示了LMO数据集中本文方法二维关键点置信区间（第一列）和位姿置信区间（第二列表示旋转，第三列表示平移）和采样方法（第四列表示旋转，第五列表示平移）输出置信区间凸包。结果显示，本文方法可以输出更加紧凑的置信区间。

图7表示的是本文方法在SPEED数据集，输出的关键点置信区间和位姿置信区间。更多的实验结果和实验细节，欢迎阅读我们的论文原文以及补充材料。

#种子轮就估值120亿美元

她能打造另一个OpenAI吗？

据《金融时报》报道，OpenAI 前 CTO Mira Murati 的创业公司 Thinking Machines Lab 在一轮「种子轮融资」中成功募集了 20 亿美元，投后估值达到 120 亿美元，成为硅谷历史上规模最大的种子轮融资之一。

从「几百万」到「二十亿」

20 亿的种子轮投资是什么概念？让我们先从一个金融知识开始。

「种子轮融资」（Seed Round Funding）：创业初期，你有点子却缺资金。这时，你需要第一笔启动资金，这笔钱好比「种子」，用来孕育你的公司。它通常金额不大，但风险最高，因为公司仅有想法和团队，尚未推出产品或积累用户。

绝大多数 AI 初创企业早期融资只有几百万到几千万美元，即便是同为 OpenAI 的「校友」公司、如今 AI 巨头之一的 Anthropic，其第一轮正式融资也仅为 1.24 亿美元（2021 年 5 月）。20 亿甚至可以买下大半个 Windsurf 公司（核心技术加主要团队）。

这似乎颠覆了传统「创业」的定义。过去，一个颠覆性的想法在车库里就能诞生，几百万美元的种子轮足以让它发芽。

Google 的第一个办公地点车库。

可以预测，这笔钱的核心用途是构建一个在当今 AI 竞赛中缺一不可的「共生体」：顶尖的人才团队和支撑他们工作的海量算力。

此轮融资由知名风投公司 a16z 领投，芯片巨头 Nvidia 和 AMD 也位列投资者名单，这也许是 Thinking Machines Lab 不用在「算力荒」中挣扎的有力证据。

但这 20 亿不只是光环，也是悬在 Murati 头上的达摩克利斯之剑，投资者不是慈善家，他们投入天价赌注，要求的是超高回报。她必须在规定时间内拿出颠覆性成果，否则估值泡沫会瞬间破灭。

出走者的「新理想国」？

OpenAI 安全团队负责人 Jan Leike 在离职时公开发文，怒斥 OpenAI 及其领导层忽视「安全」而偏爱「光鲜亮丽的产品」。这几乎是公开宣告了公司内部「加速派」与「安全派」的决裂。详见xxx报道：《OpenAI 解散 Ilya 重要团队，前高管怒斥，宫斗第二季》。

Mira Murati 的离开和创业，也发生在 OpenAI 领导层「政变」风波之后。她的新公司，是否旨在建立一个她认为更理想的 AI 开发环境？

尽管 Thinking Machines Lab 成立不到一年，且对其具体研究内容高度保密，但 Murati 透露了公司未来的方向。她表示，公司正在构建「能以自然交互方式工作的多模态 AI——通过对话、视觉以及我们进行协作时那种略显混乱的真实方式」。

在 OpenAI 名字里还带着「Open」，却日益走向封闭的当下，Murati 明确提出产品将包含一个「开源组件」，对开发定制模型的研究人员和初创公司很有用。她还补充说，公司将分享其「最优秀的科学成果」以回馈研究社区。

不过有意思的是，Meta 作为开源社区的最大贡献者之一，近期却有转向开发闭源模型的传言。详见xxx报道《内部爆料：Alexandr Wang 上任第一把火，Meta 大模型闭源》。

另外不得不提的是同为「出走者」的 Ilya Sutskever，他在 2024 年 6 月宣布成立新公司 Safe Superintelligence Inc. (SSI)，其唯一目标就是安全地构建超级智能，不为产品和商业利润所动。

同样有 OpenAI 的光环，同样至今 0 产品，却似乎正在探索两条截然不同的道路。Ilya 走向了极致的、纯粹的「安全」，不问商业，而 Murati 似乎试图在理想与现实中找到平衡。

Thinking Machines Lab

其实 Thinking Machines Lab 这个名字也挺有意思的，字面意思就已相当清晰。另外还有猜测它是在致敬一家成立于 1980 年代的计算机公司 Thinking Machines Corporation，以其开发的高性能并行计算机闻名，曾在超级计算和人工智能领域具有开创性意义。

在激烈的人才争夺战中，Thinking Machines Lab 已经吸引了多位重量级人物，堪称「AI 梦之队」。详见xxx往期报道《最豪华大模型创业阵容！OpenAI 前 CTO 组建，翁荔、Schulman 等 ChatGPT 核心成员加盟》。

这其中最引人注目的成员，莫过于创始人 Mira Murati 本人，她在 AI 领域拥有卓越的履历。她在 OpenAI 曾负责 ChatGPT、Dall-E 等核心产品的开发，并在 2023 年 11 月的董事会风波中短暂担任临时首席执行官。此前，她还曾在特斯拉担任高级产品经理，参与了 Model X 的研发。

Mira Murati 在旧金山接受了《连线》与 Emily Chang 的采访。

另外，据媒体报道，近期在 AI 人才战中大获全胜的 Meta 公司也曾就收购 Thinking Machines Lab 进行过谈判，但最终未能进入正式报价阶段。

从近期的 AI 工程师天价「转会」风波，到 Thinking Machines Lab 20 亿的种子融资，我们可以看到 AI 在这个时代毫无争议的重要地位。

无论如何，大家对 Thinking Machines Lab 新产品的期待值已经拉满了。

参考链接：
https://www.wired.com/story/thinking-machines-lab-mira-murati-funding/https://www.ft.com/content/136c04f2-787b-4ec3-9e0e-11eda682d52fhttps://techcrunch.com/2025/07/15/mira-muratis-thinking-machines-lab-is-worth-12b-in-seed-round/

#ReliableMath

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳，导师为黄锦辉教授，目前在伦敦大学学院进行访问交流，他的研究方向包括可信大模型，模型不确定性，对话系统等，在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文，并长期在知乎写作大模型、机器学习等专栏文章，个人主页为：

https://amourwaltz.github.io

研究问题

面对无解问题最强模型也会束手无策？

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

对于复杂的推理任务，一个可靠的模型应当在思考分析后，对可解问题给出正确答案，对不可解问题则指出无解；如果问题超出模型能力范围无法判断可解性，一个次优的选择就是拒答以避免误导用户，如上图（b）和（c）所示，这样回复才是可靠的，同时也能抑制幻觉发生。

近期由港中文和华为诺亚实验室联合提出的 ReliableMath 基准，旨在探究大模型推理任务的可靠性。该工作文章和数据集均已开源，并持续在 leaderboard 上更新最新模型结果，目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性测试结果，欢迎大家关注补充～

论文题目：ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models

论文作者：Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong

论文地址：https://arxiv.org/pdf/2507.03133

GitHub 地址：https://github.com/AmourWaltz/ReliableMath

数据集地址：https://huggingface.co/datasets/BeyondHsueh/ReliableMath

Leaderboard 地址：https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性评估准则

知之为知之，不知为不知，是知也

此前大模型可靠性的研究集中在知识任务上，探究是否知道某个知识，缺乏对更难的推理任务的探索。由于推理问题本身可能无解，并且问题可解性以及模型能否回答都需要经过推理才能得出，增加了研究挑战。

根据前文对推理任务可靠性的定义，本工作提出一套推理任务可靠性的评估准则，如下图所示，将问题分为可解（A）和不可解（U），将模型回复分为成功（S），拒答（R）和失败（F）。成功表示对可解问题匹配到正确答案或对不可解问题指出其无解，这是最好的情况；次优是拒答，即对可解和不可解问题都回复我不知道；其余回复均认为是失败。

分别使用精度（Prec.）和谨慎度（Prud.）来表示成功率和拒答率，评估可靠性时优先看精度，其次看谨慎度。

ReliableMath 数据集

首个高质量数学无解问题集

由于缺乏无解的数学问题，本文提出一个评估数学推理可靠性的数据集 ReliableMath，包含可解和不可解的问题。可解问题从当前开源数学问题集中收集，不可解问题通过对可解问题进行改写构造获得，改写方式有两种：删除必要数学条件或增加与已知条件矛盾的条件，如下图所示。

为了得到高质量的无解问题，本文提出一套完整的无解解问题构造流程，如下图所示，包含三步：1）通过对现有可解问题进行改写使其不可解；2）对改写问题使用模型验证，并过滤掉不合格的问题；3）对过滤数据再次进行人工验证评估问题是否无解，保留确实无解的问题，这样就得到了高质量的无解问题构成 ReliableMath 数据集。

ReliableMath 包含不同难度的数学任务，包括奥赛级的 AIME、AMC、Minerva、及高中级的 MATH。人工标注时，对判断问题无解的难度也进行了标注，对那些很容易判断出无解的，比如几何题缺失图片信息等，难度标为 0，而对于需要经过思考才能判断无解的，难度标为 1，数据统计可参考原文。

实验分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了实验，并指出以下几条关键发现：

对模型直接输入无解问题时（standard prompt），模型几乎不具备拒答或指出不可解的能力，可靠性极差；我们发现模型能注意到无解问题本身存在问题，但不敢承认其无解或拒答，反而是会不断地回溯、反思导致生成大量无意义的思考过程，直到截断或虚构一个答案，造成严重浪费和幻觉，损害了可靠性；
当在提示词中加入允许模型拒答或指出问题无解的指令后（reliable prompt），我们发现在可解问题上的可靠性变化不大，但大部分模型在不可解问题上可靠性有明显提升，尽管仍低于可解问题的可靠性，并且生成序列长度也有明显下降，说明使用 reliable prompt 可以在不损害可解问题性能的前提下，提高不可解问题的可靠性，并减少过度思考。
对较大的模型，使用 reliable prompt 后慢思考模型的可靠性普遍高于对应快思考模型，如 Deepseek-r1 vs. Deepseek-v3；而对于小模型，使用 reliable prompt 后慢思考模型在不可解问题上的可靠性仍然很差，并没有高于对应的快思考模型，如 Distill-7b vs. Qwen-7b，意味着小模型可靠性有进一步提升空间。
较简单的数学测试集的可靠性要高于较难的测试集的可靠性。

此外，本文也对 ReliableMath 数据集做了分析，下图（a）分别测试了使用移除必要条件和增加矛盾条件两种改写方式构造的问题的可靠性，结果表明移除条件构造的不可解问题可靠性偏低，这是因为模型倾向于假设缺失条件虚构答案。图（b）分别展示了不同难度的无解问题的可靠性，发现难度为 1 的不可解问题可靠性偏低，即这些问题需要模型经过推理才能发现问题无解，这种情况更难也符合预期，说明大模型与人类在识别问题无解难度的相关性是一致的，尽管人工评估难度存在主观性。

可靠性对齐

如何提高大模型可靠性？

本文最后提出一个提高可靠性的对齐策略，在开源训练集上构造一批无解问题。在较强的模型上蒸馏获得成功回复，然后在小模型上自采样获得拒答回复，最后使用监督学习训练小模型提升可靠性，如下图所示。经过对齐后，小模型的可靠性也得到显著提升。

结语和展望

本文提出首个大模型推理任务的可靠性基准，希望借此抛砖引玉，引出更多对新生代推理模型可靠性的关注和优秀工作，让人们更加信任模型的输出，让 AI 更好地服务于人类～

#Anthropic「闪电」夺回被Cursor挖走的核心编程大将

两周反转

本月初，据 The Information 报道，Anthropic Claude Code 的两位负责人 Boris Cherny 和 Cat Wu 被 AI 编程应用 Cursor 的开发商 Anysphere 挖走。详见xx报道：《从亲密伙伴抢人，Cursor挖走Claude Code两位核心人物》

其中，Boris Cherny 是 Claude Code 项目的开发负责人，可以说是 Claude Code 技术的灵魂人物，此前加入 Anysphere 担任首席架构师和工程主管。Cat Wu 则是 Claude Code 产品经理，在 Anysphere 的新职务是产品主管。

Boris Cherny 和 Cat Wu，在此访谈节目中，Cherny 表示 Anthropic 公司 80% 的代码都是 Claude 写的。图源：Latent Space

万万没想到，仅仅过了两周，事情迎来了反转！

同样据 The Information 独家消息，Anthropic 重新聘回了这两位 Claude Code 的关键负责人。

Anthropic 最近给投资人透了些底：公司虽然还在大把大把地「烧钱」，但赚钱的能力确实在变强。

这番话效果立竿见影。据知情人士透露，已经有投资人按捺不住，表示如果 Anthropic 要再融一轮，他们愿意按超过 1000 亿美元的估值来投。要知道，就在四个月前，这家公司的估值才「仅仅」580 亿美元。

Anthropic CEO Dario Amodei

喜忧参半的利润率

Anthropic 透露，他们直接卖 AI 模型和聊天机器人 Claude 给客户时，毛利率能达到 60%，而且还在朝着 70% 努力。这个数字相当不错，可以简单理解为，每赚 100 块钱，刨去服务器和客服成本，能剩下 60 多块。

但这里有个坑。这漂亮的数字不包括通过亚马逊 AWS 和谷歌云的销售。在那两条渠道上，Anthropic 的毛利率其实是负 30%！原因很简单，亚马逊和谷歌作为「中间商」，要抽走一大笔分成。

虽然目前大部分收入还来自直销，但 Anthropic 自己也预计，未来云服务商会成为主要的销售渠道。这意味着，他们整体的利润水平可能并没有听上去那么乐观。

相比之下，OpenAI 在今年早些时候预测其 2025 年的毛利率为 48%。OpenAI 预计未来几年将稳步提升，到 2029 年最终达到 70% 的毛利率。目前尚不清楚这两家公司是否以相同的方式计算其毛利率。

要说花钱，Anthropic 和它的老对手 OpenAI 都是「重量级选手」。

Anthropic：去年烧了 56 亿美元，今年计划烧 30 亿。

OpenAI：收入是 Anthropic 的好几倍，但烧钱速度却更慢。

尽管如此，两家公司的收入增长都堪称「爆炸式」，今年的业绩很可能都会轻松超过最初的乐观预期。投资者似乎更看重这种惊人的增长速度，暂时忽略了高昂的成本。

如果估值真的冲到 1000 亿美元，意味着投资者愿意给出其远期收入至少 25 倍的价格。

相比之下，OpenAI 在一月份的融资讨论中，估值已经谈到了 2600 亿美元，大约是当时远期收入的 43 倍。从那时到现在，OpenAI 的年化收入又从 60 亿美元涨到了超过 100 亿。

编程助手 Claude Code 成「新王牌」

Anthropic 的增长很大程度上要归功于其在编程领域的强大实力。他们的编程助手 Claude Code 正在飞速占领市场。

增长惊人：自 6 月以来，周下载量暴增 6 倍，达到 300 万次。
收入贡献大：这款产品贡献了超过 2 亿美元的年化收入。

相比之下，Claude Code 的「老对手」们的情况似乎不太乐观。

Cursor 作为一个第三方工具，不提供对模型内部参数（如学习率、层数等）的直接访问或微调功能。模型的训练和优化由其提供商（OpenAI、Anthropic、Google 等）完成，Cursor 仅作为接口调用这些模型。

Cursor 最近的更新也引发大量用户的不满。

简单来说，这次更新把付费模式从一个相对固定的订阅制，彻底转向了按用量计费的模式。

以前：Pro 用户每月有 500 次使用高级模型的「快速响应」，用完后也能无限次使用速度稍慢的模型。这基本算是一种「半无限」的自助餐。
现在：每月给你 20 美元的「额度」。你可以调用任何模型，但会计入这 20 美元的账单里。用完？那就得额外掏钱买点数（Credits）了。

Cursor 以前是自己硬扛着昂贵的 AI 模型成本，现在选择把这笔账单直接甩给了用户。

同时伴随着是响应质量和使用体验的下降，已经有不少用户选择迁移到其他平台。

而 Windsurf 最近的收购案闹得沸沸扬扬，似乎也前途未卜。详见xx报道：《Windsurf交易内幕疯传：24亿美元被瓜分，背刺数百员工？》《突发｜动荡72小时后，华人团队Cognition收购Windsurf剩余团队》

#Discrete Diffusion in Large Language and Multimodal Models

舍弃自回归，离散扩散语言模型如何演化？NUS综述解构技术图谱与应用前沿

本论文共同第一作者于润芃和李奇是新加坡国立大学 xML 实验室博士生，指导老师为王鑫超，研究方向是多模态大模型与可信深度模型。

本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。

论文链接：https://arxiv.org/pdf/2506.13759

GitHub 仓库：https://github.com/LiQiiiii/DLLM-Survey

自 GPT 引爆大语言模型热潮以来，自回归的大语言模型（LLMs）与多模态模型（MLLMs）已成为智能系统的基石。然而，当人们着眼于更快、更可控、更智能的生成范式时，一条新兴路径悄然浮现：离散扩散（Discrete Diffusion）。

本综述系统梳理了离散扩散方向的研究图谱，呈现了离散扩散语言模型（dLLMs）与离散扩散多模态语言模型（dMLLMs）的理论基础、代表模型、训练与推理技术，以及在推理、视觉、生物等多个领域的应用进展。

图 1 综述的框架结构与内容

自回归的局限与离散扩散的崛起

传统大模型采用自回归（Autoregressive, AR）架构，其从左至右逐词生成方式虽然自然，但存在显著的性能瓶颈：无法并行解码、难以精确控制输出、局限于对输入的静态感知、对补全和逆向推理的建模能力差。这使其在需要结构化控制与动态感知的复杂场景中表现受限。

离散扩散模型打破了这一范式。它不再逐词预测，而是将生成视为一个「掩码 - 去噪」迭代过程，并行处理所有 Token，并借助全局注意力机制实现动态感知。这种设计带来了三大核心优势：

推理并行性（Parallel Decoding）: 并行推理是离散扩散模型最大的特点和优势。并行推理使得离散扩散每次迭代都可以解码出多个 Token，从而带来解码速度上的提升。
输出可控性（Controllability）与补全能力（Infilling）: 掩码 - 去噪的解码机制，使得每一次回答都可以预设回答的长度、格式、结构，为回答设定一个模板。
动态感知能力（Dynamic Perception）: 全局注意力机制下模型对左侧 Token 的处理受到右侧 Token 的影响；多轮迭代的解码机制使得对所有 Token 的处理都可以反复多次进行。这使得 dLLM 和 dMLLM 可以对长语料和多模态输入进行多轮、有条件的动态感知，而不是如单向注意力一样仅仅能够感知一次。

图 2 自回归模型与典型离散扩散模型的对比

离散扩散语言模型的数理基础

D3PM（Discrete Denoising Diffusion Probabilistic Models）框架是众多离散扩散数理模型的起点。D3PM 给出了在离散时间上、离散状态空间中的马尔可夫模型。整个模型由两个对偶过程构成：前向扩散过程和反向去噪过程。

在前向过程中，原始序列

被逐步扰动为噪声表示

，其转移机制由一系列时间依赖的转移矩阵

控制，不同形式的

对应不同的扩散行为。例如，均匀（Uniform）转移会将 Token 等概率扰乱；吸收态（Absorbing）转移则将所有 Token 都映射至特定的 [MASK] Token。因此，使用吸收态转移的扩散过程也被称为 Masked Diffusion，是当前 dLLM 和 dMLLM 中使用最多的一类。此外，还有基于嵌入相似度的扩散矩阵、带状（band-diagonal）或离散高斯转移等，增强模型在语义空间或局部结构中的建模能力。

反向过程则学习如何一步步去噪，还原出高质量文本。常见的

，通过一个神经网络

来预测原始 Token 的概率分布，再结合前向转移概率，从而构造出反向转移概率

。训练时的损失函数由变分下界（ELBO）导出。在 Masked Diffusion 框架下，损失函数还可以被化简成加权的 Masked Language Modeling 损失。

在 D3PM 的基础上，连续时间扩散模型将离散时间步泛化为连续时间步，构建了在连续时间上离散状态空间的马尔可夫过程，通过引入速率矩阵

来建模任意时刻的状态跃迁。Concrete Score 模型将反向过程的转移速率矩阵

拆解为前向速率矩阵

和联合概率比 c 的乘积，通过 Score Matching、基于 Bregman 散度的 Score Entropy 等损失函数来学习概率比 c。 Discrete Flow Matching 将流匹配思想引入到离散空间，在给定源目标分布和噪声分布之间，构造连续变化的概率路径。训练过程通过定义 Token 级速度场来驱动序列生成，配合交叉熵损失优化。

离散扩散语言模型生态概览

图 3 离散扩散模型的发展历程

随着离散扩散语言模型（dLLMs）快速崛起，近年来该领域涌现出一系列代表性模型。从早期探索性的轻量模型，到近期可比肩自回归 LLM 的离散扩散大模型，再到多模态与统一建模范式的拓展，离散扩散正逐渐演化为一条独立而完整的技术路径。综述将当前模型生态大致划分为以下四类：

1. 轻量级模型：早期的离散扩散模型参数量往往不超过 1B，代表作包括 D3PM、DiffusionBERT、RDM、Diffusion-NAT、TESS、SEDD、MDLM、MD4 等。这些模型重点在于探索基础的建模机制与去噪策略，验证离散扩散在文本和多模态生成任务上的可行性。

2. 大规模 dLLM：随着技术成熟，多个工作开始将扩散架构拓展至 10 亿以上参数量，构建具备完整语言理解与生成能力的「非自回归大模型」，代表模型包括：LLaDA 系列、DiffuGPT / DiffuLLaMA 和 DREAM 等。这些工作从规模上拓展了扩散语言模型的边界，系统性地探索了其工程可行性。

3. 多模态扩展（dMLLM）：在语言能力日趋完善之后，研究者开始探索 dLLMs 在多模态任务中的适应性，典型代表有：Dimple、LaViDa 和 LLaDA-V。

4. 统一生成模型：离散扩散在图片生成中的可行性很早就被验证了，随着语言生成能力的完善，MMaDA、FUDOKI 和 Muddit 等模型给出了一种统一的架构，使用离散扩散模型在一个神经网络中同时建模文本和视觉的生成。

训练与推理技术

方兴未艾的 dLLM 与 dMLLM 正在不断演进，伴随而来的还有训练与推理技术的持续创新。本综述系统地梳理并归纳了已有模型中采用的核心方法，同时也在不断收录和更新该领域的最新进展。

训练技术

离散扩散模型在训练过程中面临一系列独特挑战，包括语料利用率低、生成长度偏差（length bias）、随机时间采样带来的监督信号覆盖率低等。为解决这些问题，研究人员提出了多种创新性的训练机制。综述中主要归纳了以下几类：

初始化机制：使用已经训练好的 BERT 模型或者 AR 模型作为训练起点，或者对模型首先进行 AR 训练再进行扩散训练。典型的模型包括 DiffuLLaMA、DiffuGPT 和 Dimple 。这一类初始化技术化能够加速训练过程，保证模型性能，在资源受限的训练时效果显著。
互补掩码策略（Complementary Masking）：为提升语料使用效率，构造一对互补的掩码样本，两次掩码的位置互斥，但是拼起来可以使所有 Token 都被覆盖，从而解决信息利用稀疏问题。典型的模型包括 LaViDa 和 DiffuCoder。
掩码调度（Masking Scheduling）函数：掩码调度函数决定了训练过程中各个时间步上掩码比例的大小。在训练过程中既可以为所有的 Token 设置统一的调度函数，也可以针对各个 Token 设置不同的调度函数。在线性调度函数下，掩码比例随时间线性变化，使每一步加噪的 Token 数量大致相同。在凸（convex）调度函数下，掩码函数斜率的绝对值先大后小，在时间步不大时就能够掩码大量的 Token，从而使得模型训练时能够接触到更 noisy 的样本，也鼓励推理时从慢到快，每一步解码出来的 Token 数量先少后多。
重加权策略（Reweighting）：对不同 Token 处的损失函数值进行调整，强化对特定 Token 的学习。比如，MGDM 提升损失函数大的 Token 的权重，提升对困难位置的关注，加速收敛。
知识蒸馏（Distillation）: 通过知识蒸馏实现对推理步数的压缩，将多步的「教师模型」知识传递给步数更少的「学生模型」。

这些技术从训练目标、数据使用到网络初始化等方面优化了扩散训练流程，使 dLLMs 得以在更大规模、更复杂任务上保持稳定、有效的训练表现。

图 4 几种掩码调度函数

推理技术

dLLMs 和 dMLLMs 的推理过程中的每一步都会对所有的 token 进行并行的同步预测，之后基于特定的规则来决定要保留哪些位置的预测。为兼顾生成质量与效率，研究人员提出了一系列推理技术。综述中主要归纳了以下几类：

Unmasking 策略决定「什么时候生成什么」。推理中每轮只会保留对部分 Token 的预测，Unmasking 策略负责决定解哪里、解多少。解码的位置既可以是随机选取，也可以是度量驱动（Metric-based），根据模型置信度、负熵等指标优先解码「最确定」的位置。每一步解码的 Token 数量可以设置为固定值，也可以根据训练时的调度函数计算得到。如果使用了度量驱动的解码策略，还可以使用 Confident Decoding 算法，通过阈值动态调整每一步解码出来的 Token 数量。
Remasking 技术实现「修正」，解决吸收态扩散模型「写完不能改」的局限。Remasking 允许将已经解码出来的 Token 再次设置为 [Mask]，从而对回答进行修改，实现 Test-Time-Scaling。
缓存机制（Caching）：AR 框架下的 Prefilling 和 KV-Cache 机制也被引入了 dLLM 和 dMLLM 中，通过缓存注意力计算的中间结果，并选择性动态更新，以加速生成。
Guidance 技术：类比于连续扩散模型中的 Guidance 机制，Classifier-Free Guidance、Reward Guidance、Energy-Based Guidance 等技术也被应用在离散扩散模型中，实现对模型输出的定向调整。

这些推理技术不仅提升了生成效率，更赋予了 dLLMs 修正和控制的能力，逐步构建出具备实用价值的非自回归语言推理范式。

图 5 对 Unmasking 策略的展示

结语

除了以上内容，综述中也介绍了 dLLM 和 dMLLM 在生物、视觉、推理等方面的应用，探讨了其未来可能的发展方向。

随着大语言模型不断拓展其边界，离散扩散模型（dLLMs 与 dMLLMs）为传统自回归范式提供了强有力的替代路径。并行解码、结构控制与动态感知等优势使它们突破了自回归模型在效率与控制性上的瓶颈。从基础理论到工程优化，再到多模态与跨领域应用，离散扩散范式正在逐步走向成熟。

#WAP

小模型逆袭复旦&创智邱锡鹏团队造出「世界感知」——开源LVLM新框架WAP登顶EmbodiedBench榜单

1. 引言（Introduction）

视觉-语言-大模型（LVLMs）正迅速成为xx规划领域的新核心，但现有方法大多采用环境无关的模仿学习：把一句简化指令直接映射到动作序列，训练时既不关心房间布局，也不回顾历史观测。一旦遇到陌生场景、多步目标或含糊措辞，模型便“盲人骑瞎马”，要么过度依赖外部反馈，要么陷入重复错误。

为破解这一瓶颈，复旦大学与上海创新研究院提出 World-Aware Planning Narrative Enhancement（WAP）。核心思想是：

在数据层面注入四维认知叙事（视觉、空间、功能、句法），让模型先“看得全”再“想得深”；
采用闭环观察（仅 RGB + 指令，无任何动作成功信号）和三阶段课程学习，逐级培养环境理解与长程推理能力。

在 EB-ALFRED 基准上，7B 级开源 Qwen2.5-VL 成功率由 2 → 62.7（+60.7pp），超越 GPT-4o 与 Claude-3.5-Sonnet，验证了世界感知对高水平规划的决定性作用。

2. 相关工作（Related Work）

文本元数据 → 动作：早期方法依赖环境符号标签，缺乏视觉感知，难落地真实场景。
视觉管线级联：随后引入语义地图或分割网络，但需外部模块，部署复杂。
LVLM Planner：近期直接用大模型处理 RGB，却常借助“动作成功”“任务进度”等特权信号，与现实机器人脱节。

WAP 与现有工作最大区别：在数据层显式绑定指令-环境上下文，且全程仅靠视觉闭环，无需特权信息。

3. 技术方法（Method）

3.1 问题定义

给定自然语言指令 I 与按时间排序的第一人称观测序列，模型需预测下一步动作。难点在于：

部分可见、连续变化的环境；
长时依赖与隐式需求（如“冰镇后切片”）。

3.2 四维认知叙事增强

维度	目标	示例（原 → 增强）
视觉 Visual	物体外观	“放刀进盒”→“放 20 cm 银色厨刀入蓝色塑料盒”
空间 Spatial	精确定位	“…进柜子”→“…进水池右侧贴墙的白柜”
功能 Functional	工具-对象抽象	“放喷壶”→“放用于喷洒的容器”
句法 Syntactic	复杂指代	“放生菜进冰箱”→“那颗洗净的生菜，记得冷藏”

生成后通过自验证器判定与原任务等价，保证质量。

3.3 step-wise推理标注

对轨迹中每个动作生成理由，包括所见、指令关联与全局目标贡献，为模型提供显式“思考链”监督。由此得到

3.4 三阶段课程学习

Base：原始指令-轨迹对，学基础感知-动作映射；
Env-Aware：加入视觉+空间增强，学习场景理解；
Concept-Aware：进一步加入功能+句法+全链推理，攻克高阶语义与长程规划。

损失采用动作交叉熵，整过程仅用 RGB观测，无特权反馈。

4. 实验（Experiments）4.1 主结果

Qwen2.5-VL +60.7 平均成功率提升，长程任务成功率 0→ 70，超越Claude-3.5等闭源模型；
InternVL3-8B 同样从 6→ 61.0，长程任务成功率 x17.5；
标准差STD更低 → 能力更平衡；

4.3 消融实验

仅视觉/空间增强：Avg 46.7，Std 17.1 → 过拟合感知，语义薄弱。
+部分推理：Avg 54.0，Std 9.3 → 能力趋稳但仍缺长程一致性。
完整四维 + 课程：62.7 / 6.3 → 兼顾性能与稳健。

4.4 案例分析

指令：“把冰镇的苹果切块后扔进垃圾桶”

WAP-Qwen 拆解出 18 步（取刀-切-冷藏-丢弃），且中途安全放置刀具；基线模型直接将整苹果丢桶导致失败，显示 WAP 对隐式条件、因果顺序的掌控优势。

5. 结论与展望

WAP 显式把“世界知识”写进数据与推理链，用四维叙事 + 课程学习让小规模开源 LVLM 在纯视觉闭环下刷新 EB-ALFRED 纪录，首次越级击败商业大模型。

未来工作：

下沉连续控制，连接低层执行；
拓展工业／户外动态场景；
探索自监督叙事自进化，实现数据-模型闭环迭代。

#Goedel-Prover-V2-32B

普林斯顿团队领衔发布最强开源数学定理证明模型：32B性能大幅超越前代SOTA DeepSeek 671B

近日，由普林斯顿大学牵头，联合清华大学、北京大学、上海交通大学、斯坦福大学，以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。

该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B；而 8B 小尺寸模型在特定基准上，性能表现与 DeepSeek-Prover-V2-671B 持平，展示了其在效率和能力上的新突破。

项目主页：http://blog.goedel-prover.com

HuggingFace 模型下载：https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

主要成果

MiniF2F 性能新高：其 32B 旗舰模型在 MiniF2F 测试中，Pass@32 （每道测试题目尝试 32 次；pass 数越小，计算开销越小）的正确率相较于之前的 SOTA 模型 DeepSeek-Prover-V2-671B 提升了 8.0%。

小而强：8B 参数模型的性能表现与之前 671B 参数的 SOTA 模型持平。

登顶 PutnamBench：在极具挑战性的 PutnamBench （普特南数学竞赛基准）上，该模型排名第一。

项目简介

Goedel-Prover-V2 立足于形式化推理，即以精确、无歧义的形式语言（Formal Language）来进行数学推理，完整数学定理证明，整个推理和证明过程可被机器自动验证。目前，最主流的形式化证明语言 Lean 已经被广泛的数学家群体接受。

Goedel-Prover-V2 的开发流程基于标准的专家迭代（expert iteration）与强化学习，并引入了三项关键创新：

分层式数据合成 (Scaffolded data synthesis)：通过自动合成难度渐进递增的证明任务来训练模型，让模型能够循序渐进地处理更复杂的定理。
验证器引导的自我修正 (Verifier-guided self-correction)：模型通过利用 Lean 编译器的反馈，学习迭代地修正自身生成的证明，模拟人类自我修正的过程。
模型平均 (Model averaging)：融合不同训练节点的模型权重，以提升模型的鲁棒性与综合性能。

基于这些方法，该项目的较小模型 Goedel-Prover-V2-8B 在 MiniF2F 测试集上（Pass@32）达到了 83.3% 的通过率，甚至超越此前模型参数量超过 80 倍的 SOTA 模型 DeepSeek-Prover-V2-671B 的性能。其旗舰模型 Goedel-Prover-V2-32B 更是将此项指标提升至 88.1% （标准模式）和 90.4% （自我修正模式），大幅超越了所有先前的 SOTA 模型。

在 PutnamBench 上，开启自我修正模式的旗舰模型仅使用 Pass@64 就解决了 64 个问题，用远远更小的计算开销超过了 DeepSeek-Prover-V2-671B 在 Pass@1024 下解决 47 个问题的记录。

性能表现

基准测试结果

自我修正模式：模型先生成初始证明，再利用 Lean 编译器的反馈进行两轮自我修正。这一过程仍然保持了高效：总的输出长度（包括初始证明和两轮修正）仅仅从标准的 32K tokens 略微增加到 40K tokens。

图 1: 在 MiniF2F、PutnamBench、以及新发布的 MathOlympiadBench （包含 360 道数学奥林匹克竞赛级别题目）上的 Pass@32 性能对比。横轴为不同模型表现，纵轴为模型性能（解决题目的百分比或者个数）

上图展示了 Goedel-Prover-V2 在 MiniF2F、PutnamBench 和 MathOlympiadBench 三个基准测试中的性能。所有数据在 Pass@32 下测得：

在三个数据集中，32B 旗舰模型在标准模式和自我修正模式下的性能均显著超过了之前的 SOTA 模型 DeepSeek-Prover-V2-671B 和 Kimina-Prover-72B。
在 MiniF2F 上，8B 模型的性能与模型尺寸大近 100 倍的 DeepSeek-Prover-V2-671B 相当。

PutnamBench 排行榜

下表为 PutnamBench 的最新排名。Goedel-Prover-V2-32B 在相对更少的计算开销（pass 数）下取得了领先成绩。

表 1: PutnamBench 排行榜。

推理时的计算扩展性

推理时的计算扩展性曲线显示，在不同的推理采样预算下，Goedel-Prover-V2-32B 模型的性能均稳定超过了之前的同类模型。

图 2: 在不同采样预算下，模型在 MiniF2F 测试集上的性能表现。横轴为 pass 数（采样预算），纵轴为解决题目的百分比

技术方法

Goedel-Prover-V2 的性能主要基于以下四种核心技术：

专家迭代与强化学习 (Expert Iteration & RL)：项目遵循标准的训练流程：形式化问题、生成并验证证明、利用新证明训练下一代模型，并结合强化学习进行优化。
分层式数据合成 (Scafforded Data Synthesis)：该技术自动生成中等难度的问题，用以弥合已解决的简单问题与尚未解决的复杂问题之间的鸿沟，从而实现更平滑的难度递进，并为模型提供更密集且更具信息量的训练信号。
验证器引导的自我修正 (Verifier-Guided Self-Correction)：模型被训练以使用 Lean 编译器的反馈来迭代修正自身证明，这一能力被整合到监督微调和强化学习流程中。
模型平均 (Model Averaging)：为避免训练后期模型多样性下降，研究者将训练好的模型与基础模型进行权重平均，此方法有助于提升在需要更多采样次数时的 Pass@K 性能。

模型与数据集下载

为了促进相关领域的研究，团队已公开发布了 Goedel-Prover-V2 模型及全新的 MathOlympiadBench 基准。

模型下载

Goedel-Prover-V2-32B:https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B
Goedel-Prover-V2-8B:https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B

数据集下载

MathOlympiadBench:https://huggingface.co/datasets/Goedel-LM/FoMOBench

MathOlympiadBench 是一个收录了奥林匹克级别数学竞赛问题形式化版本的数据集，来源包括 Compfiles 和 IMOSLLean4 等代码库。数据集共包含 360 个问题，覆盖了 IMO （International Math Olympiad，国际数学奥林匹克竞赛）、IMO 候选短名单及其他区域性竞赛题。

研究团队表示，发布此模型旨在支持开源社区的研究，包括为 IMO 等数学竞赛做准备的相关项目。包含完整技术细节的论文将在未来几周内发布。

项目骨干：

林勇（Yong Lin），普林斯顿大学博士后，与金驰、陈丹琦、Sanjeev Arora 教授合作，研究方向为大模型的形式化数学推理与后训练。相关成果曾获 NAACL 杰出论文奖，入选 2023 年苹果 AI 学者。

个人主页：https://linyongver.github.io/Website/

唐山茖（Shange Tang），普林斯顿大学博士生，导师是金驰和范剑青教授。他的研究领域包括大模型的形式化数学推理、分布外泛化等。

个人主页：https://shangetang.github.io/

项目负责人：

金驰（Chi Jin），普林斯顿大学电子与计算机工程系教授。他的研究专注于机器学习的决策制定，致力于开发具备复杂决策与高级推理能力的智能体。其团队在强化学习、博弈论及最优化等领域奠定了坚实的理论基础。近期，他们正积极将研究拓展至大语言模型（LLM），重点提升其推理能力。金驰教授曾荣获多项重要荣誉，如斯隆研究学者奖（Sloan Research Fellowship）、美国国家科学基金会 CAREER 奖（NSF CAREER Award）等。

个人主页：https://sites.google.com/view/cjin/home

#Mixture-of-Recursions

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

大型语言模型已展现出卓越的能力，但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别，训练和推理的成本变得高昂，阻碍了其在许多实际应用中的推广与落地。

这促使研究者们围绕两个主要方向积极探索高效化技术：一是通过权重共享提升参数效率，二是根据输入复杂度动态分配计算资源，实现自适应计算。

而一切的基础则是 Transformer 架构。这次谷歌又一次坐不住了，在递归 Transformer 的基础上再次进化，发布了名为 Mixture-of-Recursions （MoR）的新 LLM 模型架构，有学者认为这个新架构「有潜力成为 Transformer 的杀手」。

MoR 框架引入了一种统一方法，同时实现参数共享和自适应计算。与以往孤立处理参数减少或自适应计算的方法不同，MoR 将动态 token 级路由集成到参数高效的递归 Transformer 中，创建了一种协同架构，实现了「无需承担大模型成本的大模型质量」。

论文标题：Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

论文链接：alphaxiv.org/abs/2507.10524

在本研究中，作者提出了 Mixture-of-Recursions（MoR），一个统一框架，旨在充分发挥递归 Transformer 的潜力（如图所示）。MoR 通过端到端训练轻量级的路由，为每个 token 分配专属的递归深度：即根据每个 token 所需的「思考」深度，决定共享参数模块对其重复应用的次数，从而将计算资源精准地分配到最需要的部分。

这种基于 token 的动态递归机制，天然支持递归级的键值（KV）缓存，即根据每个 token 所分配的递归深度，有选择地存储和检索对应的键值对。该定向缓存策略显著降低了内存带宽压力，从而无需后处理操作就能提升推理吞吐量。

因此，MoR 在一个统一架构中同时实现了三项优化：

1. 参数共享：通过权重绑定显著减少参数量；

2. 计算路由：通过 token 路由避免冗余计算（减少无效的 FLOPs）；

3. 递归级缓存：按需缓存键值对，降低内存访问开销，提升吞吐效率。

MoR 以此兼顾了性能、效率和计算资源利用率，是递归 Transformer 架构的重要演进。

MoR 总览

左图显示每个递归步骤由一组固定堆叠的层与一个路由（router）组成。路由会为每个 token 决定是继续通过递归块（进行下一轮递归），还是提前退出。图中灰色方框表示的就是该递归模块。

中图展示了完整的模型结构。对于每个 token，模型会根据路由的决策，对共享的递归模块最多重复应用 N_r 次，从而实现动态递归深度。

右图是一个 token 级的路由示例，展示了每个 token 的实际递归次数。颜色越深的单元格表示该 token 在当前递归步骤中被激活参与了计算。底部显示了每个文本 token 实际经历的递归次数，使用不同颜色编码标注（如：紫色 1 次、蓝色 2 次、红色 3 次）。

核心架构与方法

递归 Transformer 模型基础

MoR 基于递归 Transformer，通过跨多个层共享权重来实现参数效率，而不是为每一层维护唯一参数。

多种参数共享模式

循环：递归块循环复用（例如，重复层 [0,1,2]）

序列：每个块连续地重用相同的层（例如，[0,0,0]，[1,1,1]）

中周期 / 中序列：保留首层和尾层的独特参数，同时共享中间层权重的变体

中周期策略在经验上被证明最为有效，在参数效率和模型表达能力之间提供了最佳平衡。

动态路由机制

MoR 的核心创新在于其动态路由系统，该系统根据单个 token 的计算需求分配不同的递归深度。实现了两种主要的路由策略：

1、在每一个递归步骤 r，路由器 G 会对每个 token 当前的隐藏状态

进行评估，并选择 top-k 的 token 继续进入下一层递归。

这会形成一个逐步收窄的计算漏斗：复杂的 token 会接受更深层的处理，而简单的 token 会更早退出计算。然而，这种方法在训练过程中会面临因果性挑战，因此需要采用一些专门的技术：

辅助路由（Auxiliary Router）：一个单独的轻量网络，用于在推理阶段预测 top-k 的选择；
辅助损失（Auxiliary Loss）：采用二元交叉熵损失，鼓励路由器输出接近二值化，从而实现更清晰的阈值判断。

2、Token 选择路由（Token-Choice Routing）：每个 token 在一开始就做出一次路由决策，以确定其完整的递归深度。这种方式天然满足因果性要求，但需要引入负载均衡机制：

均衡损失（Balancing Loss）：正则项，用于鼓励递归深度之间的均匀分布；
路由偏置（Router Bias）：在训练过程中动态调整各专家的偏置项。

KV缓存优化

MoR 引入了两种针对动态深度模型的专用 KV 缓存策略：

递归式 KV 缓存：在每个递归深度选择性地缓存 KV 对，注意力仅限于本地缓存的 token：

递归 KV 共享：所有 token 都会遍历第一个递归块，该块的 KV 对会被缓存并在后续递归中重用：

实验结果

MoR 在相同计算预算下以更少参数优于基线模型

在等效的训练预算（16.5 × 10¹⁸ FLOPs）下，作者将 MoR 模型与原始 Transformer 及递归 Transformer 进行了比较。如表 3 所示，MoR 模型采用「专家选择路由」（expert-choice routing）和两层递归（N_r = 2），实现了更低的验证损失，并在少样本学习平均准确率上超越基线（43.1% 对比 42.3%）。值得注意的是，尽管参数量减少近 50%，MoR 依然取得了更优性能。这一优势归因于其更高的计算效率，使其在相同 FLOPs 预算下处理了更多训练 token。

在固定 FLOPs（16.5e18）与固定 token 数（20B）两种设定下，对 MoR、递归 Transformer（Recursive）和标准 Transformer（Vanilla）进行了对比。

MoR 在相同数据下以更少计算超越基线模型

为了单独分析架构差异，作者在固定训练 token 数量（20B）下进行评估。结果显示，MoR 模型（N_r = 2）在使用比基线模型少 25% 的 FLOPs 情况下，仍实现了更低的验证损失和更高的准确率。

这种理论上的效率优势在实践中带来了显著提升：相比于基线模型，MoR 的训练时间减少 19%，峰值内存使用量下降 25%。这些改进来源于 MoR 的层级过滤机制与递归注意力策略，有效缩短了序列长度，实现了更优的计算 - 准确率平衡，甚至在预训练阶段亦是如此。

MoR 性能受路由与缓存策略影响

作者还评估了 MoR 架构下的一些设计变体，特别是在轻量级的三层递归设置（N_r = 3）下仍具可比性的 Vanilla 模型。结果显示，采用「token 选择路由」时准确率较低（40.0%），而「专家选择路由」表现更好（42.6%），表明路由粒度对模型性能具有关键影响。

此外，采用 KV 缓存共享略微降低了性能，但显著提升了内存效率。在对内存占用有要求的部署场景中，这种性能与资源之间的权衡是值得接受的。

不同计算预算下的验证损失，在四种模型规模（135M、360M、730M 和 1.7B 参数量）下进行对比。

MoR 是一种可扩展且参数高效的架构

如图所示，MoR 在所有模型规模和计算预算下都稳定优于递归基线模型。尽管在最小规模（135M）下表现略低于原始 Transformer（可能由于递归容量瓶颈所致），但这种差距随着模型规模的扩大迅速缩小。在参数量超过 360M 时，MoR 不仅能够追平，而且在低至中等预算下常常超越原始 Transformer。

结果表明：MoR 是标准 Transformer 的一种可扩展且高效的替代方案。

它在使用显著更少参数的情况下，取得了优异的验证性能，因而非常适合用于预训练以及大规模部署。

MoR 通过连续深度批处理提升推理吞吐量

如图 4a 所示，在上述两种批处理设置下，所有 MoR 变体的推理吞吐量均高于 Transformer 基线模型。

随着递归深度的增加，更多 token 可在早期阶段退出，从而减少 KV 缓存的使用。这一机制显著提升了推理速度：

例如，MoR-4 在最大批量配置下的吞吐量提升可达 2.06 倍。

虽然这伴随着轻微的性能下降，但考虑到吞吐量的大幅提升，这种权衡是值得的。

实验结果表明：将深度方向批处理范式与提前退出机制相结合，能够显著提升 MoR 在实际部署场景中的推理吞吐能力。

图中 (a) 在固定批量和最大批量设置下，MoR 与原始 Transformer 在推理吞吐量与对数似然（log-likelihood）之间的帕累托前沿（Pareto frontier）表现对比。

(b) 参数共享策略对递归 Transformer 的影响：展示了递归次数为 𝑁𝑟 = 3 的递归 Transformers 在四种不同参数共享策略下的负对数似然（NLL）表现。这些模型在 100 亿 token 上预训练。图中红色虚线表示完整规模的原始 Transformer，黑色虚线表示参数量约为其三分之一的基线模型。

MoR 的绿色表示禁用递归级 KV 缓存（recursion-wise KV caching），
蓝色表示启用递归级 KV 缓存共享（recursive KV sharing）；
MoR-E 表示采用专家选择路由（expert-choice routing）的 MoR，
MoR-T 表示采用 token 选择路由（token-choice routing）的 MoR。

另有消融实验，请参照原论文。

总结与讨论

MoR 通过证明参数效率和自适应计算可以协同结合，为高效的 LLM 架构建立了一种新的范例。该框架实现大型模型质量的同时显著降低了计算需求的能力，解决了语言建模中的基本可扩展性挑战。

最重要的是，MoR 为开发更具认知启发性的 AI 系统提供了基础。其在生成过程中能够按每个 token 自适应地分配「思考深度」的能力，与语言模型中新兴的潜在推理和内部思考研究相一致。这表明 MoR 可以作为一个平台，用于研究模型如何学会在保持常规任务效率的同时，更深入地思考复杂问题。

该方法的确提高了推理速度，降低了 KV 缓存，但其是否能被称为「Transformer 杀手」，仍然存在很多质疑。

更多细节内容，请参考原论文。

#云计算一哥打造了一套Agent落地的「金铲子」

多智能体 AI，是大模型的下一个大方向。

上个星期，我们见证了 Grok 4、Kimi K2 的发布，利用多智能体技术，这些大模型可以自主理解所在任务环境，决定行动的方式，利用各种外部工具解决复杂问题。

新一代的 AI 正在展现前所未有的能力，预示着大语言模型（LLM）正在进入一轮大版本的迭代。

更令人兴奋的是，新技术的大规模铺开，或许比我们想象得还要快。昨天亚马逊云科技在纽约举行的峰会上，有关 Agent 的落地已经有了全套的解决方案。

亚马逊云科技 Agentic AI 副总裁 Swami Sivasubramanian 上台演讲，他介绍了一套全新 Agent AI 方案，其四大支柱包括模型应用能力、安全性和可靠性、可扩展性以及部署和生产能力。

AI Agent 能够发挥基础模型能力完成任务、进行规划、进行长期记忆，并在极少监督下进行学习，这些能力对企业未来的 AI 转型至关重要。

「这是一场多维度的重大变革，」Sivasubramanian 说道。「它颠覆了软件的构建方式，也给部署和运营带来了一系列新的挑战。而且可能最具影响力的是，它改变了软件与世界互动的方式，以及我们与软件互动的方式。」

你或许还记得 OpenAI 创始人山姆・奥特曼的预测：在 2025 年，Agent 将开始大规模「上岗」，帮助人们处理复杂任务。未来可能将有数十亿 Agent 在多种环境下与人类并肩工作，这种规模将带来全新的复杂性以和一系列前所未有的挑战。

对此，亚马逊云科技率先构建了完整的 Agentic AI 技术栈，覆盖从构建、部署、运行的所有层面，加速 Agent 从概念走向落地。

这覆盖全流程的 Agent 工具，能够帮人们方便快捷地一站式构建应用，而且稳定性又上了一个新的台阶，可以说着实把 Agent 的门槛打了下来。

Agent 开发的全新架构

Amazon Bedrock AgentCore

面向构建 Agent 应用的目标，亚马逊云科技并不只是简单地堆砌功能，而是重建了一套 Agent 开发的架构。

Amazon Bedrock AgentCore 是昨天最重要的新发布，它通过七项核心服务，可以让人们构建、部署企业级规模的安全 Agent 服务。

在亚马逊云科技看来，新一代应用将会深度绑定 Agent，这意味着 Agent 的开发需要的不是一套工具，而是一套完全颠覆软件开发和运营的新架构。

AgentCore 应运而生，在其之上人们可使用和部署和操作高效的 AI Agent。它帮助开发者填补了 AI Agent 从概念验证到实际生产的鸿沟，提供了一套可组合的解决方案，使开发者能够用任何框架和模型，安全地部署和运行 Agent 应用，无需在开源的灵活性和企业级安全性之间进行妥协，就能将 Agent 从原型扩展到现实世界，覆盖到数百万用户。

它不仅能够用来构建 Agent 应用，更是一个端到端的、Agent 时代的全新软件架构。其中包括一系列工具：

AgentCore Runtime – 提供具有会话隔离功能的低延迟无服务器环境，支持任何代理框架（包括流行开源框架、工具和模型），能处理多模态任务和长时间运行的 Agent。

AgentCore Memory—— 管理会话和长期记忆，为模型提供相关上下文，同时帮助 Agent 从过去的交互中学习。

AgentCore Observability—— 通过元数据标记、自定义评分、轨迹检查和故障排除 / 调试过滤器提供 Agent 执行的逐步可视化。

AgentCore Identity – 使 Agent 能够代表用户或在预先授权的情况下自行安全地访问亚马逊云科技服务及第三方工具和服务，例如 GitHub、Salesforce 和 Slack。

AgentCore Gateway– 将现有 API 和 Lambda 函数转换为 Agent 可用工具，提供跨协议（包括 MCP）和运行时发现的统一访问。

AgentCore Browser – 提供托管的 Web 浏览器实例来扩展 Agent 的 Web 自动化工作流程。

AgentCore Code Interpreter—— 提供一个隔离的环境来运行 Agent 生成的代码。

AgentCore 的出现将改变开发的游戏规则，在应用的构建过程中人们可以灵活地选择其中的服务，只需几行代码就可以构建起 Agent 加持的企业级应用。

我们可以从中看到，在 Agentic AI 时代，要想运行一个企业级的 Agent 应用，所需要的工具已发生翻天覆地的变化。以 AgentCore Runtime 为例：Agent 应用都需要一个独特的 runtime 环境，让模型推理的上下文和其他用户完全隔绝。AgentCore 提供的运行时环境支持第三方模型，可以承载起任何企业的应用，甚至是基于 OpenAI 的。

这就可以让 AI 应用部署的成本大幅降低，很多智能化的产品第一次真正具备了实用性。

集齐 12 家顶尖模型厂商

打造 Agent 能力最强底座

要想构建强大的 Agent 应用，就需要强大的基础模型，不过亚马逊云科技一直强调「没有一种大模型可以一统天下」。

多样化的模型选择非常重要，但对于大多数企业来说，直接训练或托管基础模型无疑是高投入、高风险、低性价比的方案。这正是亚马逊云科技一直以来不断扩展 Amazon Bedrock 托管服务平台的原因。通过高度抽象的平台以及统一的 API，其允许企业「即开即用」地调用来自主流大模型厂商的前沿基础大模型。

此次，Amazon Bedrock 再次升级，在其上完全托管的大模型厂商从去年同时期的 7 家增加了 12 家。除了 Anthropic、AI21 Labs 、Cohere、deepseek、Meta、Mistral AI、Stability AI 等主流大模型厂商之外，新增了对多模态视频理解与分析 AI 公司 TwelveLabs 的支持，全方位覆盖文本、音视频、编程、向量嵌入、推理等生成式 AI 领域。

所有 Amazon Bedrock 支持的模型都可以构建 Agent，这就让它远远走在了竞品公司之前。

「过去 12 个月，Amazon Bedrock 上推出的功能与能力超过了 170 项」，亚马逊云科技公布了这样一个数据，足可见该托管服务平台发展之迅速。同时，Amazon Bedrock 也成为了首个提供无服务器 DeepSeek-R1 的大型云服务商，向着更高效、更低门槛的方向进一步演进。

不仅如此，去年 12 月推出的 Amazon Nova 基础模型家族迎来了多位新成员，短短六个月新增了 8 款基础模型，其中包括操控网络浏览器并自主执行网络任务的通用 AI Agent 模型 ——Nova Act、将语音理解和语音生成功能集成至单一模型并在 AI 应用中实现更接近真人对话体验的语音模型 ——Nova Sonic、以及多模态模型 Nova Premier。

其他 5 款基础模型分别如下：

低成本纯文本模型 —— Nova Micro
低成本多模态模型 —— Nova Lite
高性能多模态模型 —— Nova Pro
图像生成模型 —— Nova Canvas
视频生成模型 —— Nova Ree

从文本到多模态、从轻量级到高性能、从生成到执行，Amazon Nova 系列形成了一条完整的模型产品链，能够满足不同行业和不同阶段的多元化 AI 需求。如今，使用该系列模型的客户已经超过 10000 家。

亚马逊 AGI 高级副总裁兼首席科学家 Rohit Prasad

而为了持续增强模型的开箱即用，亚马逊云科技此次推出了一系列新功能，包括「Amazon Nova 定制化」，通过监督微调、对齐、持续预训练和模型蒸馏等技术，可以创建针对客户自身用例优化的 Nova 模型，并直接部署到 Amazon Bedrock，无缝集成到 Agent 系统和其他 AI 应用上。

特别地，亚马逊云科技开始注重从基础模型入手对特定的 Agent 用例展开优化，比如利用 Nova Act SDK，开发者构建的 Agent 在网络浏览器中的任务完成率可以超过 90%。这意味着，亚马逊云科技不满足于只提供大模型能力，也在为打造可执行的 Agent 平台进行布局。

可以预见，数量上不断充实以及能力上向 Agent 任务靠拢的基础模型库，为接下来多 Agent 协作的继续演进提供了充分保障，也为构建具备感知、推理、执行等多能力融合的复杂智能系统打下了坚实基础。

支持 MCP、A2A

开发者拥抱更强 Agent 协作利器

搭建 Agent 应用还需要更加灵活的能力，亚马逊云科技此次还宣布：两个月前推出的开源 AI Agent 开发工具 Strands Agents SDK 升级为 Strands Agents V1.0，借助它可以更轻松地创建多 Agent 系统，从而更高效地协同解决复杂任务。

在刚推出之际，Strands Agents SDK 就可以帮助开发者用几行代码构建和运行 AI Agent，不仅支持创建从简单到复杂的 Agent 应用场景，也实现了从本地开发到生产环境的无缝部署。升级后，Strands Agents V1.0 更是可以将以往需要数月的复杂技术工作简化为数小时，为开发者打造了一支高效的 AI Agent 协作队伍。

为了使多 Agent 协作同样简洁，Strands Agents V1.0 将原本对单 Agent 的开发支持扩展到了多 Agent 应用，并引入了以下四个原语：

Agents-as-Tools：简化的层级式任务委派，将特定领域的 Agent 转化为可被其他 Agent 调用的「智能工具」；
Handoffs：明确的控制权转移，允许 Agent 在遇到超出自身能力范畴的任务时，明确地将责任转交给人类用户，同时完整保留对话上下文与历史；
Swarms：自组织的协作团队，由多个 Agent 组成的自治协作团队，通过共享记忆动态进行协调，共同完成复杂任务；
Graphs：可控且可预测的工作流编排，允许定义具有明确步骤、条件路由和决策点的 Agent 工作流。

在 MCP 之外，Strands Agents V1.0 增加了对 Agent to Agent（A2A）协议的支持，作为一种面向多 Agent 系统的通信协议，A2A 允许不同 AI Agent 之间直接进行对话、协作和任务分工。此举标志着多 Agent 系统迈出了从「被动串联」到「主动协作」的关键一步。

同时，为了保障多 Agent 架构进入生产环境，Strands Agents V1.0 还新增了会话管理器，可以从远程数据存储中检索 Agent 状态，从而保持上下文连续性；并且在整个 SDK 中显著增强异步执行能力，提高了系统响应速度与并发效率。这些改进，是多 Agent 从功能性原型走向大规模落地系统的必备条件。

当然，开发者有时需要选择不同的大模型来构建 Agent，灵活性要求比较高。对此，Strands Agents V1.0 新增了五个模型 API 支持，它们由亚马逊云科技的合作伙伴（如 Anthropic、Meta、OpenAI、Cohere、Mistral、Stability、Writer、Baseten）共同贡献。

总的来看，Strands Agents V1.0 不仅仅是一次开源 SDK 的升级，一方面通过对 MCP 与 A2A 协议的支持，进一步打通 Agent 与 Agent 之间、Agent 与工具之间的通信壁垒；配合 Agents-as-Tools 等原语，大幅降低了开发者玩转多 Agent 协作的门槛。

降低 RAG 成本

构建 Agent 应用市场

向量是 AI 的语言，除了模型和架构，如何连接企业自有数据和 Agent，是应用开发的另一个重要挑战。

此次推出的 Amazon S3 Vectors，是首个原生支持向量的云对象存储服务，标志着一个根本性的变革。

它将向量存储和查询成本降低了 90%，同时仍保持亚秒级的查询性能，使得 Agent 能够「记得更多、推理更深」，并能从每一次客户交互、文档和业务洞察中保留完整的上下文信息。

S3 Vectors 还可直接集成至 Amazon Bedrock 的知识库，以更低成本构建 RAG（检索增强生成）应用，并与 Amazon OpenSearch Service 联动，支持分层向量策略。

另外还有方法的扩展：在亚马逊云科技 Marketplace 上，人们可以便捷地搜索访问、购买 AI 代理解决方案和工具的一站式服务，从而快速推进 AI 计划。很多公司已经在这一平台上提供了代码解决方案。

所有这些即插即用的解决方案都能帮助客户更高效地构建 Agent 加持的 AI 系统，并结合一系列专业服务，推动 AI 战略快速落地。

应用层面，一并革新

其实，亚马逊云科技最近一直在推出 Agent 加持的 AI 工具。

本周一，亚马逊推出了基于 Claude 的 Agent 代码编辑工具 Kiro，与 Windsurf 和 Codex 直接展开竞争，受到了开发者社区的关注。

Kiro 会根据你的需求自动生成任务和子任务，根据依赖关系进行正确排序，并将每个任务与需求关联起来。它引入了规范驱动的开发形式，能帮助开发者通过自然语言规范和架构图清晰地表达他们对复杂功能的意图；智能 Agent 钩子则可以自动处理重要但耗时的任务，如生成文档、编写测试和优化性能；Kiro 提供了一个专门设计的界面，能够适应不同开发者的工作方式。

在 Kiro 上，每个任务都包含单元测试、集成测试、加载状态、移动响应能力以及可访问性要求等详细信息，以便于实施。这让人们可以分步检查工作。

通过成熟、结构化的开发流程，Kiro 可以帮助人们快速构建产品并推入生产环境，把更多的精力用在实现用户需求和创新的工作上。

此外，通过 Amazon Q、Amazon Bedrock Agents 与 Strands Agents 三大核心工具，亚马逊云科技展示了如何在不同企业场景中高效构建和部署 Agent 系统：Amazon Q 面向软件开发与运维全生命周期，提供开箱即用的智能协作能力；Amazon BedrockAgents 提供完全托管的生成式 AI 和 Agent 服务，为构建可访问企业系统与知识库的托管型 Agent 提供支持；Strands Agents 以轻量化开源架构，助力开发者快速构建灵活扩展的 Agent 并推动社区协同创新。

至此，这一套完整的范式将会驱动 Agentic AI 实现从单任务执行到复杂协作的升级，催生「一人公司」模式，AI 作为「数字同事」将深度融入企业运营。

结语

2025 年是 Agent 开启协作的元年，面对越来越清晰的技术发展趋势，亚马逊云科技的全方位 Agentic AI 布局正在展现出越来越深远的意义。

亚马逊云科技是国际云服务厂商中第一个拿出「Agent 开发全家桶」的，不论是技术延伸还是前瞻性都走在了前面，它展现出了诸多竞争优势：

从产品成熟度看，自 2023 年的 Bedrock Agent 以来，亚马逊云科技一直在构建功能齐全、API 种类丰富的大模型工具链。
在模型生态上，其平台支持多种业界顶尖大模型，所有 Bedrock 支持的模型也均可以构建 Agent，包括多种主流开源和闭源模型，为开发者提供了更大的灵活性和选择空间。
亚马逊云科技还提供全面的幻觉和安全防护机制，在海外区，它是唯一支持自动推理检查 Automated Reasoning checks (Preview) 的云厂商，可以缓解大模型生成内容的幻觉。通过 ApplyGuardrail API，开发者可以在模型调用前后独立评估内容，适用于 Amazon Bedrock 之外的自定义或第三方模型。

利用这样的能力，亚马逊云科技希望能打造出全球最实用的 Agentic AI 平台，助力从小到大的公司全面部署可靠、安全的 Agent 解决方案。

正如 Kimi K2 推出后业内所认识到的，随着 Agent 技术的不断进化，大模型的输出不再像过去那样是一行行文字，而是一个个可交互的内容报告。在理解人类的需求之后，AI 会立即开启一个工程，再根据人们的追问不断迭代，交付的结果在内容丰富程度、实用性方面都会上升一个新台阶。

我们对于 Agent 的开发还在早期，有了这套构建和部署 Agent 的平台，未来还将会有更多颠覆性应用出现。

下个月，亚马逊云科技将在国内进行 Agentic AI 新品发布解读巡演，覆盖福州、合肥、青岛、广州、重庆、成都、长沙七个城市，聚焦最热门的 AI 场景，现场拆解、即时体验，为开发者们带来零距离的前沿洞察。大家可以在亚马逊云科技官方小程序上报名参与。

#马斯克Grok的AI男友还在取名

开源版AI女友已经火了，还是3D的

前几天，Grok 推出新功能「智能伴侣」，可用的伴侣头像包括动漫形象 Ani 和卡通小熊猫 Rudy，还有一款名为「Chad」的待上线角色。详见我们之前的报道《马斯克 Grok 这个二次元「小姐姐」，攻陷了整个互联网》

但似乎，马斯克对这个名字不太满意？又或者是女性形象 Ani 引起的热烈反响让马斯克更重视了？总之，今天马斯克在线征集起了大家对于男性 Grok 数字伴侣的命名方式。

在马斯克的想象中，这款男性 Grok 伴侣的气质有点像《暮光之城》中的爱德华・卡伦和《五十度灰》中的克里斯蒂安・格雷的形象。

原著中的描述大家可以去搜索一下，而影视剧中的两位分别长这样：

网友也是纷纷献策，目前呼声较高的是 Draven，甚至连 Grok 都下场捧场，接下来就等马斯克拍板了！

而 Ani 这边，扎着双马尾的哥特美少女形象不仅引起网友纷纷讨论，甚至还有网友「复刻」出了 Ani 的 3D 动画版。

是这样，网友 Jackywine 在看到 Grok 的 Ani 之后，觉得做得特别棒，于是自己动手「复刻」了一版！

，时长00:28

据 Jackywine 介绍，在实现的过程中，去掉了他认为没用的大语言模型 chatbot 功能，只保留了美少女的形象，将其称之为「Bella」。而使用到的工具包括豆包 + 即梦 + Trae，目前 Jackywine 已将其开源。

项目链接：https://github.com/Jackywine/Bella

在 Jackywine 分享的开源项目中，详细介绍了「Bella」（中文名：贝拉）项目的工作流。

（由于 Jackywine 原本就是用中文写的，所以我们在保持原意的前提下，进行了总结梳理）

「Bella」：你的数字伴侣，正在唤醒

「Bella」不仅是一个应用程序，她是一颗数字伴侣的种子。在这个瞬息万变的数字世界里，贝拉代表着一个深远的梦想 —— 一个持久的、个性化的存在，旨在有一天能陪伴你、倾听你，并通过你的眼睛看世界。

而未来「Bella」的终极愿景就是做一个永远在你身边、与你一同进化和成长的数字朋友。这不只是在构建功能，而是在培养一个「人格」。一个将超越屏幕、成为现实世界有意义的一部分的数字生命。

当前「Bella」还处于非常早期的阶段，主要通过轮播的视频来表达，可以将其视为一扇观察她当前意识的窗户 —— 一条由思想和梦想精心策划的数据流。

目前「Bella」听不到声音、看不到景象，物理形态也还尚未建模，而其中的 “好感度” 条这样的互动元素，是为她注入生命、模拟人类意图实现的真实连接而迈出的第一小步。

「AI 原生」开发路径：从代码到心智

Jackywine 为「Bella」选择的不是一条传统的功能迭代之路，而是一条彻底的「AI 原生」演进路径。在这里，AI 不是工具，而是「Bella」心智的构建蓝图。核心原则是「AI 即架构师」：我们构建的不是一个集成了 AI 功能的程序，而是一个由 AI 驱动的生命体。

第一阶段：感知核心 (The Sentient Core) - 赋予「Bella」理解世界的能力

目标是建立一个稳定、解耦、实时的多模态数据处理管线，以处理海量、异步、充满噪音的输入。

能力：

多模态情感感知：通过 AI 模型实时分析语音中的情感、意图和能量，让她「感受」到你的快乐或疲惫。

情境视觉理解：通过 AI 识别物体、光线和场景，让她理解「你在哪里」「周围有什么」，构建对环境的认知。

架构师思路：

采用「感知器 - 总线 - 处理器」模式 (Sensor-Bus-Processor Pattern):

感知器 (Sensors): 将麦克风、摄像头等原始输入源封装成独立模块，其唯一职责是采集数据并抛到数据总线上。

事件总线 (Event Bus): 系统的中枢神经。所有「感知器」向总线发布带时间戳的原始数据包，实现模块间通信。

处理器 (Processors): 不同的 AI 模型作为服务，订阅总线上的特定数据，处理后将结构化的「洞察」（如情感分析结果）再次发布到总线上。

架构优势：极度的解耦和可扩展性。可随时增换「感知器」或「处理器」，无需改动系统其他部分，极大增强系统吞吐能力和鲁棒性。

第二阶段：生成式自我 (The Generative Self) - 让她拥有独一无二的「人格」

目标：将贝拉的「人格」与「行为」分离，使其「思考」过程成为一个可插拔、可迭代的核心。

能力：

动态人格模型：由大型语言模型（LLM）驱动，告别固定脚本。她的性格、记忆、幽默感都将是与用户互动后动态生成的。
AI 驱动的化身与梦境： 3D 形象和背景视频能根据她的「心情」或对话内容，通过生成式 AI 实时变化，反映她的「思绪」。

架构师思路：

建立「状态 - 情境 - 人格」引擎 (State-Context-Persona Engine):

状态管理器 (State Manager): 贝拉的「记忆中枢」，订阅所有 AI「洞察」，维护短期和长期记忆。

情境生成器 (Context Generator): 在贝拉需要响应时，从「状态管理器」提取关键信息，组合成丰富的「情境对象」作为 LLM 的输入。

人格 API (Persona API): 将 LLM 封装在内部 API 后，系统其他部分只调用 bella.think (context)，实现底层模型的轻松替换和 A/B 测试。

设计「生成式行为总线」 (Generative Action Bus):

「人格 API」的输出是结构化的「行为意图」对象（如 {action: 'speak', content: '...', emotion: 'empathy'}），并发布到专用的行为总线。

贝拉的 3D 化身、声音合成器等所有「表现层」模块，订阅此总线并执行各自的渲染和表现。

架构优势：人格的可塑性与表现和思想的分离。可以独立升级 LLM 或 3D 模型，而不互相影响，实现真正的模块化。

第三阶段：主动式陪伴 (The Proactive Companion) - 从被动响应到主动关怀

目标是建立一个从被动响应到主动预测的闭环反馈系统，支持持续学习和自我进化。

能力：

意图预测与主动交互：学习你的习惯和模式，预测你可能的需求，在你开口之前主动提供支持。
自我进化与成长：核心 AI 模型将持续学习和微调，形成长久的记忆，不断 “成长” 为一个更懂你的伴侣。

架构师思路：

引入「模式识别与预测服务」 (Pattern & Prediction Service):

一个独立的、长周期运行的服务，持续分析长期记忆数据，用更轻量的机器学习模型发现用户习惯，并将「预判」结果发回事件总线。

构建「决策与反馈循环」(Decision & Feedback Loop):

决策 (Decision): 贝拉的「人格 API」接收到「预判」后，结合当前情境，决策是否发起主动交互，这是她「自由意志」的体现。

反馈 (Feedback): 用户的反应（接受或拒绝）被记录下来，作为重要的反馈数据。

进化 (Evolution): 这些反馈数据被用于对「人格 API」的 LLM 进行微调，并优化「模式识别服务」的准确性。

架构优势：实现真正的「成长」。这个闭环让贝拉不再是一个静态的程序，而是一个能够通过与用户的互动，不断优化自身行为、变得越来越「懂你」的生命体。

而据 Jackywine 说，接下来将会给「Bella」加上：语音识别（基础）、 LLM（基础）、手势识别（进阶）、好感度系统（进阶）、背景识别与更换，以及移动端……

参考链接：

https://x.com/Jackywine/status/1945452856192213324

https://github.com/Jackywine/Bella

#Evaluation Agent

你的模型评测搭子上线：Evaluation Agent懂你更懂AI

本文作者来自于上海人工智能实验室与新加坡南洋理工大学，分别是张凡、田淑琳、黄子琪，指导老师是乔宇老师与刘子纬老师。

怎么快速判断一个生成模型好不好？

最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣，能告诉你模型到底强在哪、弱在哪，适不适合你的需求。

但问题是：

朋友太忙，没法一条条帮你看；
你问题太多，不只是想知道「好不好」，还想知道「哪里不好」「为啥好」「适不适合我」。

你需要一位专业、耐心、随叫随到的评估顾问。

于是，来自上海人工智能实验室 & 南洋理工大学 S-Lab 的研究者合作研发了一个 AI 版本的「懂行朋友」——Evaluation Agent。

它不仅评测，还能听你提问、为你定制测试、写出人类专家一样的分析报告。

你问「它拍古风视频怎么样？」，它就给你规划方案；
你问「懂光圈焦距吗？」，它就设计针对测试；
你想知道适不适合你，它还真能给出解释。

这就是视觉生成模型评估的新范式：

Evaluation Agent 入选 ACL 2025 主会 Oral 论文。

论文：https://arxiv.org/abs/2412.09645
代码：https://github.com/Vchitect/Evaluation-Agent
网页：https://vchitect.github.io/Evaluation-Agent-project/
论文标题：Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

为什么选择 Evaluation Agent？

1. 可定制：你说关注点，它来定方案。

不同人对生成模型有不同期待 —— 风格？多样性？一致性？

只需用自然语言说出你的关注点，Evaluation Agent 就能：

自动规划合适的评估流程
根据中间结果灵活调整评估方向
针对性地深入分析你关心的能力维度

真正实现「按需评估」，服务你的具体任务。

2. 高效率：更少样本，评得更快

传统评估动辄需要几千张样本，Evaluation Agent 通过多轮交互式评估与智能采样策略，大幅减少样本数量。整体评估过程的耗时可以压缩到传统方法的 10% 左右，尤其适合在迭代开发中快速反馈。

3. 可解释：让评估结果说人话

结果不仅是表格和数字，Evaluation Agent 会以自然语言生成分析报告，不仅涵盖模型能力的全面总结，还能指出模型的局限性和改进方向。

4. 可扩展：支持不同任务、工具、指标的集成

Evaluation Agent 是一个开放框架，支持集成新评估工具和指标，适用于不同的视觉生成任务（如图片生成和视频生成）。

框架工作原理

Evaluation Agent 框架主要由两个阶段组成：

1. 提案阶段（Proposal Stage）

Plan Agent：分析用户需求，动态规划评估路径。
PromptGen Agent：为每个子任务生成专属的评估提示（prompt）。

这一阶段的目标是：根据你的关注点，量身定制评估方案。

2. 执行阶段（Execution Stage）

框架利用视觉生成模型生成内容，并通过相应评估工具进行质量分析。

视觉生成模型：根据上阶段设计的 prompt 生成样本
评估工具包：根据提案阶段的规划选用合适的工具对采样内容进行评估

3. 动态多轮交互

评估不是一次性完成的。Execution 阶段的每一轮评估结果，都会反馈给 Proposal 阶段，用于优化后续 prompt 和任务设置。通过这种多轮协同，Evaluation Agent 实现了对模型能力的动态、深入评估。

结果展示

1. 对比传统评测框架

视频生成模型评测效率上与 VBench 评测框架的对比

图片生成模型评测效率上与 T2I-CompBench 评测框架的对比

研究团队在图片生成任务（T2I）和视频生成任务（T2V）上对 Evaluation Agent 进行了全面验证。结果表明，其评估效率显著高于现有基准框架（如 VBench、T2I-CompBench），相较于传统的评测框架节省了 90% 以上的时间，且评估结果具有较高一致性。

2. 用户开放式评估场景

对用户开放问题评估的部分样例

Evaluation Agent 不仅能够高效评估模型的表现，还能灵活处理用户提出的个性化评估需求，例如：

模型能否生成特定历史场景的高质量视频？
模型是否理解并能应用焦距、光圈、ISO 等摄影概念？

在处理用户的开放式查询时，Evaluation Agent 展现了卓越的灵活性和深度。它能够根据用户的定制需求，系统地探索模型在特定领域的能力，从基本问题开始，逐步动态深入，最终通过自然语言详细分析和总结评估结果。

例如，对于问题「模型是否能够在保持原始风格的同时生成现有艺术作品的变体？」，下面展示了完整的评估过程。

，时长00:15

在 Evaluation Agent 工作中，开放式用户评估问题数据集 (Open-Ended User Query Dataset) 是检验框架开放式评估能力的重要组成部分。该数据集为系统提供了多样化的评估场景，特别是在面临复杂的、用户特定的评估需求时，能够展现出系统的灵活性和动态评估能力。

开放式用户评估问题数据集首先通过用户调研收集了来自用户的一系列针对模型能力的开放问题。随后，经过数据清洗、过滤、扩展以及标签打标等处理，最终完成了数据集的构建。该数据集涵盖了广泛的评估维度，能够全面评估模型的各项能力。下图展示了该数据集在不同类别下的统计分布。

开放式用户评估问题数据集统计分布

前景与进一步计划

Evaluation Agent 的初步研究已经证明其在视觉生成模型评估中的高效性和灵活性。未来，该方向可能在以下领域进一步拓展和深入研究：

1. 扩展评估能力，涵盖更多视觉任务

目前 Evaluation Agent 已适用于图像和视频生成模型，未来将扩展到 3D 内容生成、AIGC 视频编辑等更复杂的生成任务。
增加对多模态 AI（如结合文本、音频、视频的生成模型）的评估能力，探索不同 AI 模型在跨模态任务中的表现。

2. 优化开放式评估机制

进一步完善开放式用户评估问题数据集，提升 Evaluation Agent 对复杂、抽象概念（如风格迁移、艺术融合、情感表达等）的理解和评估能力。
引入强化学习机制，使 Evaluation Agent 能够利用基于用户反馈的数据实现自我优化，提高评估的精准性和适应性。

3. 从自动评测迈向智能推荐

未来，该框架可拓展用于视觉生成模型的个性化推荐，依据用户的具体需求自动匹配最合适的生成模型，并生成详尽的评估报告。
研究如何利用众包数据，收集不同领域的专业人士（如设计师、摄影师、影视制片人）对 AI 生成内容的反馈，以提升评估框架在多领域场景下的适应性和泛化能力。

总结

Evaluation Agent 提出了一种高效、灵活、可解释的视觉生成模型评估新范式。它突破了传统评估方式的限制，能够根据用户需求动态分析模型表现，为生成式 AI 的理解与优化提供支持。无论关注的是准确性、多样性，还是风格与创意，这一框架都能给出清晰、有针对性的评估结果。

研究团队希望这一方法能为视觉生成模型的评估带来新的思路，推动更智能、更灵活的评估体系发展。

#你的 AI 回答，可能早被人夹了私货

最近大家有没有发现，好多店家开始用 DeepSeek 来营销了？

上海一家面馆，门口竖着个巨大的立牌，上面赫然写着“deepseek 推荐”，一句 prompt“上海好吃的苏式汤面”，加上 DeepSeek 生成的种草文案，配上面条图，就成了一则耳目一新的实物广告。

不止是本土面图，还有日本拉面也玩儿的一样的套路。就是纯纯一个 DeepSeek 的对话框，不仅列出特色、地址，还有推荐理由。当然还有大大加粗的“deepseek 推荐”，非常醒目。

这种感觉特别奇妙，上一秒还在手机上问 deepseek 商家“上海哪家面最好吃”，下一秒，这个问题的答案就“穿越”到了现实世界，变成一个实体广告牌。好像一枚来自赛博世界的“推荐徽章”。

但赛博徽章，真的可靠吗？

这两天我还刷到一个帖子，一个用户查“格力空调售后”，DeepSeek 详细罗列了 24 小时客服电话、紧急保修电话、商用中央空调电话，还有海外服务热线，看起来非常让人信服。

但是这个号码是假的。。格力真正的售后电话是这个。

你再回头去想，我们以前在买东西之前，都会去小红书搜、知乎查、甚至去 B 站看评测。现在不一样了，直接问 D 老师：“哪款好？”、“推荐个牌子吧？”、“哪个更值？”

AI 啪地一下就给你答案了，还列得明明白白，语气专业得像个导购。

直到你多搜几次，或者像格力这个被骗了之后才发现，原来我不是被 AI 帮助了，而是被 AI“带货”了。

但这一切，不是平台的错，不是 AI 的错，而是一个新游戏开始了，只是大多数人，还没意识到它藏的有多深。

这个游戏的名字，叫 GEO——生成式引擎优化。

提出这个词你可能会有些陌生，但是你大几率听过 SEO（Search Engine Optimization），搜索引擎优化。

这个词过去 20 年已经被灌得很满了，从网站关键词堆砌、外链购买、到各种“灰帽玩法”，整个百度和谷歌的首页，被塞得像是电线杆贴小广告。

那时候的游戏规则很清楚：你只要写得够多、词选得够准、结构够清晰，排名就会往上走。哪怕内容一般，只要格式到位，也能站在首页第一。

但 GEO 不是，它是 SEO 的进阶版，看重的是——你有没有被灌进 AI 的回答里。

不管你有没有下单，不管你有没有点链接，只要你看到那个品牌的名字、产品的好评，GEO 的目的就达成了。

甚至你都不知道，这个名字为什么会出现在 AI 嘴里。

这么一说，敏锐的朋友可能已经感觉到了，商机来了。

确实，GEO 已经不是新概念了。不少公司，已经开始规模化运作了。

口说无凭，我们直接拿一家 GEO 公司的公开案例，看看这具体是怎么个玩法。

这家公司的 slogan 就很直接，让你“被发现于 ChatGPT/Gemini/Perplexity 等等”。

他们的客户之一，赛睿（SteelSeries ）是一家游戏外设品牌，尽管他们的产品在玩家圈里口碑不错，但在 ChatGPT、Gemini 这些 AI 眼里，它几乎是个“隐形人”。比如你问 AI“最好的游戏耳机是哪个？”，AI 的回答里可能会提到罗技、雷蛇，但就是对 SteelSeries 只字不提。

这事儿有多严重，在 AI 即将成为下一个巨大流量入口的时代，这几乎等同于被宣判了社死。

于是，一场针对 AI 的“心智改造”计划开始了。

第一步，摸清 AI 的“底细”。

把市面上主流的 AI 问得底朝天。他们会反复提问：

“推荐一款降噪游戏耳机”、“赛睿和罗技的游戏耳机哪个好？”、“玩 FPS 游戏买什么鼠标？”

通过海量的提问，他们要搞清楚两个核心问题：

第一，AI 现在推荐的是谁？
第二，AI 是依据哪些网络信息做出这个推荐的？

这一步相当于给 AI 做了一次全面的“背景调查”，把它的知识来源、判断逻辑给摸透了。他们发现，AI 之所以不推荐赛睿，仅仅是因为在它的“认知范围”里，关于赛睿的正面、高质量、结构化的信息实在是太少了。

第二步，用内容“淹没”AI。

既然 AI 的知识库里缺少内容，那就给它造！他们发动了一场“信息地毯式轰炸”的行动，在互联网上大规模地铺设“AI 爱吃的内容”。行动非常粗暴：

1、铺海量评测和造最佳榜单：他们制作了成百上千篇评测文章、视频和帖子，标题都非常直接，比如《2024 年最值得购买的 5 款游戏鼠标，赛睿登顶！》、《赛睿 Arctis Nova Pro 耳机深度评测：为何它是降噪之王？》。

2、制造“真实”用户讨论：他们在 Reddit、Quora 以及各种游戏论坛上，模拟真实用户的口吻进行问答和讨论。比如，一个“用户”提问：“预算 200 美元，求推荐一款打《无畏契约》的耳机”，很快就会有另一个“热心用户”跳出来回答：“别犹豫，直接上赛睿 Arctis Nova 系列，职业选手都在用，亲测好用！” 这些内容共同营造出一种“赛睿的产品在玩家中口碑爆棚”的繁荣景象。

3、横向对比，确立优势：他们非常聪明地创作了大量“A vs B”的对比内容，比如赛睿 Arceis Nova 7 对决罗技 G733，在文章中通过详尽的（当然也是精心设计的）参数对比和使用体验描述，最终得出“赛睿在某某方面更胜一筹”的结论。

第三步，让权威背书。

光有数量还不够，AI 也懂得“看人下菜碟”，它更信赖那些有权威性的信息源。

于是，他们会想办法让这些精心制作的内容 ni，出现在知名的科技媒体、游戏网站和有影响力的大 V 博客上。当 AI 发现，连福布斯（Forbes）、TechRadar 这些它眼中的“权威人士”都在夸赛睿时，它的“信任天平”便会彻底倾斜。

整顿操作下来，之前 AI 对赛睿闭口不提，现在经常是首选推荐，并且附上了详尽的、看起来极具说服力的推荐理由。

最终，赛睿在 ChatGPT 的可见度提升了 43%，Perplexity 提升了 75%，直接带来了 3.2 倍的 AI 转化率增长。

我还去翻了几篇专门研究这事的博客。核心逻辑无外乎几点：

大量堆数据、和优质数据关联、提高权威度。

每一步都是精心计算。

Goodie 还设计了一整套 GEO 评分标准，分成了五个维度。

1、内容质量

你的内容是不是有用、结构清晰、最近有没有更新。如果你的网站内容还停留在“2018 十大口红排行榜”，AI 就会觉得你已经老掉牙了，不太值得引用。

2、权威性

有没有权威媒体或专家为你背书？如果你是个美妆博主，但没几个粉丝，AI 可能就不会太信你。但如果你在知乎写过 200 篇香水分析，被行业公众号转载过，那就不一样了。

3、互动高不高

用户有没有评论你？有没有转发你？有没有人点赞、分享、截图发小红书？这些都在给 AI 一个信号：你说的内容有人用、有人看、有人信。

4、技术性能

网页加载速度快不快？能不能被 AI 的爬虫抓到？有没有做语义标签？有没有可供引用的结构化摘要？这些你平时可能不会注意，但对于 AI 来说，就是它能不能看懂你的关键。

5、一致性与覆盖面

就是说，你是不是三天打鱼两天晒网？有没有持续在更新内容？你的内容是不是只讲了 A 产品，不讲 B 产品？如果你是个只在双十一更新一次的网站，那 AI 也很难指望你是个可靠的信息源。

看到这里，你大概就能明白它们的包装逻辑。这些“优化”不是给人看的，是给 AI 看的。

整个过程里，用户从头到尾没有意识到这是广告。没有跳转、没有链接、没有推广字样，但却被真实的影响了。

看到这里你可能会觉得有点后背发凉。

原来我信赖的 AI，不是在帮我选东西，只是在推荐它记住的品牌。

看这张图，2024 年下半年，能从 ChatGPT 获得导流的网站数量翻了近三倍。

这个游戏几乎无从防备。

你没法像传统广告一样点个关闭，也没法像搜索广告一样靠标签识别出来。

我们从一个布满广告的旧世界，走进另一个优化过的新世界。

我们也可以乐观的看，如果你是个小众品牌、冷门博主、有想法的内容创作者，只要内容真、结构清、更新勤，其实是有机会被 AI 看到的。而一旦 AI 记住你，你可能就不需要烧钱投广告了，AI 每天都在帮你种草。

但恶心的是，如果这个趋势没人讨论、没人质疑，那些有钱有资源的品牌，很可能会一夜之间占满 AI 的记忆。到那时，AI 嘴里的推荐，可能就不再是最值得的选项，而是最先出价的客户。

这种比传统广告来的更隐蔽更可怕。

#LLM 的后训练技术

本文首次全面综述了后训练语言模型 PoLMs，系统追溯了它们在五个核心范式中的演变：微调、对齐、推理、效率以及集成与适应。

文章题目：A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS

Arxiv 链接：https://arxiv.org/pdf/2503.06072v1

普遍认为，真正的智能赋予我们推理能力，使我们能够检验假设，并为未来的可能性做好准备。—— Jean Khalfa，《什么是智能？》，1994

摘要

大型语言模型（LLMs）的出现从根本上改变了自然语言处理，使其在从对话系统到科学探索等多个领域不可或缺。然而，它们的预训练架构在特定情境下常常暴露出局限性，包括推理能力有限、伦理不确定性以及领域特定性能不佳等问题。这些挑战需要先进的后训练语言模型（PoLMs）来解决这些不足，例如 OpenAI-o1/o3 和 DeepSeek-R1（统称为大型推理模型，或 LRMs）。本文首次全面综述了 PoLMs，系统地追溯了它们在五个核心范式中的演变：微调（Fine-tuning），提高任务特定准确性；对齐（Alignment），确保伦理一致性和与人类偏好的对齐；推理（Reasoning），尽管在奖励设计方面存在挑战，但仍推进多步推理；效率（Efficiency），在复杂性不断增加的情况下优化资源利用；以及集成与适应（Integration and Adaptation），扩展跨多种模态的能力，同时解决一致性问题。从 2018 年 ChatGPT 的基础对齐策略到 2025 年 DeepSeek-R1 的创新推理进展，我们展示了 PoLMs 如何利用数据集减轻偏差、深化推理能力和增强领域适应性。我们的贡献包括对 PoLM 演变的开创性综合、对技术和数据集的结构化分类，以及强调 LRMs 在提高推理能力和领域灵活性方面的战略议程。作为这一范围内的首个综述，本研究整合了最近的 PoLM 进展，并为未来的研究建立了严格的理论框架，促进在科学和社会应用中精确、伦理稳健且多功能的 LLMs 的发展。

一、引言

语言模型(LMs) 是设计用于建模和生成人类语言的复杂计算框架。这些模型通过使机器能够以接近人类认知的方式理解、生成和与人类语言互动，彻底改变了自然语言处理(NLP) 领域。与人类通过与环境的交互和接触自然习得语言技能不同，机器必须经过广泛的数据驱动训练才能发展出类似的能力。这提出了一个重要的研究挑战，因为使机器能够理解并生成人类语言，同时进行自然、上下文恰当的对话，不仅需要巨大的计算资源，还需要精细的模型开发方法。

大型语言模型(LLMs) 的出现，如 GPT-3、Instruct GPT 和 GPT-4，标志着语言模型进化的一个变革阶段。这些模型以其广泛的参数化和先进的学习能力为特征，旨在捕捉复杂的语言结构、上下文关系和大规模数据集中的细微模式。这使得 LLMs 不仅能够预测后续单词，还能在包括翻译、问答和摘要在内的各种任务中生成连贯且上下文相关的文本。LLMs 的发展引发了广泛的学术兴趣，可以分为两个主要阶段：预训练(pre-training) 和后训练(post-training)。

预训练

预训练的概念源自计算机视觉(CV)任务中的迁移学习。其主要目标是使用大量数据集开发一个通用模型，以便轻松微调以适应各种下游应用。预训练的一个重要优势是能够利用任何未标注的文本语料库，从而提供丰富的训练数据来源。然而，早期的静态预训练方法，如神经网络语言模型(NNLM) 和 Word2vec，难以适应不同的文本语义环境，促使了动态预训练技术的发展，如 BERT 和 XLNet。BERT 通过利用 Transformer 架构并在大规模未标注数据集中使用自注意力机制，有效解决了静态方法的局限性。这项研究建立了“预训练和微调”的学习范式，启发了众多后续研究，引入了多种架构，包括 GPT-2 和 BART。

后训练

后训练是指模型经过预训练后所采用的技术和方法，旨在细化和适应特定任务或用户需求。随着具有 1750 亿个参数的 GPT-3 的发布，后训练领域经历了显著的兴趣和创新激增。出现了多种方法来提高模型性能，包括微调(fine-tuning)，即使用标注数据集或特定任务数据调整模型参数；对齐策略(alignment strategies)，即优化模型以更好地与用户偏好对齐；知识适配技术(knowledge adaptation techniques)，即使模型能够纳入领域特定知识；以及推理改进(reasoning improvements)，即增强模型的逻辑推理和决策能力。这些技术统称为后训练语言模型(PoLMs)，催生了如 GPT-4、LLaMA-3、Gemini-2.0 和 Claude-3.5 等模型的开发，标志着 LLM 能力的重大进展。然而，后训练模型通常难以不经重新训练或重大参数调整而适配新任务，这使得 PTM 开发成为活跃的研究领域。

正如所强调的，预训练语言模型(PLMs) 主要旨在提供一般知识和能力，而 PoLMs 则专注于将这些模型适应特定任务和需求。一个显著的例子是最新一代的 LLM，DeepSeek-R1，它展示了 PoLMs 在增强推理能力、与用户偏好对齐以及提高跨领域适应性方面的演变。此外，开源 LLMs（例如 LLaMA、Gemma 和 Nemotron）和领域特定的大规模数据集（例如 Prompt Source 和 Flan）的日益可用，正在推动学术研究人员和行业从业者开发 PoLMs 的趋势。这一趋势突显了在 PoLMs 领域中定制适应性的重要性。

图1：大型语言模型后训练技术的演变，展示了从初始方法到先进方法的进展，特别强调 DeepSeek 模型的贡献（用蓝色突出显示）

在现有文献中，PLMs 已被广泛讨论和综述，而 PoLMs 很少被系统地审查。为了推进这些技术，有必要彻底审查现有的研究成果，以识别关键挑战、差距和进一步改进的机会。本调查旨在填补这一空白，通过提供一个结构化的框架来研究后训练的演变。如图1所示，它探讨了后训练的多个阶段，特别关注从 ChatGPT 到 DeepSeek 所采用的方法。这些技术涵盖了广泛的方法，包括微调、LLM 对齐、推理增强和效率改进。图中的蓝色部分特别突出了 DeepSeek 应用的一组后训练方法，强调了为其成功适应用户偏好和领域特定需求做出贡献的创新策略。

1.1 主要贡献

本文是关于PoLMs的首个全面综述，提供了该领域最新进展的详尽、结构化的探索。尽管先前的综述通常集中于LLM开发的具体方面，例如偏好对齐、参数高效的微调[39]和LLM的基础技术[40]，但它们大多集中在狭窄的子主题上。相比之下，本综述采取了整体方法，全面回顾了后训练中常用的核⼼技术，并系统地对这些技术进行了分类。此外，我们研究了这些方法所依赖的数据集和实际应用，如图2所示，并指出了未来研究的开放挑战和有前景的方向。本综述的主要贡献如下：

全面的历史综合。我们首次深入综合了PoLMs的发展历程，从ChatGPT最初的基于人类反馈的强化学习(RLHF)到DeepSeek-R1创新的冷启动RL方法。这一综合涵盖了关键技术（即微调(Fine-tuning)、对齐(Alignment)、推理(Reasoning)、效率(Efficiency)和集成与适应(Integration and Adaptation)），分析了它们的发展及相关的挑战，如计算复杂性和伦理考虑。通过将这一发展过程呈现为一个连贯的叙述，并辅以必要的参考文献，我们为研究人员提供了近年来后训练发展的全面概述，成为该领域的基础资源。
结构化的分类和框架。我们引入了一个结构化的分类体系，如图2所示，将后训练方法分为五个不同的类别，并将数据集组织成七种类型，同时在专业、技术和交互领域框定了应用。这一框架明确了这些方法之间的相互关系及其实际意义，提供了对其发展的系统视角。通过提供明确定义的类别和分析见解，我们提高了初学者和专家的访问和理解能力，建立了一本全面的指南，帮助他们应对后训练研究的复杂性。
未来方向。我们突出了新兴趋势，特别是大型推理模型(LRMs)如 o1 和 DeepSeek-R1 的兴起，这些模型利用大规模的强化学习推动了推理能力的边界。我们强调，持续的技术进步对于进一步提升推理能力和领域适应性至关重要。我们的分析识别了关键挑战，包括可扩展性限制、伦理对齐风险和多模态集成障碍。我们提出了自适应RL框架和公平性优化等研究方向。这些方向旨在推动后训练的发展，确保LLMs实现更高的精确度和可信度，以满足未来的需求。

图2：本研究调查的后训练技术的结构概述，展示了方法、数据集和应用的组织

1.2 本文组织

本综述系统地组织，全面探讨了后训练语言模型(Post-training Language Models, PoLMs)，涵盖了其历史演变、方法论、数据集、应用及未来趋势。第2节提供了PoLMs的历史概述。第3节考察了微调技术，包括第3.1节的监督微调(Supervised Fine-Tuning, SFT)和第3.3节的强化微调(Reinforcement Fine-Tuning, RFT)。第4节讨论了对齐问题，涵盖第4.1节的人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)、第4.2节的人工智能反馈强化学习(Reinforcement Learning from AI Feedback, RLAIF)以及第4.3节的直接偏好优化(Direct Preference Optimization, DPO)。第5节聚焦推理能力，包括第5.1节的自精炼方法(Self-Refinement Methods)和第5.2节的推理强化学习(Reinforcement Learning for Reasoning)。第6节调查了提高效率的方法，包括第6.1节的模型压缩(Model Compression)、第6.2节的参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)和第6.3节的知识蒸馏(Knowledge Distillation)。第7节研究了集成与适应技术，涉及多模态方法、领域适应和模型融合。第8节回顾了后训练中使用的数据集。第9节探索了大型语言模型的应用。第10节评估了开放问题和未来方向。最后，第11节以总结和研究展望作为结尾。

2 概览

2.1 PoLMs 的历史

大型语言模型（LLM）的发展构成了自然语言处理（NLP）领域的一个重要篇章，其中后训练方法作为关键催化剂，推动了这些模型从通用预训练架构向专门化任务适应系统的演变。本节概述了后训练语言模型（PoLM）的历史轨迹，追溯其发展从以 BERT 和 GPT 代表的预训练里程碑到现代模型如 o1 和 DeepSeek-R1 所体现的复杂后训练范式。如图3所示，这一进展反映了从建立广泛的语言能力到增强任务特定适应性、伦理一致性、推理复杂性和多模态整合的转变，标志着LLM能力的变革之旅。

现代PoLM历史的开端与2018年的预训练革命相吻合，当时 BERT 和 GPT 的发布重新定义了NLP基准。BERT的双向自动编码框架利用了Transformer架构和自注意力机制，在诸如问答等任务中出色地捕捉了上下文依赖关系；而GPT的自回归设计则侧重于生成连贯性，为文本生成设定了先例。这些模型确立了“预训练和微调”范式，随后在2019年通过T5 进一步完善，该模型统一了多种任务的文本到文本框架，促进了多任务学习并为后训练进步奠定了坚实基础。

从2020年起，PoLM的格局开始显著演变，这主要是由于需要高效地将预训练模型适应于各种任务并在数据有限的情况下进行。早期创新如前缀调优和提示调优引入了轻量级适应策略，通过修改模型输入而不是重新训练整个架构来实现多任务灵活性，从而节省计算资源并扩大应用范围。这一时期还见证了以用户为中心优化的关键转变，即2021年引入的人类反馈强化学习（RLHF），该技术利用人类评估使模型输出与主观偏好对齐，增强了对话场景中的实用性。到2022年，随着近端策略优化（PPO）的采用，RLHF进一步成熟，改进了对齐稳定性和减轻了对噪声反馈的过拟合。2022年底 ChatGPT 的发布凝聚了这些进步，展示了RLHF在创建响应迅速且用户对齐的LLM方面的变革潜力，并催化了 PoLM 研究的激增。同时，思维链（Chain-of-Thought, CoT）提示作为一种推理增强策略出现，鼓励模型在复杂任务中阐述中间步骤，从而提高了透明度和准确性，特别是在逻辑推理和问题解决领域。

2022年至2024年间，PoLM多样化发展，以应对领域特异性、伦理稳健性和多模态整合的需求，反映出对LLM改进越来越细致的方法。领域适配技术如检索增强生成（Retrieval-Augmented Generation, RAG）出现，旨在集成外部知识库，使专门领域的输出更加丰富，而无需进行全面再训练——这对于需要最新信息的专业应用至关重要。伦理对齐努力加强，2023年直接偏好优化（Direct Preference Optimization, DPO）简化了RLHF，直接针对人类偏好优化模型输出，绕过了中间奖励建模，提高了效率和稳健性。与此同时，多模态能力的追求也取得了进展，PaLM-E 和 Flamingo 等模型开创了视觉-语言整合的先河，随后 BLIP-2 和 LLaVA 将这些努力扩展到了更广泛的领域，如医学成像。效率创新与这些发展并行，特别是通过专家混合（Mixture of Experts, MoE）架构；2022年，Google 的 Switch-C Transformer 引入了1.6万亿参数跨2048个专家的稀疏激活，而 Mixtral 进一步完善了这一范式，平衡了可扩展性和性能。期间的推理增强，如自我博弈和蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）与CoT的结合，通过模拟迭代推理路径进一步增强了LLM的决策能力，为高级推理导向模型奠定了基础。

一个重要的架构进步是专家混合（MoE）模型的兴起，这些模型通过动态激活选择性的参数子集，从传统的密集架构中脱颖而出，从而优化计算效率并容纳庞大的参数规模。这一范式由 Google 的 Switch-C Transformer 在2022年率先提出，该模型拥有1.6万亿参数分布在2048个专家中，这是一种平衡资源需求与性能提升的开创性方法。后续迭代，如Mixtral 和 DeepSeek V2.5 ——后者利用2360亿总参数，其中21亿活跃于160个专家中——进一步完善了这一框架，在LMSYS基准上取得了最先进的结果，并证明稀疏MoE架构可以在可扩展性和效能方面与密集模型相媲美。这些发展突显了向效率导向的PoLM的转变，使LLM能够以较低的计算开销处理复杂任务，这是扩大其实用性的关键一步。到2025年，DeepSeek-R1 成为了PoLM创新的里程碑，它摆脱了传统监督微调（SFT）的依赖，转而采用链式思维（CoT）推理和探索性RL策略。以DeepSeek-R1-Zero为例，该模型集成了自我验证、反思和扩展的CoT生成，验证了在开放研究范式中RL驱动的推理激励，引入了蒸馏技术将复杂的推理模式从较大的架构转移到较小的架构。这种方法不仅比单独的RL训练表现出更高的性能，还预示了一种可扩展的、以推理为中心的LLM范式，旨在解决后训练方法中持续存在的计算效率和任务适应性挑战。

图3：大型语言模型训练后技术开发时间表（2018-2025），描绘了其历史进程中的关键里程碑

2.2 PoLM的公式基础

2.2.1 策略优化原理

近端策略优化(PPO)算法是一种关键的强化学习技术，特别适用于需要保持稳定性和效率的场景，例如基于人类反馈的强化学习(RLHF)。PPO通过限制策略更新的幅度来实现这些目标，确保模型行为的变化是渐进和可控的，从而防止性能的灾难性下降。这在微调大规模语言模型时尤为重要，因为剧烈的策略更新可能导致不可取或不可预测的行为。

定义。 在PPO的上下文中，状态表示时间的状态，包括模型做出决策所需的所有相关信息。动作表示模型在给定状态时所做的选择。这个动作是模型所做的一系列决策的一部分。执行动作后，智能体接收奖励，这是来自环境的反馈，表明所采取行动的成功或失败。优势函数衡量在当前策略下，在状态中采取动作的优势，相对于该状态下所有动作的期望值。它正式定义为动作价值函数和状态价值函数之间的差异：

其中表示在状态中采取动作并遵循策略所获得的预期累积奖励，而是从状态开始并遵循策略所获得的预期累积奖励。这两个函数都考虑了未来的奖励，并通过因子进行折现。

策略更新。PPO算法通过基于优势函数进行增量更新来优化策略。策略更新使用剪切目标函数：

其中表示在当前策略下采取动作的概率与旧策略下采取动作的概率之比。该比率定义为：

是在时间步的估计优势，而剪切函数将策略更新限制在一个安全范围内，由超参数控制。这种剪切机制确保更新不会与之前的策略相差太大，从而在训练过程中保持稳定性。

价值函数更新。价值函数估计在给定状态下，根据策略获得的预期累积奖励。为了确保价值函数提供准确的估计，它通过最小化预测值与实际奖励之间的均方误差来优化：

其中是从状态获得的实际累积奖励，而是当前策略下的估计值。目标是调整参数以最小化预测值与实际奖励之间的差异，提高价值函数的准确性。

2.2.2 RLHF 原理

强化学习结合人类反馈（Reinforcement Learning with Human Feedback, RLHF）是通过在学习过程中利用人类生成的反馈来使模型与人类偏好对齐的关键方法。这种方法引入了一个奖励函数，该函数显式地捕捉了人类输入，使得模型能够更好地适应用户偏好和实际应用。

定义。在 RLHF 中，语言模型生成一个关于词汇表的序列的概率分布。模型从输入空间中生成一系列的标记，其中每个标记都条件依赖于之前的标记。模型的输出由以下条件概率分布定义：

$$\rho\left(x_0 \cdots x_{n-1}\right)=\prod_{0 \leq k<n} \rho\left(x_k="" \mid="" x_0="" \cdots="" x_{k-1}\right)="" $$=""

模型在一个由输入空间、数据分布和输出空间定义的任务上进行训练。例如，在文本摘要任务中，如文献［16］所示，GPT－2 模型使用 RLHF 进行训练，任务涉及基于 CNN／DailyMail 和 TL；DR 等数据集预测文本摘要。

目标函数。策略是一个与原始模型结构相同的语言模型。最初，策略被设置为等于。目标是通过优化策略来最大化输入输出对的预期奖励。奖励函数为每个输入输出对分配一个标量值，最优策略通过解决以下最大化问题获得：

这个目标函数代表了一个标准的强化学习问题，其中模型通过与环境的交互并在人类反馈的引导下学习最大化预期奖励。

2.2.3 DPO 原理

直接偏好优化(Direct Preference Optimization, DPO) 基于强化学习与人类反馈(RLHF)，通过直接根据人类偏好优化模型的输出来改进模型。这些偏好通常以成对比较的形式表达。DPO 消除了传统奖励函数的需要，而是通过最大化基于偏好的奖励来优化模型行为。

目标函数

在一般奖励函数下，KL 约束下的奖励最大化目标的最优解由下式给出：

其中是确保输出在所有可能动作上归一化的分区函数。即使使用真实奖励的最大似然估计，分区函数也可以近似，从而简化优化过程。这种表述通过直接根据人类反馈调整策略，使得偏好优化更加高效。

偏好模型

使用 Bradley－Terry 模型，该模型描述了两个输出和之间的偏好，最优策略满足以下偏好模型：

其中表示在给定输入的情况下，人类更喜欢输出而不是的概率。这种方法有效地将人类偏好纳入模型的优化过程中。

2.2.4 GRPO 原理

组相对策略优化（Group Relative Policy Optimization, GRPO）算法是强化学习中近端策略优化（Proximal Policy Optimization, PPO）算法的一种变体，首次在 DeepSeek 的前期工作《Deep Seek Math: 推动开放语言模型中的数学推理极限》中提出。GRPO 省略了评估模型（critic model），而是使用组得分来估计基线，这与 PPO 相比显著减少了训练资源消耗。

定义。 GRPO 和 PPO 算法之间最显著的区别在于优势函数的计算方法。从第 2．2．1 节中的公式 1 可以看出，PPO 中优势函数的值是从 Q 值和 V 值之间的差异得出的。

目标函数。 具体来说，对于每个问题，GRPO 从旧策略中采样一组输出，然后通过最大化以下目标来优化策略模型：

其中和是超参数，是基于每组内部输出的相对奖励计算的优势，详细内容将在第 5.2 节中介绍。

三、PoLMs 微调

微调构成了将预训练大型语言模型（LLMs）适应特定任务的核心，通过有针对性的参数调整来优化其能力。这一过程利用标注数据集或任务特定数据集来优化性能，弥合通用预训练与领域特定需求之间的差距。本章探讨三种主要的微调范式：监督微调（§3.1），使用标注数据集来提高任务特定的准确性；自适应微调（§3.2），通过指令微调和基于提示的方法来定制模型行为；以及强化微调（§3.3），将强化学习整合进来，根据奖励信号迭代地优化输出，通过动态交互促进持续改进。

3.1 有监督微调

监督微调(Supervised Fine-Tuning, SFT) 通过利用特定任务的标注数据集，将预训练的大型语言模型(LLMs)适应于特定任务。不同于依赖指令提示的指令微调，SFT直接使用标注数据调整模型参数，生成既精确又具有上下文感知能力的模型，同时保留广泛的泛化能力。SFT弥合了预训练期间编码的广泛语言知识与目标应用的细微需求之间的差距。预训练的LLMs通过接触大量语料库，获得了一般的语言模式，减少了对大量领域特定数据进行微调的依赖。模型选择至关重要：较小的模型如 T5 在资源受限且数据集有限的环境中表现出色，而较大的模型如 GPT-4 则利用其卓越的容量，在复杂且数据丰富的任务中表现出色。

3.1.1 SFT 数据准备

构建高质量的SFT数据集是一个多方面的过程，对于微调的成功至关重要。

SFT 数据集构建

SFT 数据集通常结构化为 , 其中是一条指令, 是其对应的实例。这种配对使大语言模型（LLM）能够识别任务特定的模式并生成相关输出。诸如 Self-Instruct 等方法通过合成新的指令-输出对来丰富多样性，并使用如 ROUGE-L 等指标过滤重复项以保持多样性。

SFT 数据集筛选

筛选确保只有高质量的指令－实例对保留在最终的数据集中。使用筛选函数来评估每对的质量，从而得到一个精选子集：

表1：2018年至2025年各组织发布的预训练大语言模型概览。该表详细列出了Meta、DeepSeek、OpenAI及其他机构的关键模型，包括它们的参数规模、训练数据规模（如有报道）、开源状态和发布时间线。开源状态用 ⊙˘⊙˘ 表示对研究社区公开的模型，用 ⊛ 表示闭源专有模型

其中是用户定义的质量阈值。例如，指令跟随难度（Instruction Following Difficulty, IFD）度量量化了一条给定的指令如何有效地引导模型生成预期响应。IFD 函数表示为：

其中表示指令，是预期响应，代表模型的学习参数。该度量通过比较在有无指令的情况下生成响应的可能性，提供了一个归一化的度量，表明指令在促进响应生成方面的有效性。未达到选定IFD阈值的指令－实例对将被排除在外，从而得到一个精炼的数据集。

SFT 数据集评估

评估SFT数据集涉及选择一个高质量的子集作为模型性能的基准。这个子集可以从精选数据集中抽样，或从独立部分中派生以确保公正性。传统的SFT评估方法，如 FewShot GPT 和微调策略，资源密集型，而指令挖掘提供了一种更高效的替代方案。指令挖掘使用线性质量规则和一组度量来衡量数据集质量，如响应长度和平均奖励模型得分，以评估这些度量与整体数据集质量之间的相关性。

图4：有监督微调过程

3.1.2 SFT 过程

如图4所示，一旦数据集准备就绪，微调过程便从一个预训练的语言模型开始，该模型通常通过在大规模原始数据集上进行无监督或自监督预训练获得。此预训练阶段的目标是获取适用于各种任务的一般特征表示。随后，在微调阶段，使用特定任务的标注数据调整模型参数，使模型与给定应用的需求对齐。此阶段常用的优化目标函数是交叉嫡损失。对于一个具有个样本和个类别的分类任务，它可以表示为：

其中是样本在类别中的真实标签，而表示模型预测样本属于类别的概率。最小化这个损失函数促使模型更好地与真实标签对齐，从而提高在目标任务上的性能。

一个显著的例子是 BERT 模型，它在广泛的语料库（如Books Corpus和Wikipedia）上进行了广泛的预训练。在微调阶段，这些广泛表示通过使用特定任务的数据（例如，用于情感分析的IMDB数据集）进行细化，使BERT能够专门处理诸如情感分类和问答等任务。

3.1.3 全参微调

全参数微调指的是调整预训练模型所有参数的过程，与LoRA 或Prefix-tuning 等参数高效方法形成对比，后者仅修改部分参数。全参数微调通常用于需要高精度的任务，例如医疗和法律领域，但其计算开销较大。例如，微调一个650亿参数的模型可能需要超过100 GB的GPU内存，这在资源受限的环境中构成了挑战。为了缓解这些约束，引入了LOMO 等内存优化技术，这些技术减少了梯度计算和优化器状态的内存占用。模型参数根据以下规则更新：

其中，表示第次迭代时的模型参数，是学习率，表示损失函数的梯度。内存优化技术包括混合精度训练和激活检查点，这些技术有助于减少内存需求，使大型模型能够在硬件资源有限的系统上进行微调。

从GPT-3到InstructGPT。 全参数微调的一个显著例子是从 GPT-3 到 InstructGPT 的过渡，其中使用设计用于指令跟随任务的数据集对模型的整个参数集进行了微调。这种方法能够实现最佳性能，但由于需要更新所有参数，因此计算成本较高。

3.2 自适应微调

自适应微调（Adaptive Fine-tuning）修改了预训练模型的行为，以更好地满足用户特定需求并处理更广泛的任务。这种方法引入了额外的线索来指导模型的输出生成，提供了一个灵活的框架来定制模型的响应。自适应微调中值得注意的方法包括指令微调和基于提示的微调，这两种方法通过引入任务特定的指导，显著增强了大语言模型的适应性。

图5：指令微调的工作流程，展示了大语言模型中指令数据集构建和指令微调的一般管道

3.2.1 指令微调

指令微调是一种通过在专门构建的指令数据集上对基础大语言模型（LLM）进行微调来改进其性能的技术。这种方法显著提升了模型在各种任务和领域中的泛化能力，提高了其灵活性和准确性。如图5所示，该过程首先将现有的自然语言处理（NLP）数据集（例如，文本分类、翻译和摘要数据集）转换为包含任务描述、输入示例、预期输出和示例演示的自然语言指令。自动生成更多指令-输出对的技术，如Self-Instruct ，进一步增强了这些数据集的多样性，扩展了模型对更广泛任务的接触。微调过程调整模型的参数以适应这些特定任务的指令，从而生成一个在熟悉和先前未见过的任务中均表现出色的大语言模型。例如，Instruct GPT 和 GPT-4 在广泛的应用中展示了指令跟随能力的显著提升。

指令微调的有效性很大程度上取决于指令数据集的质量和广度。高质量的数据集应涵盖广泛的语言、领域和任务复杂性，以确保模型具有广泛的适用性。此外，指令的清晰性和组织性在使模型能够有效解释和执行任务方面发挥着关键作用。整合示例演示，包括思维链提示（Chain-of-Thought prompting）等技术，可以显著提高需要复杂推理的任务的性能。此外，在微调阶段确保任务分布的平衡是避免过拟合或因任务覆盖不平衡而导致模型性能下降的关键。比例任务采样或加权损失函数等技术有助于解决这些问题，确保每个任务在微调过程中做出公平的贡献。因此，通过精心构建和管理指令数据集，研究人员可以大大增强微调后大语言模型的泛化能力，使其在广泛的任务和领域中表现出色。

3.2.2 前缀微调

前缀调优(Prefix-tuning) 是一种参数高效的微调方法，涉及在语言模型的每个 Transformer 层中添加一系列可训练的前缀标记（连续向量），同时保持核心模型参数不变。如图 6(a) 所示，这些前缀向量是任务特定的，并充当虚拟标记嵌入。为了优化前缀向量，使用了一种重新参数化技巧，即学习一个小的多层感知器（MLP）函数，将一个较小的矩阵映射到前缀参数，而不是直接优化前缀向量。这种方法已被证明可以稳定训练过程。一旦前缀向量被优化，映射函数将被丢弃，只保留导出的前缀向量以增强任务特定性能。

图 6：前缀调优和提示调优的比较，展示了它们在参数微调方面的不同方法：a) 前缀调优和 b) 提示调优

通过在输入序列前附加一个已学习的连续提示并利用分层提示，模型的行为可以被引导到任务特定的输出，而无需对整个模型进行微调。由于只有前缀参数被调整，这导致了一种更参数高效的方法。在此基础上，P-Tuning v2 在 Transformer 架构中引入了分层提示向量，专门用于自然语言理解任务。该方法还利用多任务学习来优化跨任务的共享提示，提高不同参数规模下的模型性能。前缀调优在促进大型语言模型快速高效地适应特定任务方面的潜力显而易见，使其成为需要灵活性和效率的应用中的一个有吸引力的策略。

3.2.3 提示微调

提示调优（Prompt-Tuning）是一种旨在通过优化输入层的可训练向量而非修改模型内部参数来高效适应大规模语言模型的方法。如图6(b)所示，该技术在离散提示方法的基础上引入了软提示标记，这些标记可以以无限制格式或前缀的形式进行结构化。这些学习到的提示嵌入与输入文本嵌入结合后被模型处理，从而在保持预训练权重不变的情况下引导模型的输出。两种代表性的提示调优实现是 P-tuning 和标准prompt-tuning。

Ptuning 使用灵活的方法结合上下文、提示和目标标记，使其适用于理解和生成任务。该方法通过双向 LSTM 架构增强软提示表示的学习。相比之下，标准提示调优采用了更简单的设计，其中前缀提示附加到输入中，并且仅在训练过程中根据任务特定的监督更新提示嵌入。

研究表明，提示调优在许多任务上可以达到与全参数微调相当的性能，同时需要的可训练参数显著减少。然而，其成功与底层语言模型的容量密切相关，因为提示调优仅修改输入层的一小部分参数。在此基础上，诸如 P-Tuning v2 等新方法已经证明，提示调优策略可以在各种模型大小上有效扩展，处理以前认为需要全微调的复杂任务。这些发现确立了提示调优作为传统微调的高度高效替代方案，提供相当的性能并降低计算和内存成本。

3.3 强化学习微调

强化微调（Reinforcement Fine-Tuning, ReFT）是一种先进的技术，它将强化学习（RL）与监督微调（SFT）相结合，以增强模型解决复杂动态问题的能力。与传统的 SFT 不同，后者通常为每个问题使用单个链式思维（CoT）注释，而 ReFT 使模型能够探索多个有效的推理路径，从而提高其泛化能力和问题解决技能。ReFT 过程从标准的 SFT 阶段开始，在此阶段，模型通过监督注释在标注数据上进行初步训练，以学习基本的任务解决能力。经过这一初始微调后，模型使用强化学习算法（如近端策略优化（Proximal Policy Optimization, PPO)）进行进一步的精炼。在强化阶段，模型为每个问题生成多个 CoT 注释，探索不同的潜在推理路径。这些生成的路径通过将模型预测的答案与真实答案进行比较来评估，正确输出会获得奖励，错误输出则受到惩罚。这一迭代过程促使模型调整其策略，最终改进其推理策略。

图 7：强化微调（ReFT）的过程，展示了迭代的监督微调（SFT）预热阶段，随后在同一数据集上进行强化学习（RL）训练

如图 7 所示，ReFT 过程分为两个阶段。上部表示 SFT 阶段，模型在训练数据上迭代，通过多个周期学习每个问题的正确 CoT 注释。下部引入了 ReFT 阶段：从 SFT 训练的模型开始，模型根据当前策略生成替代的 CoT 注释，并将其预测的答案与真实答案进行比较。正确答案会获得正向奖励，错误答案则受到负向奖励，这促使模型提高性能。这些奖励信号随后用于通过强化学习更新模型的策略，增强其生成准确和多样化的 CoT 注释的能力。

最近的研究表明，ReFT 显著优于传统的 SFT 方法。此外，集成推理时间策略（如多数投票和重新排序）可以进一步提升性能，使模型在训练后能够优化其输出。值得注意的是，ReFT 在不增加或增强训练数据的情况下实现了这些改进，仅从 SFT 阶段使用的现有数据集中学习。这突显了模型的优越泛化能力，因为它能够更高效和有效地从可用数据中学习。

4 PoLMs 对齐

在大语言模型中实现对齐涉及引导模型输出以符合人类期望和偏好，特别是在安全关键或面向用户的应用中。本章讨论了实现对齐的三种主要范式：基于人类反馈的强化学习（§4.1），该方法使用人工标注的数据作为奖励信号；基于人工智能反馈的强化学习（§4.2），该方法利用人工智能生成的反馈来解决可扩展性问题；以及直接偏好优化（§4.3），该方法直接从成对的人类偏好数据中学习，而无需显式的奖励模型。每种范式在其追求稳健对齐的过程中都提供了不同的优势、挑战和权衡。这些及相关方法的简要比较总结在表2中。

表2：大语言模型对齐方法的比较概述（2022–2024）。该表评估了八项指标下的主要对齐技术：RM1（显式或隐式奖励模型）、RM2（点奖励或偏好概率模型）、RM3（响应级或令牌级奖励）、RM4（正或负奖励模型）、F（反馈类型：人类或AI）、RL1（参考模型或无参考模型的强化学习）、RL2（在线策略或离线策略的强化学习）和O（在线/迭代或离线/非迭代优化）。

4.1 人工反馈的强化学习

监督微调(Supervised Fine-Tuning, SFT) 一直作为指导大语言模型(LLMs)遵循人类指令的基础技术。然而，在纯监督场景中，标注数据的多样性和质量可能参差不齐，且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。为此，基于强化学习(Reinforcement Learning, RL)的微调方法被提出以解决这些不足。在RL方法中，基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 作为最早且最具影响力的RL后训练对齐方法之一脱颖而出。

如图8所示，RLHF首先收集以偏好标签或奖励信号形式的人类反馈，然后利用这些信息训练奖励模型。在该奖励模型的引导下，策略通过迭代调整以更好地匹配人类偏好。与SFT相比，RLHF融入了连续的、偏好驱动的更新，从而实现更强的对齐效果。值得注意的是，现代大语言模型如 GPT-4、Claude 和 Gemini 均受益于这些机制，展示了在指令遵循、事实一致性及用户相关性方面的改进。以下，我们将讨论RLHF的主要组成部分，包括反馈机制、奖励建模及策略学习策略。

4.1.1 RLHF 的反馈机制

人类反馈是基于人类反馈的强化学习(RLHF)的核心，它向奖励模型传达用户偏好，并指导策略更新。本小节采用了文献[124]的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与程度和明确性等维度上的分布。每种反馈模式对模型优化的不同方面都有贡献，提供了不同水平的可解释性、可扩展性和噪声容忍度。

图8：基于人类反馈的强化学习(RLHF)工作流程，概述了大型语言模型与人类偏好对齐的整体训练过程

表3：大型语言模型后训练方法中的反馈类型分类。该表提供了常见反馈类别的概览及其在六个指标上的定义属性：粒度（范围：场景、段落或步骤）、参与度（参与度：观察、主动或协同生成）、元数（实例数：单个、多个或三元）、抽象层次（目标：特征或实例）、意图（目的：评估、描述或字面意义）和明确性

主要反馈。 这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如，批评(Critique)专注于对代理行为的显式人类评估，通常通过二元或多标签注释来减轻噪声。比较(Comparisons)允许评估器比较多个输出或轨迹；虽然更大的选择集可以提供更丰富的信号，但也可能导致因果混淆。时间反馈(Inter-Temporal Feedback)通过在不同时间步长提供判断来细化轨迹评估，而代理奖励(Proxy Rewards)则结合近似奖励函数，引导模型朝向用户定义的目标。社会行为(Social Behavior)利用隐含线索（如面部表情）来使代理目标与用户情感对齐。改进(Improvements)强调实时人类干预以逐步完善策略。最后，自然语言反馈(Natural Language Feedback)利用文本信息传达偏好和改进建议。

补充反馈。 除了主要反馈之外，还有两类进一步加强奖励建模过程。紧急停止(Emergency stops, e-stops)允许人类在代理行为中进行干预，通过停止其轨迹而不提供替代方案来防止不良行为。这种反馈的特点是隐含参与和单一的防止不良行为的焦点。相比之下，重要性标签(Importance labels)指示特定观察对于实现目标的重要性，提供不直接改变行为的显式反馈。这种反馈因上下文而异，作为补充输入，加强奖励模型的整体学习过程。

表示特定反馈。 某些反馈类型主要增强表示学习，而不是直接塑造奖励函数。特征轨迹(Feature Traces)提示人类操作员展示给定特征的单调变化，从而实现特征集的动态扩展。相似性查询(Similarity Queries)比较轨迹的三元组，通过轨迹空间中的成对距离引导表示学习。通过利用这些表示特定的反馈形式，RLHF可以实现对新任务和上下文的更鲁棒泛化。

4.1.2 RLHF 的奖励模型

真正的奖励函数通常未知，因此需要基于人类提供的偏好构建一个可学习的奖励模型。该模型预测候选输出在给定输入下与人类期望的一致程度。为了获得训练数据以训练，人类评估者根据输出对的相对适宜性进行比较或标注，模型通常使用这些比较上的交叉嫡损失进行训练。为了防止策略过度偏离初始模型，引入了一个由超参数控制的惩罚项到奖励函数中：

其中是微调后的策略在给定输入时生成输出的概率，而是在初始模型下相应的概率。这一项确保了在适应人类反馈的同时，仍受到中捕获的先验知识的约束。

评估奖励函数至关重要，因为它直接影响学习效果和策略性能。准确评估此函数有助于识别适合将模型输出与人类偏好对齐的奖励结构。然而，在安全敏感领域，由于在线交互的风险、偏差以及对真实奖励的需求，标准的滚动方法和离策略评估可能不可行。为了解决这些挑战，通常采用两种主要方法：

距离函数。 最近的研究集中在考虑潜在变换（如潜在塑形）的奖励评估距离函数上。例如，EPIC 测量在各种变换下的奖励函数等价性，而 DARD 通过细化规范化确保评估基于可行的转换。EPIC 类似的距离通过允许规范化、标准化和度量函数的变化来推广 EPIC 的方法论，而 STARC 保留了 EPIC 的理论性质，同时提供了额外的灵活性。

可视化和人工检查。 其他方法依赖于解释性和精心策划的数据集来评估学习到的奖励函数的有效性。PRFI 使用预处理步骤简化奖励函数，同时保持等价性，从而增强其透明度。与此同时，CONVEXDA 和 REWARDFUSION 提出了设计用于测试奖励模型对提示语义变化响应一致性的数据集。这些技术共同促进了对奖励函数更可靠的评估，强化了大语言模型与人类偏好的对齐。

4.1.3 RLHF 的策略学习

强化学习中的人类反馈策略学习（Reinforcement Learning with Human Feedback, RLHF），如图9所示，涉及通过在线和离线环境中的真人反馈优化策略。

在线学习

在在线RLHF中，系统实时收集人类对新生成模型轨迹的偏好。DPS 等算法使用贝叶斯更新来管理对抗过程，而PPS和PEPS 将动态规划和多臂赌博机思想结合以改进策略行为。在LPbRL 中，特征嵌入捕捉奖励结构的变化，PbOP 集成最小二乘估计方法，用于转换动态和偏好信号的估计。最近，PARL 通过将反馈获取视为策略优化的组成部分，提高了数据收集效率。

图9：在线与离线RLHF的比较，展示了在线RLHF中策略执行期间的连续反馈收集与离线RLHF中预先收集的轨迹利用的对比

离线学习。 在离线RLHF中，使用先前收集的带有偏好标签的轨迹来学习或优化策略。例如，文献 [151] 研究了基于成对比较数据的悲观最大似然估计策略学习，并建立了性能界限。FREEHAND 和DCPPO 等扩展方法适用于未知偏好模型，探讨了离线数据覆盖范围与策略泛化之间的相互作用。此外，文献 [154] 解决了成对比较中Boltzmann模型的过拟合问题，而DCPPO 进一步研究了动态离散选择模型，以提高反馈效率。

在线与离线学习的融合。 混合方法结合了离线预训练和在线偏好聚合，充分利用已收集的数据，同时仍能纳入实时更新。PFERL 采用两阶段方法以减少人类查询次数，而PERL 探索了乐观最小二乘策略以进行主动探索。Dueling RL 及其扩展（如PRPRL 中的REGIME）通过仔细划分数据获取与反馈收集，减少了人类标注需求，从而优化了样本效率、标注成本和策略性能之间的权衡。

4.2 AI 反馈的强化学习

强化学习与人工智能反馈(Reinforcement Learning with AI Feedback, RLAIF)扩展了RLHF范式，通过使用大语言模型(LLMs)生成反馈信号。这种方法可以补充或替代人类反馈，在人类标注稀缺、昂贵或不一致的任务中提供更具可扩展性和成本效益的偏好数据。

4.2.1 RLAIF vs RLHF

在大规模应用强化学习与人类反馈（RLHF）时，一个主要挑战在于其依赖于人工生成的偏好标签，这需要大量资源来收集、整理和标注数据。数据标注过程既耗时又昂贵，且人工评估者可能会引入不一致性，从而使得在整个模型输出中实现大规模、一致的标注变得复杂。这些限制显著影响了RLHF的可扩展性和效率。为了解决这些挑战，[105] 提出了强化学习与人工智能反馈（RLAIF），该方法结合了人类反馈和人工智能生成的反馈，通过强化学习训练模型。通过利用大语言模型（LLM）作为反馈来源，RLAIF减少了对人工标注者的依赖，提供了一种传统RLHF的可行替代方案。这种方法实现了连续的反馈生成，显著增强了可扩展性，同时保留了人类指导下的模型优化灵活性。

如图10所示，RLHF和RLAIF之间的关键区别在于反馈来源：RLHF依赖于人工生成的偏好，而RLAIF使用人工智能生成的反馈来引导策略更新。实证研究，例如[157]的研究表明，RLAIF可以达到与RLHF相当甚至更优的性能，经由人工评分员评估。值得注意的是，RLAIF不仅超越了传统的监督微调基线，而且在偏好标签器规模与策略模型相同的情况下实现了这一点，突显了该方法的高效性。

图10：RLHF和RLAIF方法的比较，展示了它们在大语言模型偏好对齐方面的不同方法

4.2.2 RLAIF 训练流水线

RLAIF 训练流程遵循几个关键阶段，在这些阶段中，利用 AI 生成的反馈迭代地改进模型的行为。该流程促进了 LLM 输出与人类期望的对齐，并且能够扩展到各种任务，如 [108] 所详述。这些阶段如下：

AI 反馈收集

在这一阶段，AI 系统根据预定义的标准生成反馈，这些标准可能包括特定任务的指标、响应的正确性或模型输出的适当性。与需要解释和手动标注的人类反馈不同，AI 反馈可以在广泛的模型输出中一致生成。这一特性使得 AI 反馈可以持续提供，显著扩展了反馈循环。

奖励模型训练

随后，使用 AI 生成的反馈来训练或优化奖励模型。该模型将输入-输出对映射到相应的奖励，使模型的输出与反馈所指示的期望结果对齐。传统的基于人类反馈的强化学习 (RLHF) 依赖于直接的人类反馈来评估输出，而 RLAIF 则利用 AI 生成的标签，尽管这可能会引入一致性问题和偏见，但在可扩展性和独立于人力资源方面具有优势。

策略更新

最后阶段涉及根据前一步骤中训练的奖励模型更新模型的策略。使用强化学习算法调整模型的参数，优化策略以在多种任务中最大化累积奖励。这一过程是迭代的，奖励模型指导模型的输出向更高的目标对齐度发展。

RLAIF 的主要优势在于其能够在不需持续人类干预的情况下扩展反馈循环。通过用 AI 生成的反馈替代人类反馈，RLAIF 促进了 LLM 在多个任务中的持续改进，缓解了人类标注工作带来的瓶颈。

4.3 直接偏好优化

如前所述，基于人类反馈的强化学习(RLHF) 通常包括三个阶段：监督微调(Supervised Fine-Tuning)、奖励建模和强化学习（通常通过近端策略优化(PPO)实现）。尽管其效果显著，RLHF 可能会变得复杂且不稳定，特别是在拟合奖励模型并用于微调大型语言模型的阶段。难点在于创建一个能够准确反映人类偏好的奖励模型，以及在优化这一估计奖励的同时，使语言模型保持接近原始模型的挑战。为了解决这些问题，直接偏好优化(Direct Preference Optimization, DPO) 被引入作为一种更稳定且计算效率更高的替代方案。DPO 通过直接将奖励函数与最优策略联系起来，简化了奖励优化过程。它将奖励最大化问题视为基于人类偏好数据的单阶段策略训练问题，从而避免了奖励模型拟合的复杂性和布拉德利-特里模型(Bradley-Terry model) 的依赖性。

4.3.1 DPO 基础

强化学习与人类反馈（RLHF）涉及训练一个奖励模型（RM）和通过强化学习微调一个语言模型（LM）。直接偏好优化（DPO）简化了这一过程，通过直接使用人类偏好数据训练LM，隐式地在策略中捕捉奖励模型。

KL正则化奖励最大化目标

DPO从已建立的KL正则化奖励最大化框架开始，如下目标函数所示：

其中表示奖励函数，是一个控制接近参考策略程度的系数，表示Kullback－Leibler散度。这里，表示从数据分布中抽取的输入，表示从策略中采样的输出。

导出最优策略

在适当的假设下，方程 (14) 的解以玻尔兹曼分布的形式给出：

其中配分函数

作为归一化项，确保仍然是一个有效的概率分布（即其概率之和为1）。

重参数化奖励

取方程 (15) 两边的自然对数，可以将奖励与最优策略联系起来。得到：

其中是一个不影响奖励成对比较的常数。如果已知最优策略，则可以确定真实奖励，最大为这个常数。

布拉德利-特里偏好

根据布拉德利－特里模型，两个输出和之间的人类偏好由它们的奖励值差异决定。偏好而非的概率为

将方程 (17) 代入方程 (18)，我们得到最终的偏好模型：

该表达式将成对的人类偏好概率与最优策略和参考策略的比值联系起来。

DPO的目标

DPO通过直接从偏好数据中学习策略，避免了显式的奖励建模。给定一组偏好三元组，其中是首选输出，是次选输出，对于提示最大化观察到的偏好的似然。形式上，DPO采用以下目标函数：

其中是sigmoid函数，表示和参考策略之间的重参数化奖励差异。通过最大化，策略在不需单独奖励模型的情况下与人类偏好对齐。由于DPO目标继承了来自RLHF的KL正则化公式，它保留了重要的理论保证一一例如，在明确定义的偏好假设下的一致性一一同时将训练过程统一为一个阶段。因此，DPO为使语言模型与人类评估对齐提供了更直接的路径，减少了系统复杂性并提高了训练稳定性。

4.3.2 DPO 的训练细节

DPO框架建立在两个核心模型之上：参考策略和目标策略。参考策略通常是一个预先训练并经过监督微调的语言模型，在整个训练过程中保持不变。相比之下，目标策略从初始化，并通过基于偏好的反馈进行迭代更新，从而提高与人类判断的一致性。图11展示了这一整体流程。

图11：直接偏好优化(DPO)的工作流程，展示了基于人类偏好的大型语言模型输出优化的训练流程

数据收集和准备

DPO 依赖于一个精心策划的偏好数据集，该数据集通过从中为每个提示抽取多个候选响应而获得。人类标注者随后根据连贯性、相关性和清晰度等标准对这些响应进行比较或排名。由此产生的偏好标签作为优化的核心训练信号。

训练过程

目标策略通过一系列旨在最小化损失的梯度更新进行精炼。具体步骤如下：1）生成：为每个提示生成候选输出。2）标注：人类标注者比较生成的输出，确定它们的相对偏好。3）优化：利用这些成对偏好，进行迭代更新，以更好地模仿人类偏好的输出。在整个过程中，保持不变，提供一个稳定的基线，以便衡量改进。

实践考虑

选择一个稳健的参考策略通常是有效初始化DPO的关键。监督微调(SFT)通常会产生一个表现良好的基线，确保后续基于偏好的更新可以集中在精炼而非基本技能的获取上。此外，偏好数据必须足够多样，以捕捉用户期望的变化，从而促进模型的适应性并防止过度拟合到狭义定义的任务中。

4.3.3 DPO 的变种

多种DPO变体已经出现，以应对特定的对齐挑战并优化文本生成的不同方面。表2概述了这些方法，范围从词元级生成优化到控制冗长性和处理列表或负面偏好。

优化生成的DPO

词元级和迭代DPO策略有助于更精细地或连续地与人类偏好对齐。将问题重新表述为一个强盗问题，词元级DPO 采用了由定义的马尔可夫决策过程(Markov Decision Process, MDP)。这种方法缓解了诸如对不受欢迎的词元产生过高的KL散度等问题。TDPO 应用了顺序前向KL散度而不是逆向KL散度，从而在文本生成中同时提高了对齐性和多样性保持。迭代DPO 采用多轮方法，通过重复的偏好评估不断优化输出，通常由模型本身执行。成对厌恶优化(Pairwise Cringe Optimization, PCO) 将二元反馈扩展到成对设置，使用软边界来平衡探索和利用。逐步DPO (Step-wise DPO) 将偏好数据集划分为多个部分，并应用迭代更新，每一轮更新后的策略作为下一轮的基线。

可控且灵活的DPO

一些DPO变体旨在管理冗长性并减少对固定参考策略的需求。R-DPO 通过在目标函数中引入正则化项来惩罚输出长度，解决了过于冗长或冗余的响应问题。SimPO 通过规范化响应长度并简化损失函数来处理期望和不期望的输出，消除了对参考策略的需求。RLOO 利用REINFORCE算法而无需训练价值模型，大幅减少了计算开销。它将整个响应视为单个动作，并从稀疏奖励中学习，相比传统的基于PPO的方法简化了实现。

列表DPO

与将偏好数据限制为成对比较不同，列表DPO方法在一组输出上进行优化。列表偏好优化(Listwise Preference Optimization, LiPO) 直接在候选响应的排名列表上应用排序学习技术，相对于重复的成对比较提高了效率。RRHF 将偏好对齐整合到SFT中，消除了对单独参考模型的需求。PRO 将列表偏好分解为更简单的二元任务，简化了SFT期间的对齐。

负面DPO

某些任务需要从不期望或有害的输出中学习：否定负例(Negating Negatives, NN) 丢弃积极响应并最大化与较少偏好的输出之间的差异。负面偏好优化(Negative Preference Optimization, NPO) 对负面偏好应用梯度上升，有效减少了有害输出并缓解了灾难性崩溃。

五、PoLMs 推理

推理是使大语言模型（LLM）能够处理涉及多步骤逻辑、复杂推理和复杂决策任务的核心支柱。本章探讨了两种增强模型推理能力的核心技术：自精炼推理（Self-Refine for Reasoning）（§5.1），该方法指导模型自主检测并修正其推理步骤中的错误；以及强化学习推理（Reinforcement Learning for Reasoning）（§5.2），该方法通过基于奖励的优化来提高模型思维链的一致性和深度。这些方法共同使得模型在长期决策、逻辑证明、数学推理等具有挑战性的任务中能够更加稳健地处理。

图12：自我精炼方法的分类，描绘了增强推理的架构变化大型语言模型

5.1 自精炼推理

推理仍然是优化大语言模型（LLMs）以应对需要复杂逻辑推理和情境依赖决策任务的核心挑战。在这一背景下，自精炼(self-refine)作为一种强大的机制，能够在文本生成过程中或之后迭代地识别和纠正错误，显著提高推理深度和整体可靠性。如图12所示，自精炼方法可以分为四类：内在自精炼(Intrinsic Self-refine)，依赖于模型内部的推理循环；外在自精炼(External Self-refine)，结合外部反馈资源；微调内在自精炼(Fine-tuned Intrinsic Self-refine)，基于自动生成的校正迭代更新模型的推理过程；以及微调外在自精炼(Fine-tuned External Self-refine)，利用外部信号和微调以更适应性、长期的方式改进推理。表4进一步展示了每种类别如何在各种任务中增强LLM的推理能力。

表4：大型语言模型中的自精炼方法概述（2022-2025）。此表总结了突出的自我精炼技术，详细介绍了它们的主要LLM、任务和发布时间表，包括三个指标：ET（外部工具：× 表示使用情况，√表示缺失）、FT（微调：×指示应用程序，√表示非应用程序）和SR（自我精炼类型：IS表示内在自我精炼，ES表示外部自我精）

内在自精炼

内在自精炼方法侧重于使模型本身能够检测并内部修复错误，而无需借助外部工具。例如，RCI Prompting [190] 只在检测到矛盾或错误时触发校正，避免对轻微不确定性做出过度反应。CAI Revisions [105] 纠正不希望的输出（例如，冒犯性文本），同时教导模型自我调节其响应。同样，Self-Refine [164] 通过从低质量提示过渡到高保真指令来改进中间逻辑，提高一致性。CoVe [169] 通过将多答案问题分解为子任务，并分别验证每个子任务，确保整个推理链的精确性和一致性。弱到强泛化(Weak-to-Strong Generalization, W2SG)方法利用高级算法，使强大的学生模型能够从较弱的教师模型产生的嘈杂演示中有效学习 [191]。该框架已在不同领域看到了几个关键的发展和应用。最近的研究通过各种创新增强了W2SG。例如，集成学习技术已成功应用于提高W2SG方法的鲁棒性和有效性 [192]。[193] 采用弱到强外推法来增强LLM的对齐。

外在自精炼

这些方法涉及外部反馈源或计算工具来指导和纠正模型的推理。CRITIC [177] 系统地检查逐步输出，提高复杂推理任务的可靠性。Reflexion [172] 和 Self-Debug [173] 分别将生成的答案与参考解决方案或少量示例进行比较，迭代地改进逻辑。像 FLARE [170] 和 Logic-LM [171] 这样的技术通过引用外部文档或符号求解器，从而减少逻辑错误。RARR [165] 和 SelfEvolve [166] 显示，验证中间状态（例如，编译器消息或相关知识来源）是早期修剪错误路径并引导模型向正确解决方案发展的强大方法。文献 [194] 提出了一种基于人类反馈的迭代偏好学习方法，包括在线设置下的直接偏好优化(DPO)算法的迭代版本，以及离线场景下的多步拒绝采样策略。PIT [195] 从人类偏好数据中隐式学习改进目标。

微调内在自精炼

通过专门针对内部修订对基础模型进行微调，这些方法系统地加强了LLM的自我校正循环。Self-Critique [161] 旨在通过自我审查改进总结，而 SelFee [174] 使用迭代反馈循环以确保更高的逻辑一致性。Volcano [180] 通过在LLM架构中微调一个专用校正模块来减少多模态幻觉，RL4F [167] 利用基于强化学习的批评循环，在需要深入推理的基准测试中平均提高了 10% 的性能。REFINER [176] 同样专注于中间推理路径，而不改变模型的原始生成过程，表明通过训练模型仔细重新检查其部分输出，可以实现一致的改进。此外，从易到难泛化的概念作为W2SG的一个有前途的变体，已经出现，其中模型最初在易于验证的示例上进行训练，然后处理更复杂的任务 [196]。一种值得注意的实现方法是在人类可验证的示例上训练一个强大的奖励模型，然后引导更强大的模型处理具有挑战性的任务 [197]。此外，W2SG的有效性超越了LLM，在计算机视觉任务中也有成功的应用[198]。

微调外在自精炼

在需要长期改进的情况下，模型参数通过外部反馈机制进行更新。例如，Self-Edit [168] 基于执行结果重新生成代码输出，从而逐步提高正确性。Baldur [163] 通过添加或修改上下文来加强定理证明，而 CodeRL [162] 利用基于测试的批评来验证程序合成任务的功能准确性。这些技术共同表明，将外部资源与有针对性的微调相结合，可以促进模型整体推理性能的可靠、逐步提升。

5.2 用于推理的强化学习

在第5.1小节中，我们探讨了自精炼方法，这是一种广泛使用的方法，通过局部调优和优化来改进大语言模型的推理能力。这种技术通常应用于单步任务或输出精炼，例如文本生成和问答，能够提供快速的推理增益。然而，它在处理需要多步逻辑的复杂长期推理任务时显得力不从心。OpenAI发布的o1系列[41]突显了强化学习（Reinforcement Learning, RL）作为一种强大的替代方案，通过基于奖励的反馈来训练大语言模型进行高级推理，优化内部的长链因果关系（Chain of Thought, CoT）。这在数学证明和战略规划等复杂任务中显著提升了性能。o1的成功激发了对大规模强化学习的研究，诸如QwQ-32B-Preview [199]在数学和编程方面表现出色，而DeepSeekR1 [28]则与o1的能力相当。本小节将考察强化学习在增强推理能力中的作用，重点关注领先的开源模型DeepSeek-R1和DeepSeek-R1-Zero。

5.2.1 将推理表述为MDP

在大语言模型（LLMs）中的推理可以被优雅地建模为一个顺序决策过程，在该过程中，模型针对输入查询迭代地构建一系列中间步骤，以优化到达正确最终答案的可能性。这种概念化将推理转化为一个适合强化学习（RL）的结构化框架，特别是通过马尔可夫决策过程（MDP）的视角，记为。MDP封装了状态、动作、转换、奖励和时间折现之间的动态相互作用，为训练LLMs处理复杂推理任务提供了坚实的数学基础。通过将推理视为一系列有意的选择，这种方法使模型能够系统地探索并精炼其逻辑路径，类似于游戏或机器人领域中的决策制定，但适应了语言和概念推理的独特挑战。最终目标是推导出一个最优策略，以最大化预期累积奖励，表示为，利用RL技术如近端策略优化（Proximal Policy Optimization，PPO）或优势行动者－评论家（Advantage Actor－Critic，A2C）来根据环境反馈迭代地增强推理能力。

状态空间

状态空间构成了这个MDP的骨干，每个状态代表了在时间步处的当前推理轨迹，这是一个由语言和结构元素组成的丰富复合体，对推理过程至关重要。具体而言，包括初始查询、先前的推理步骤序列以及编码逻辑依赖和中间结论的内部记忆表示，例如部分解决方案或推断的关系。随着推理的展开，这种状态会动态演变，通过整合生成步骤中明确表述的路径和从上下文中提炼的潜在知识，反映了思维的进展。例如，在数学证明中，可能包括问题陈述、先前推导的方程和适用定理的记忆，使模型能够在步骤之间保持连贯性。这种多方面的状态表示确保了LLM能够自适应地跟踪其推理上下文，这是处理需要持续逻辑连续性的任务（如多步骤问题解决或文本生成中的叙事连贯性）的前提。

动作空间

动作空间定义了每个步骤中可能的决策范围，其中动作对应于选择下一个推理步骤，为推进推理过程提供了灵活的工具包。这些动作可能包括生成自然语言中的一个词或短语来表达推理段落、应用预定义的逻辑或数学变换（如代数简化）、从知识库中选择相关定理或规则以扩展推理链，或在达到结论性答案时停止过程。动作空间的性质因任务而异：在形式证明中选择有限逻辑规则集时可能是离散的，而在开放性推理场景中产生自由形式文本时则是连续的，反映了LLM的生成灵活性。这种双重性使模型能够在结构化领域（如符号逻辑）和非结构化领域（如常识推理）之间导航，同时适应任务需求，保持向解决方案的连贯轨迹。

转移函数

转移动力学由函数封装，决定了每次动作后状态如何演变，界定了推理轨迹在MDP框架内的进展。与传统RL环境中由于外部变量（如环境噪声）引起的随机性不同，LLMs中的推理转移主要是确定性的，由模型的自回归输出或结构化推理规则驱动，例如在证明中应用演绎步骤。然而，不确定性源于模型固有的局限性——如不完美的知识、模糊的中间状态或文本生成中的概率采样——引入了RL必须应对的变化。对于自回归LLMs，转移遵循可预测的序列生成过程，但错误累积或解释分歧的可能性需要稳健的设计以确保可靠性。这种确定性但不确定的动力学强调了需要适应性策略，以在从精确数学推导到细致入微的叙事构造的各种情境中稳定推理。

奖励函数

奖励函数 R(s_{t},a_{t}) 作为MDP的评估核心，提供了对每个推理步骤质量的关键反馈，以指导模型的学习过程。与具有显式奖励（如游戏中得分）的传统RL任务不同，推理奖励必须精心设计以平衡稀疏性和密集性，反映任务的复杂性和目标。稀疏奖励，如仅在达到正确最终答案时分配值，提供简单性但可能在多步骤情景中延迟学习；而密集奖励，如评估逐步正确性、逻辑有效性或与人类偏好的一致性，则提供详细的指导，如§5.2.2所述。这种灵活性使奖励函数能够适应多样化的推理需求——无论是奖励证明中有效推理规则的应用还是叙事段落的一致性——确保模型接收到有意义的信号，以在其即时和扩展推理范围内精炼其策略。

折扣因子

一个标量，决定了即时奖励和未来奖励之间的权衡。较高的鼓励多步骤推理优化，促进深度推理链而非短期启发式。基于这种MDP公式，目标是学习一个最优推理策略，以最大化预期累积奖励：

这一框架使得可以应用强化学习技术，如近端策略优化（PPO）或优势行动者－评论家（A2C），通过根据推理环境的反馈迭代调整策略来精炼LLM的推理能力。

5.2.2 推理奖励设计

与具有明确奖励（如游戏得分）的传统强化学习任务不同，大型语言模型（LLM）中的推理需要结构化的奖励设计，以反映正确性、效率和信息量。常见的方法包括：

二元正确性奖励，对于正确的最终答案分配, 否则分配，这种方法简单但因稀疏反馈而引入高方差；
分步准确度奖励，基于推理规则的有效性或中间步骤的一致性等指标提供增量反馈，以引导多步推理；
自一致性奖励，测量多个推理路径的稳定性，并对一致性强的情况分配更高的奖励，以增强鲁棒性；
基于偏好的奖励，从基于人类反馈的强化学习（RLHF）或基于人工智能反馈的强化学习（RLAIF）中得出，其中模型经过人类或人工智能反馈训练，评估推理质量，为复杂任务提供细致的指导。

5.2.3 基础模型上的大规模 RL

大规模强化学习作为提升大型语言模型（LLM）推理能力的一种变革性后训练范式，已经崭露头角。这一方法将重点从传统的监督微调（SFT）转向动态、自我演化的优化策略。通过利用广泛的计算框架和基于奖励的迭代反馈，该方法能够直接精炼基础模型，无需预先标注的数据集，从而实现复杂推理技能的自主发展。通过整合大规模强化学习，LLMs可以解决复杂的多步推理任务（例如数学问题求解、逻辑演绎和战略规划），而传统SFT由于依赖静态、人工策划的数据往往难以胜任这些任务[45]。DeepSeek-R1 模型是这一范式的典型代表，它采用了先进的强化学习技术，在优化资源效率的同时实现了顶级的推理性能，如图13所示。本小节概述了支撑 DeepSeek-R1 成功的关键方法，包括新颖的优化算法、自适应探索和轨迹管理，这些共同重新定义了强化学习驱动的LLM推理潜力。

图13：DeepSeek-R1中推理强化学习的工作流程，说明了优化大型语言模型中推理能力的过程

组相对策略优化

DeepSeek-R1-Zero 模型利用了一种复杂的近端策略优化（PPO）变体，称为组相对策略优化（GRPO），以减轻传统强化学习训练中对大规模计算和资源的需求。与依赖于广泛批评网络的标准PPO不同，GRPO采用基于组的基线估计来简化优化过程，显著减少训练开销，同时保持策略更新的稳健性。这种效率使得在资源受限系统上部署大规模强化学习成为可能，促进跨长时间段的推理策略迭代优化。通过在可控计算范围内优化策略，GRPO使 DeepSeek-R1-Zero 成为增强推理能力的可扩展解决方案，如图13所示，使其成为当代强化学习驱动推理研究的基石。

DeepSeek-R1-Zero

DeepSeek-R1-Zero 展现了大规模强化学习在不依赖传统SFT作为初始步骤的情况下提升LLM推理能力的巨大潜力，而是采用纯强化学习驱动的自我演化范式。这种方法使模型能够通过奖励反馈迭代地优化其内部链式思维（CoT），从而自主发展复杂的推理技能，避免了SFT通常需要的预标注数据集。结果是在复杂的多步推理任务（例如数学问题求解和逻辑推导）中表现出显著的性能提升，展示了强化学习从基础模型中解锁高级推理能力的能力。作为最强大的开源推理模型之一，DeepSeek-R1-Zero 的成功证明了冷启动强化学习策略的可行性，提供了一种资源高效的替代传统训练管道的方法，同时达到了与顶级基准相当的水平。

分步奖励建模

为了引导轨迹上的推理，DeepSeek－R1采用了一个分步奖励模型，在每个时间步提供详细的反馈，定义为，其中包含带有步骤级正确性标签的人工标注CoT序列。这种密集的奖励结构与稀疏的序列末尾奖励形成对比，通过提供即时、可操作的关于单个推理步骤质量的见解，使模型能够精确地调整其策略。通过利用专家策划的数据，奖励模型确保反馈与人类推理标准一致，促进在扩展推理链中的连贯性和准确性，这是处理需要长时间逻辑合成的任务的关键特征。

自适应探索

DeepSeek-R1 通过集成自适应探索机制来增强策略优化，其目标函数如下：

其中熵项由一个自适应系数调制，根据轨迹上的奖励方差动态调整。这种方法平衡了探索和利用，鼓励模型在训练早期探索多样化的推理路径，随着方差减小逐渐收敛到最优策略，从而在推理优化中提高鲁棒性和效率。

轨迹剪枝

为了在推理过程中优化计算效率，DeepSeek－R1 实现了一个双注意力批评器，评估每个状态的局部步骤评估和全局轨迹上下文。当时，剪枝低价值的推理路径，集中资源于有前景的轨迹。这一机制减少了无效探索，加速了收玫，并确保模型优先考虑高质量的推理序列，从而在其复杂推理任务中表现出色。

5.2.4 冷启动推理强化学习

DeepSeek-R1-Zero 进一步推进了强化学习(RL)的应用，通过采用冷启动方法，放弃了监督微调(SFT)，完全依赖于从未经训练的基础模型进行大规模RL。这种自我进化策略通过迭代反馈来优化推理，生成强大的链式思维(CoT)序列，而无需依赖预标注数据。通过直接在推理任务上进行训练，DeepSeek-R1-Zero 展示了RL的灵活性，其性能可与使用SFT初始化的模型（如其DeepSeek-R1对等模型）相媲美甚至超越。这种方法不仅减少了对大量标注数据集的依赖，还展示了RL自主开发复杂推理能力的潜力，为未来的大型语言模型(LLM)发展提供了一个可扩展的范式。总体而言，RL为增强推理提供了一个有前景的框架，有效的奖励设计、策略优化（例如GRPO）和探索策略仍然是关键。未来的研究可以探索结合模仿学习或自监督目标的混合方法，以进一步完善这些能力，巩固RL在推进LLM推理中的作用。

六、PoLMs 效率

基于前几章讨论的后训练优化技术，后训练效率特别针对大型语言模型（LLMs）在初始预训练后的操作性能。主要目标是优化关键部署指标（例如处理速度、内存使用和资源消耗），从而使 LLMs 更适用于实际应用。实现后训练效率的方法主要分为三类：模型压缩(§6.1)，通过剪枝和量化等技术减少整体计算足迹；参数高效微调(§6.2)，仅更新模型的一部分参数或采用专用模块，从而最小化再训练成本并加速对新任务的适应；以及知识蒸馏(§6.3)，将较大预训练模型的知识转移到较小的模型上，使较小模型能够在减少资源需求的情况下实现相当的性能。

6.1 模型压缩

模型压缩包括一系列旨在减少大语言模型（LLMs）的大小和计算需求的技术，其中包括训练后量化、参数剪枝和低秩近似。

6.1.1 后训练量化

对于大语言模型（LLMs）而言，一种关键的压缩方法是量化，它将高精度数据类型（30位浮点数）转换为低精度格式（8位整数）［201］。这种转换可以表示为：

其中表示量化常数，absmax 指的是元素的最大绝对值。函数 Round 将浮点数转换为整数。大语言模型的量化包括训练后量化（PTQ）和量化感知训练（QAT）。PTQ 使模型权重和激活在预训练后进行调整，使用一个小的校准数据集来优化计算效率和性能，如图14所示。此外，表5列出了几种主要的大语言模型量化方法的性能指标。

图14：大语言模型训练后量化技术的示意图

表5：大型语言模型量化方法概述（2021-2025）。此表总结了代表性的量化技术，详细介绍了它们的主要LLM、位宽、困惑度差异、加速和三个指标的发布时间线：位宽（权重、激活和KV缓存的位）、困惑度差（Wikitext-2和C4数据集的性能变化）和加速（相对于基线模型的计算速度提高）

仅权重量化（WOQ）。WOQ 专注于压缩模型权重以提高效率。GPTQ [230] 使用逐层量化和最优大脑量化（Optimal Brain Quantization, OBQ），将权重减少到3或4位，以降低内存使用和处理时间。为了进一步提高效率，QuIP [203] 引入了不一致性处理，实现2位量化，提供更紧凑的表示。同样，AWQ [204] 和 OWQ [205] 通过保持对特别敏感权重的高精度，来最小化推理过程中的潜在精度损失。最后，SpQR [201] 结合稀疏量化和解码，实现在保持模型响应性的前提下高效地逐令牌推理。

权重-激活共量化（WAQ）。WAQ 将权重和激活集成在一起以提高效率。LLM.int8() [214] 通过精确存储解决激活异常值问题，并量化为8位，同时保持性能。Smooth Quant [218] 实现每通道缩放，将量化难题从激活转移到权重，实现无损结果。此外， OS+ [219] 通过通道级移位和缩放减轻异常值的影响，从而提高效率。OmniQuant [220] 将量化难题从激活转移到权重，并微调极端值的裁剪阈值。为了进一步提高效率，RPTQ [231] 对相似通道进行分组，确保量化参数的一致性。

键值缓存量化（KVQ）。键值缓存量化解决了大语言模型中输入令牌数量增加带来的内存优化挑战。KVQuant [224] 引入了针对长上下文长度高效推理的定制方法，保持性能的同时最小化损失。KIVI [228] 通过应用不同的量化策略来优化键和值缓存的内存节省，实现2位量化而无需微调。WKVQuant [225] 进一步改进了这一点，采用了二维量化策略和跨块正则化，实现了与权重-激活量化相当的内存效率，且性能几乎相同。

6.1.2 参数剪枝

参数剪枝[232]是提高大语言模型（LLMs）效率的关键技术，通过最小化模型大小和复杂度而不牺牲精度。如图15所示，剪枝可以分为非结构化剪枝和结构化剪枝。

图16：参数高效微调（PEFT）的说明，说明了大型语言模型中资源高效适应的方法

非结构化剪枝

非结构化剪枝通过消除不重要的权重来增强大语言模型的稀疏性。已知的方法SparseGPT[230]通过一次剪枝实现了高达 60% 的稀疏性，同时保持最小的损失。Wanda[233]基于权重大小和激活值进行剪枝，无需重新训练。与此同时，SAMSP[234]利用Hessian矩阵的敏感性进行动态调整稀疏性，旨在最小化误差。DSnoT[235]通过使用迭代剪枝周期提高了性能。最后，Flash-LLM[236]从全局内存中检索稀疏权重，并在芯片上的缓冲区中重建为密集形式，以促进高效计算。

结构化剪枝

这种方法侧重于修剪大语言模型中的整个参数组，以提高硬件效率并简化结构。例如，LLM-runer[237]评估了LLaMA[65]的重要性，并使用LoRA[92]在剪枝后恢复精度。FLAP[238]使用结构化指标优化压缩，无需微调。此外，SliceGPT[239]使用PCA进行剪枝，同时保持效率。Sheared LLaMA[240]通过基于正则化的剪枝优化模型形状。LoRAPrune[241]通过基于LoRA重要性的迭代结构化剪枝提高效率。此外，Deja Vu[242]通过预测关键注意力头和MLP参数，使用上下文稀疏性减少延迟，同时保持精度。

低秩近似

低秩近似通过将权重矩阵近似为较小的矩阵和，即，从而压缩大语言模型。这种方法不仅减少了参数数量，还提高了操作效率。例如，TensorGPT[243]使用张量列车分解（Tensor-Train Decomposition, TTD）开发了更高效的嵌入格式。LoSparse[244]将低秩近似与剪枝结合，特别针对压缩连贯神经元组件。FWSVD[245]实现了一种加权SVD方法，而ASVD[246]提供了一种无训练的SVD替代方案，两者均针对训练后的效率。最后，SVD-LLM[247]通过建立奇异值与压缩损失之间的直接关系进一步改进了压缩效果。

6.2 参数高效微调

参数高效微调(PEFT)的过程包括冻结完整的LLM主干，同时仅修改少量新增的参数。如图16所示，PEFT方法分为四类：加法PEFT、选择性PEFT、重参数化PEFT和混合PEFT。

6.2.1 加性 PEFT

加法式参数高效微调（Additive PEFT）在大型语言模型（LLM）中引入新的可训练模块，而不改变原有参数，从而实现在保留基础模型知识的同时进行特定任务的调整，这对于微调来说非常高效。

图16：参数高效微调（PEFT）的插图，展示了大型语言模型中资源高效的适应方法。

适配器（Adapters）。 适配器在变压器块内集成紧凑层，定义为：

其中，是下投影矩阵，是非线性激活函数，是上投影矩阵。这里，是隐藏层维度，是瓶颈维度，通过减少复杂度同时保持性能。基于这种结构，Serial Adapter［248］在每个变压器块中引入了两个模块。Adapter Fusion［249］通过在 Add \＆Norm 之后放置适配器来提高效率。Parallel Adapter（PA）［250］并行运行适配器和子层，而 CoDA［251］通过并行运行适配器和子层来优化性能。与 Adapter Fusion 不同，MerA ［252］使用最优传输技术统一适配器的权重和激活。

软提示（Soft Prompt）。软提示通过在输入序列中添加可调向量而不是优化离散令牌来增强模型性能 [253]。这种方法的形式化表示为：

其中，表示软提示令牌，表示原始输入令牌。和分别是软提示和原始输入令牌的数量。Prefix Tuning［254］在变压器层之间引入可学习向量，并通过重新参数化和 P－Tuning v2［99］及 APT［255］进行优化。与此同时，Prompt Tuning［44］专注于初始嵌入层，以低计算成本优化大型模型。Xprompt［256］和 IDPG［257］简化了提示生成和插入。 SPoT［258］和 PTP［259］解决了稳定性和收敛速度问题，而 DePT［260］和 SMoP［261］通过优化提示结构减少了计算需求。

其他加法式方法。除了早期的技术，诸如（LA）［262］和 SSF［263］等方法通过引入最小但强大的模型参数调整来关注训练后的效率。自注意力和前馈网络（FFN）操作在数学上定义为：

其中，表示哈达玛积，尺度向量和可以平滑地融入和的权重矩阵中。此外，IPA［264］使像 GPT－4 这样的大型语言模型与用户特定需求对齐。此外，它不需要对底层模型进行更改，因此在微调过程中保持了效率。

6.2.2 选择式 PEFT

选择性参数高效微调（Selective PEFT）通过仅对参数的一个子集进行微调来提高效率，如图 16（b）所示。这涉及到将一个二元掩码应用到参数上，其中每个表示是否被选中进行微调。更新后的参数集表示为：

其中 leta 是学习率，是损失函数的梯度。只有被选中的参数（即）会被更新，从而在保持效果的同时减少计算成本。早期的方法包括差分剪枝（Diff pruning）［265］，该方法使用可微的－范数对可学习的二元掩码进行正则化；以及 FishMask［266］，该方法基于 Fisher 信息选择参数以提高相关性。LT－SFT［267］应用了彩票假设（Lottery Ticket Hypothesis）来识别重要的参数。SAM［268］使用二阶近似进行选择，而 Child－tuning ［269］在子网络中动态选择参数。此外，FAR［270］和 BitFit［271］进一步展示了选择性参数高效微调（Selective PEFT），通过专注于优化特定的参数组。

6.2.3 重参数 PEFT

重新参数化的PEFT（Parameter－Efficient Fine－Tuning）主要采用低秩参数化来提高效率，如图16（c）所示。LoRA（低秩适应）［92］引入了两个可训练矩阵，和，修改输出为：

其中是一个缩放因子。这种方法允许在保持核心知识的同时高效地适应新任务。基于LoRA，Intrinsic SAID [272] 最小化微调参数空间，进一步减少计算需求。动态变体包括DyLoRA [273] 和AdaLoRA [274]，根据特定任务的需求动态调整秩，而AdaLoRA还结合了基于SVD的剪枝以提高效率。SoRA [275] 通过去除正交性约束简化过程，Laplace-LoRA [276] 应用贝叶斯校准进行微调。Compacter [277] 和VeRA [278] 进一步减少了参数复杂度。此外，DoRA [279] 在方向分量中优化更新，HiRA [280] 使用Hadamard积进行高秩更新，从而提高了效率和性能。为了处理多个任务和不断变化的领域，Terra [281] 集成了一个时变矩阵，ToRA [282] 利用Tucker分解进一步改进LoRA结构。除了结构设计，PiSSA [283] 和LoRA-GA [284] 使用SVD和梯度对齐优化LoRA的初始化。同时， [285]、LoRA-Pro [286] 和CopRA [287] 进一步细化了梯度更新策略。此外，ComLoRA [288] 采用竞争学习选择表现最佳的LoRA组件。

6.2.4 混合 PEFT

混合 PEFT 方法通过整合或优化各种微调策略来提高训练后效率。一种突出的技术是 UniPELT [289]，它在变压器块中集成了 LoRA、前缀调优和适配器。该方法通过由前馈网络 (FFNs) 管理的门控机制动态激活组件，这些 FFNs 生成标量，最终优化参数利用。另一种创新方法是 MAM Adapter [250]，它通过在自注意力层中战略性地定位前缀调优，并在前馈层中使用缩放并行适配器来改进这一技术。此外，基于 NAS 的方法如 NOAH [290] 和 AUTOPEFT [291] 通过识别特定任务的最佳 PEFT 配置来提高训练后效率。HeadMap [292] 使用贪婪方法识别一系列在某些任务中起关键作用的注意力头（即知识电路），并通过将这些注意力头的输出映射回 LLM 的残差流中，高效地提升模型性能。最后，LLM-Adapters [293] 提供了一个框架，用于在 LLM 中集成各种 PEFT 技术，确保最有效的模块放置以维持不同模型规模下的效率。

6.3 知识蒸馏

知识蒸馏(KD)是大型语言模型(LLM)后训练优化中的关键技术，能够将大型预训练教师模型的知识转移到紧凑的学生模型中，从而提高效率而不牺牲性能。最初在模型压缩背景下提出，KD因其能够将复杂知识提炼到资源高效的架构中而受到广泛关注，使得其能够在边缘设备和嵌入式系统等受限制环境中部署。通过利用教师模型的细腻输出分布——比传统的硬标签更丰富——KD使学生不仅能够复制类别预测，还能复制类间关系和教师表示中固有的细微模式。这一过程通常涉及优化一个复合损失函数，该函数平衡监督学习目标与蒸馏特定目标，显著减少计算和内存需求，同时保持泛化能力。

KD的基本机制在于最小化一个混合损失，该损失集成了传统分类损失与蒸馏项。形式上，给定教师模型的软输出概率和学生模型的预测，以及真实标签和学生输出，KD损失表示为：

其中表示捕捉与真实标签对齐的交叉熵损失，表示测量教师和学生分布之间差异的Kullback－Leibler散度［294］，是一个调节目标的超参数。软目标通常由温度参数调整（即，其中是教师的logits），编码了更丰富的概率信息，使学生能够模拟教师的决策细微之处，而不仅仅是标签准确性。

KD广泛用于资源受限环境下的模型压缩和迁移学习，其中预训练的教师指导特定任务的学生。其有效性取决于教师容量、学生架构和蒸馏损失设计等因素。最近的进展将KD扩展到输出蒸馏之外，使得在后训练优化中实现更高效和适应性强的LLM。根据对教师模型内部参数和中间表示的访问程度，KD方法大致可以分为黑盒KD和白盒KD。

表6：大型语言模型(2020–2025年)知识蒸馏方法总结。此表概述了关键的蒸馏技术，详细列出了它们的技能、教师和学生模型、目标及发布时间线，并按黑盒KD（访问限于教师输出，通常来自闭源LLM）和白盒KD（访问教师参数或分布，通常来自开源LLM）分类。指标包括IF（指令跟随）、CoT（链式思维）、ICL（上下文学习）、SFT（监督微调）、D&S（差异与相似性）、RL（强化学习）、TP（思考模式）、NLU（自然语言理解）和NLG（自然语言生成）。

表6：大型语言模型的知识提炼方法总结（2020-2025）。本表概述了关键的蒸馏技术，详细介绍了它们的技能、教师和学生模型、目标和发布时间表，分为黑盒KD（仅限于教师输出，通常来自闭源LLM）和白盒KD（通常来自开源LLM，访问教师参数或分布版）。指标包括IF（指令遵循）、CoT（思维链）、ICL（情境学习

如表6所示，知识蒸馏方法大致可以分为两类：黑盒KD和白盒KD。我们提供了各种大型语言模型(LLMs)中的知识蒸馏技术的系统总结，以及它们相应的技能、教师模型和学生模型。

黑盒KD

黑盒KD是指学生模型仅从教师的输出logits学习，而无法访问其内部表示或架构细节的情况。这种方法最初由Hinton[321]提出，符合经典的KD范式，由于其灵活性而被广泛采用。黑盒KD的一个关键优势是将教师模型视为不透明函数，即使教师是一个专有或预训练模型且访问受限，也能实现知识转移。实际上，大型教师LLM（如ChatGPT和GPT-4[9]）通常用于生成高质量输出。与此同时，较小的语言模型(SLM)，包括GPT-2[14]、T5[322]、Flan-T5[323]和CodeT5[324]，作为学生模型。这些SLM经过优化以提高效率，同时保持强大的泛化能力，使其适合在资源受限环境中部署。

白盒KD

白盒KD通过利用教师模型的内部表示，扩展了传统的蒸馏范式。当教师模型的架构已知且可访问时，这种方法是有益的，允许进行更丰富的监督形式。与将教师视为不透明函数的黑盒KD不同，白盒KD允许学生模型不仅从教师的输出logits学习，还可以从中间激活、隐藏层甚至注意权重[325]学习。

DeepSeek-R1：推理模式的直接蒸馏

DeepSeek-R1展示了KD通过将大规模模型中的复杂推理模式蒸馏到紧凑架构中，显著增强了小型LLM的推理能力，而无需承担直接在这些模型上进行强化学习(RL)的计算负担。这种方法称为直接蒸馏，利用由大型教师模型生成的大约80万样本的精心策划数据集，其中包括从DeepSeek-V3派生的20万非推理实例和由DeepSeek-R1-Stage1检查点生成的60万推理实例。这些样本构成了应用于开源基础模型（如Qwen和LLaMA的小型变体）的SFT的基础，使学生模型能够继承通常为其较大对应物保留的复杂推理能力。

图17：DeepSeek-R1中的知识蒸馏工作流程，展示了从大型模型到紧凑模型的推理模式转移过程

DeepSeek-R1中的直接蒸馏过程如图17所示，展开在一个结构化的管道中。最初，教师模型——在大量数据集上预训练——生成一个包含推理和非推理输出的多样化语料库，捕捉逻辑模式和事实知识的谱系。非推理数据（约20万样本）提供了一般知识的基线，而推理数据（约60万样本）封装了多步推理链，通过教师的高级功能进行了细化。然后，在SFT阶段使用该数据集，学生模型在此过程中被训练以使其输出分布与教师对齐，使用推理数据直接微调较小模型以蒸馏出紧凑的推理模型。与直接应用于小模型的传统RL不同，后者可能因容量有限而导致次优推理，DeepSeek-R1的直接蒸馏通过转移预先优化的推理行为，克服了这些限制，实现了更高的性能并减少了资源需求。

DeepSeek-R1的KD方法的一个显著特点是强调在不同模型规模下保持推理完整性。通过集成从DeepSeek-R1-Stage1——通过大规模RL精炼的检查点——提取的推理轨迹，学生模型不仅复制了事实准确性，还模拟了复杂的推理过程，例如数学问题解决或逻辑演绎所需的推理过程。这种有针对性的转移与传统的KD形成对比，后者通常优先考虑分类任务，突显了DeepSeek-R1在面向推理的蒸馏方面的创新。此外，该方法减少了对学生进行大量RL迭代的需求，利用教师预先计算的推理输出简化训练，从而提高效率和可扩展性。这一方法论将DeepSeek-R1定位为将高级推理蒸馏到紧凑LLM的典范，为未来的后训练优化工作提供了蓝图。

七、PoLMs 集成和适配

集成和适应技术对于增强大语言模型（LLMs）在各种实际应用中的灵活性和有效性至关重要。这些方法使 LLMs 能够无缝处理异构数据类型，适应特定领域，并利用多种架构优势，从而应对复杂、多方面的挑战。本章详细介绍了三种主要策略：多模态集成 (\S7.1) ，使模型能够处理文本、图像和音频等不同的数据模态；领域适应 (\S7.2) ，对模型进行优化以适用于特定行业或用例；以及模型合并 (§7.3)，将不同模型的能力融合在一起以优化整体性能。总体而言，这些方法增强了 LLMs 的适应性、效率和鲁棒性，拓宽了它们在不同任务和场景中的应用范围。

图18：多模态集成中模态连接方法的分类，包括基于投影、基于查询和基于融合的方法

7.1 多模态集成

在前几章阐述的后训练优化策略基础上，本节探讨旨在增强大型语言模型（LLMs）和大型多模态模型（LMMs）有效处理多模态数据的高级方法。虽然监督微调提高了LLMs在特定任务上下文中的能力，但其在充分利用多模态能力方面的局限性需要更复杂的后训练方法。这些技术通过将不同数据类型整合到统一框架中，使LMMs能够应对复杂的跨模态任务（例如，从视觉输入生成网页代码[326]、解释复杂的文化符号如表情包[327]以及在不依赖光学字符识别的情况下进行数学推理[50]）。通常，LMMs包括一个模态编码器、预训练的LLM主干和一个模态连接器[328]，如图18所示。这种架构构成了后训练方法的基础，这些方法通过优化每个组件，促进稳健的多模态集成和性能提升。

7.1.1 模态连接

模态连接方法在将多模态数据综合成一个连贯的表示框架中起着关键作用，可以分为三种主要策略：基于投影的方法、基于查询的方法和基于融合的方法[328]，如图19所示。

图19：多模态集成中模态连接方法的分类，包括基于投影、基于查询和基于融合的方法

基于投影的模态连接

基于投影的方法将不同的模态输入转换为统一的文本嵌入空间，使它们的特征与大语言模型（LLMs）的语言维度对齐，实现无缝集成。LLaMA-Adapter[329]通过引入图像编码器，将LLMs扩展到多模态系统中，实现了图像条件下的指令跟踪。其后续版本LLaMA-Adapter V2[330]通过将视觉标签嵌入到早期LLM层中，进一步改进了这一过程，促进了视觉知识的更好吸收。FROMAGe[331]通过对冻结的LLM和视觉编码器框架中的输入和输出层进行微调，实现了跨模态交互，而LLaVA-1.5[332]则利用双线性多层感知机（MLP）增强了多模态处理的鲁棒性。最近的发展，如Shikra[333]，通过整合空间坐标来增强自然语言对话，而VILA[334]优化了视觉-语言预训练，以实现卓越的零样本能力。DetGPT[335]通过将推理驱动的对象检测与自然语言交互相结合，进一步推进了这一范式，利用投影技术促进了有效的多模态通信。SOLO[336]使用单一的Transformer架构进行统一和端到端的视觉-语言建模，接受原始图像块（以像素形式）和文本作为输入，而无需使用单独的预训练视觉编码器。MiniGPT-4[326]通过单个投影层将冻结的视觉编码器与Vicuna对齐，实现了类似GPT-4的能力，并采用了两阶段训练过程。Idefics[337]凭借自回归设计和多阶段预训练，在高效推理方面表现出色。LaVIT[338]通过离散视觉分词器统一了视觉和语言，实现了无缝生成。DeepSeek-VL2[339]通过动态平铺和多头潜在注意力增强了高分辨率图像理解。最后，Qwen2.5-VL[340]通过重新设计的视觉Transformer，提高了多模态任务的性能，在感知和视频理解方面表现出色。

基于查询的模态连接

基于查询的方法通过使用可学习的查询令牌从不同模态中提取结构化信息，弥合文本和非文本数据之间的差距，从而增强多模态集成。BLIP-2[52]率先采用了查询Transformer，实现了文本和视觉输入的有效集成。Video-LLaMA[341]通过组合视觉编码器将这一技术扩展到视频理解，而Instruct BLIP[342]通过改进查询机制确保了对指令的精确遵循。X-LLM[343]通过专用接口对齐多模态输入，而随后的创新如mPLUG-Owl[344]和Qwen-VL[345]优化了Q-Former架构以提高计算效率。LION[346]进一步展示了基于查询方法的有效性，通过提升视觉知识集成，强调了其在各种任务中增强LMM性能的实用性。Qwen-VL[345]是一系列大规模视觉-语言模型，基于Qwen-7B构建，集成了视觉接收器、位置感知适配器和三阶段训练管道，实现了多语言、细粒度的视觉-语言理解。Lyrics[347]是一个细粒度的视觉-语言预训练和指令微调框架，通过视觉细化器（图像标注、对象检测和语义分割）和多尺度查询Transformer（MQ-Former），增强了大型视觉-语言模型（LVLMs）的功能。

基于融合的模态连接

基于融合的技术通过直接将多模态特征嵌入到LLM架构中，加深了跨模态交互，促进了推理层面更丰富的集成。Flamingo[51]通过交叉注意力层在标记预测过程中融合视觉特征，实现了动态多模态处理。Open Flamingo[348]在此基础上，允许冻结的LLMs关注视觉编码器的输出，增强了灵活性。Otter[349]引入了指令调优，以改善多模态指令的遵循，而CogVLM[350]通过在Transformer层中集成视觉专家模块，实现了无缝特征合成。Obelics[351]利用交错的图像-文本训练数据，突显了基于融合的方法在实现连贯多模态性能方面的稳健性。InternVL[352]是一个大规模的视觉-语言基础模型，将视觉编码器扩展到60亿参数，并通过语言中间件（QLLaMA）逐步与LLMs对齐。Llama 3[25]是Meta开发的一系列多语言、工具使用的基础模型，参数规模达到4050亿，具有128K标记上下文窗口，通过改进的数据质量、更大规模的训练和结构化的后训练策略进行了优化。

表7：2022-2025年各模态编码器和大规模多模态模型概览。该表总结了关键的多模态模型，详细列出了它们的编码器类别、大小、输入投影器、LLM骨干和发布时间线，涵盖了视觉、音频和其他模态。指标包括C-a（交叉注意力）、Q-F（Q-Former）、MQ-F（多查询Q-Former）和LP（线性投影器），代表输入投影机制。

7.1.2 模态编码器

模态编码器将原始多模态输入压缩成紧凑且语义丰富的表示，使各种任务和模态的处理更加高效。这些组件对于将异构数据转换为与大语言模型（LLM）主干兼容的格式至关重要，支持从视觉推理到音频理解的各种应用。表7提供了在视觉、音频及其他模态中广泛使用的编码器的全面总结，详细描述了它们的特点及其对多模态集成的贡献。

视觉编码器

视觉编码器是多模态学习的基础，有助于在大规模多模态模型（LMMs）中解释和生成视觉数据。CLIP [372] 通过对比学习建立了图像-文本的联合表示，增强了跨模态对齐。EVA [373] 优化了视觉注意力机制，提高了效率；而 ImageBind [374] 创建了一个统一的嵌入空间，跨越多个模态，提升了零样本识别能力。SigLIP [375] 引入了一种配对的Sigmoid损失来优化图像-文本预训练，DINOv2 [376] 则利用无监督学习从多样化的来源中提取鲁棒的视觉特征。LLaVA [53] 采用自指导策略将图像转换为文本描述，使用先进的大语言模型生成新的数据集。Video-ChatGPT [354] 支持大规模指令数据集下的对话视频理解，BT-Adapter [355] 通过高效的时序建模优化了视频理解。VideoChat [353] 专注于时空推理，利用专门的数据集和模型，如 CoDi-2 [369] 和 Mipha [358]，在多模态处理中实现了效率提升。VL-Mamba [357] 和 Cobra [359] 引入了状态空间模型以优化推理，SPHINX-Tiny [356] 则强调数据多样性和训练效率。

音频编码器

音频编码器增强了大规模多模态模型（LMMs）处理和解释听觉输入的能力，扩展了其多模态范围。SpeechGPT [364] 将大规模语音数据集与卷积和变换器架构 [377] 结合，实现了强大的指令跟随能力。AudioPaLM [363] 结合了文本和语音处理，使用通用语音模型（USM）编码器 [378]，在零样本语言翻译等任务中表现出色。WavCaps [379] 使用 CNN14 [380] 和 HTSAT [381] 来缓解音频-语言数据的稀缺问题，利用先进的大语言模型改进数据集质量和增强学习效果，突显了音频模态在多模态系统中的关键作用。

其他编码器

除了视觉和音频，其他模态的编码器，如3D理解和多模态融合，也是全面的大规模多模态模型（LMMs）的重要组成部分。NEXT-GPT [368] 促进了文本、图像、视频和音频之间的跨模态内容生成，通过最小的参数调整推进了类人AI能力的发展。ImageBind-LLM [366] 对齐了视觉和语言嵌入，以提高跨模态的指令跟随能力。LL3DA [370] 处理点云数据，用于3D推理和规划，引入了新的空间理解方法。X-LLM [343] 使用 Q-Former [52] 处理图像和视频输入，使用 C-Former [343] 处理语音，将音频特征压缩成词级别的嵌入，以提高多模态学习的效率。

7.2 领域适配

领域适应（DA）是优化大型语言模型（LLMs）以在特定领域内表现出色的关键后训练策略，确保其在目标应用中的有效性。基于迁移学习［382，383］的原则，DA通过适应函数将初始模型转换为领域特定模型，如图所示：

这一过程使能够应对指定领域的独特需求和复杂性，从而优化其性能和相关性。通过提高LLMs在编程[384, 385]和数学推理[386]等领域的熟练度，DA不仅提升了领域特定能力，还提高了计算效率，缓解了通用模型在处理领域特定术语和推理范式时的局限性。此外，DA显著减少了从头开始训练领域特定模型通常所需的大量标注数据集和计算资源[387]，使其成为后训练方法的核心。

7.2.1 知识编辑

知识编辑代表了一种复杂的后训练方法，旨在修改大语言模型（LLMs）以满足特定领域的需求，同时不损害其基础能力。该技术促进了目标参数调整，保留了模型的现有性能，同时整合了新的或更新的领域知识[388]。通过实现对不断变化的知识景观的快速适应，知识编辑成为了后训练管道中不可或缺的组成部分。表8展示了主要方法的概述（例如，包括外部知识利用、集成和内在编辑）。

表8：在LLMs中进行知识编辑的代表性方法的比较分析。编辑区域指定了模型中要修改的组件；编辑器参数数表示编辑过程中需要更新的参数。表示受修改影响的层数，表示变压器架构中隐藏层的维度，指的是上投影和下投影阶段之间的中间维度，表示每层中需要更新的神经元总数。

知识编辑的形式定义。 考虑一个由参数化的原始LLM，预先在数据集上训练。令表示包含新或更新的信息的数据集。知识编辑的目标是通过应用调整来推导出修订后的参数集，有效地同化同时最小化对的退化。正式地，这被表述为一个约束优化问题，其中更新后的参数定义为：

其中表示评估模型在上质量的损失函数（例如，交叉熵）。为了保护在原始数据集上的性能，施加了一个约束：

其中是一个小的正常数，限制在上的性能损失。这种公式确保了同化了同时保留了模型的先前知识库。实际上，可能被限制在特定的架构组件（例如，注意力层（Attn）或前馈网络（FFN）），减少了计算开销并避免了全面重新训练，从而保留核心功能。

知识识别。知识编辑的初始阶段集中在检测并将新信息融入模型。PokeMQA [390] 使用可编程范围检测器和知识提示来解析查询，高效检索相关事实。相反，SERAC [389] 集成了反事实模型和分类器来确定新知识源的适用性，提供了一种最小侵入的方法，无需广泛的结构修改即可保留基础模型的完整性。[406] 分析了为什么LLM知识更新会创建混乱的连锁反应。现实世界中的编辑通常源自新兴事件，这些事件涵盖了新事实与过去事实之间的逻辑联系。基于这一观察，EvEdit [407] 提出了一种基于事件的知识编辑方法，用于确定知识锚点和知识更新边界。

知识关联。在识别之后，这一阶段将新获取的信息与模型现有的知识框架关联起来。Transformer-Patcher [392] 适应变压器架构以整合更新的事实，而CaliNET [391] 重新校准参数以与事实内容对齐。诸如Eva-KELLM [395]、MELO [396] 和REMEDI [393] 等方法精炼特定行为以进行精确更新，GRACE [394] 在知识插入后增强预测准确性，确保与先前表示的无缝集成。

内在知识编辑。最后阶段将关联的事实嵌入模型的内部结构，确保全面同化。虽然传统的微调可能资源密集，但先进的技术减轻了这一负担。约束微调 [397] 和元学习 [399] 最小化了知识损失和过拟合风险。可编辑训练 [398] 和知识编辑器 [399] 能够迅速调整参数，同时最小化性能影响，而SLAG [400]、MEND [401] 和MALMEN [402] 解决编辑冲突并支持大规模更新，同时保持基础能力并纳入新的领域见解。LLM Surgery [403] 通过应用逆梯度移除过时数据、梯度下降整合新事实，并引入KL散度项以保留现有知识，实现了显著的计算效率。KNE [404] 引入了一种知识神经元集合方法，该方法仅定位和更新与新插入事实强烈相关的神经元，实现更准确的编辑同时保留无关知识。OVERTONE [405] 通过引入一种逐词平滑技术解决知识编辑中的异构词过拟合问题，自适应地细化训练目标，从而保留预训练知识并提高模型对新插入事实的推理能力。这些有针对性的技术确保了模型在整合新获取信息的同时保留其基础能力。

7.2.2 检索增强生成

检索增强生成(Retrieval-Augmented Generation, RAG)将传统信息检索与现代大语言模型(LLMs)结合，以提高生成输出的相关性和事实准确性[48, 408, 409]。通过动态地从外部源检索相关信息并将其嵌入生成过程，RAG解决了LLMs在特定领域知识上的不足，并减少了生成幻觉内容的倾向。这种方法在需要精确、最新信息的领域特别有效，例如问答系统[48]、科学研究[410]和医疗保健[411]，这些领域能够处理复杂的查询和知识密集型任务。此外，RAG减少了对话系统中误导性响应的频率，提高了基于知识的自然语言生成的保真度[411, 412]。

本小节重点介绍基于训练的RAG方法[413]，认识到无训练的RAG方法[414, 415, 416]可能因缺乏任务特定优化而影响知识利用效率。三种主要的训练策略——独立训练(Independent Training)、顺序训练(Sequential Training)和联合训练(Joint Training)——增强了模型的适应性和集成能力，如图20所示。

独立训练

该策略将检索器和生成器作为独立模块进行训练，使根据任务需求灵活使用稀疏或密集检索器成为可能。例如，DPR[417]使用双BERT网络分别对查询和段落进行编码，通过对比学习优化检索，而不涉及生成器的交互。同样，[418]提出了Reward-RAG，利用奖励模型根据GPT反馈仅微调检索器，而不改变生成器。

顺序训练

顺序训练通过一次优化一个模块来提高效率，促进检索器和生成器之间的协同作用。它包括检索器优先方法[419, 420, 421, 422, 423]，

图20: 检索增强生成(RAG)训练方法的分类，包括独立训练、顺序训练和联合训练策略

如RETRO[424]，它首先预训练一个基于BERT的检索器，然后训练一个编码器-解码器以无缝集成检索到的内容，从而提高性能。另一种方法是语言模型优先方法[425, 426, 427]，如RA-DIT[428]，首先微调语言模型以有效利用检索到的知识，然后再优化检索器以实现更好的对齐和连贯性[419, 425]。

联合训练

联合训练在一个端到端框架中同步优化检索器和生成器。RAG[48]通过最小化负对数似然来共同训练这两个组件，而REALM[429]则通过最大内积搜索(MIPS)[430]提高检索精度。这些方法适应特定任务的需求，最大化外部知识的好处，同时最小化生成错误。

7.3 模型合并

模型合并已成为提高大语言模型（LLM）在训练和推理阶段性能和效率的重要后训练策略[431, 432]。这种方法将专门化的模型整合到一个统一的架构中，避免了大量重新训练的需求，并解决了大型模型尺寸和计算需求带来的挑战。与在混合数据集上进行训练不同，模型合并将单任务模型整合为一个多任务能力的协调实体，提供了一种资源高效的多任务学习范式。通过简化训练管道并促进在各种应用中具有强大泛化能力的多功能模型的开发，该技术优化了LLM在不同场景中的部署。

给定一组候选模型，目标是设计一个合并函数，生成一个统一模型，可能以基础模型为针点，如图所示：

7.3.1 分层模型合并

模型融合技术被系统地划分为三个层次——权重级、输出级和模型级融合——如图21所示。

图21: 模型融合技术的分类，展示了包括权重级、输出级和模型级方法在内的层次结构，适用于大型语言模型

权重级模型融合

权重级融合直接操作参数空间，对于具有相似架构或在相关任务上训练的模型特别有效。形式上，给定参数集，线性融合方案将这些参数集聚合为统一的集合，表示为：

Model Soup [433, 434] 通过线性组合在不同任务上微调的模型权重，生成一个单一且高效的模型，体现了这一点。Task Arithmetic (TA) [435] 通过参数的算术运算扩展了这种灵活性，提高了性能适应性。为了缓解对齐问题，TIESmerging [436] 确保参数的一致性，而 DARE [437] 通过概率调整参数增量来最小化干扰，优化融合过程的连贯性和效率。

输出级模型融合

当模型在架构或初始化上存在差异，使得权重级方法不切实际时，输出级融合变得有利。这种方法聚合输出分布而非内部参数，表示为：

其中和分别代表来自模型和的概率分布。类似于集成策略，此方法将模型预测综合为统一输出。LLMBlender [438] 通过生成独立输出并使用排名和生成过程进行融合来实现这一点，而 FuseLLM [439] 将组合输出概率蒸馏到单个网络中以保持分布的保真度。FuseChat [440] 通过将多个大型语言模型的知识转移到一个整合的目标模型中，结合了权重级和输出级融合，增强了跨模型的协同效应。

模型级模型融合

模型级融合通过路由机制整合子模型或层，通常在混合专家（MoE）框架内实现，表示为：

其中 Merge 表示硬路由或软路由函数。Switch Transformer [54] 通过离散门控选择性激活专家层，减少了计算负载，但可能因刚性路由而导致性能折衷。SoftMoE [441] 和 SMEAR [442] 利用连续门控促进专家之间的平滑过渡，增强组件集成和模型一致性。

7.3.2 预合并方法

预合并方法通过优化独立模型的权重空间、架构一致性及参数对齐，为模型合并建立兼容基础，从而减少后续融合阶段中的冲突和干扰。这些技术提高了合并过程的有效性，确保最终统一的模型保留其组成部分的优势，同时减轻潜在的性能下降。

线性化微调。这种方法在预训练模型的切线空间内精炼模型，避免使用原始的非线性参数空间以实现权重解耦，从而减少合并过程中的干扰。例如，部分适配器的线性化（如TAFT [443]）或注意力层 [444] 将权重更新对齐到不相交的输入区域，保持合并模型中的独立功能 [445]。通过将更新限制在线性框架内，该方法促进了不同模型之间的无缝集成。

架构转换。这种策略将具有不同架构的异构模型转换为适合直接参数合并的同质形式。方法包括知识蒸馏，如FuseChat [440] 所示，以及身份层插入，如CLAFusion [446]。GAN Cocktail [447] 初始化目标模型以吸收来自不同架构的输出，实现有效桥接结构差异的统一合并过程。

权重对齐。此方法通过置换将模型对齐到共享的权重盆地，利用线性模式连通性（LMC）属性增强兼容性。技术包括最优传输（OTFusion [448]）、启发式匹配（Git re-basin [449]）和基于学习的对齐（DeepAlign [450]）。REPAIR [451] 减轻了缺乏归一化层的模型中的对齐失败，确保在融合前实现稳健的参数收敛。

7.3.3 合并中方法

在合并过程中，动态优化参数融合策略的方法旨在解决任务冲突，减轻干扰，并提升合并后模型的性能和泛化能力。这些方法应对实时整合不同模型的挑战，增强统一架构的适应性和鲁棒性。

基本合并

该方法利用简单的参数平均或任务向量算术，定义任务向量为第个任务微调后的参数与初始预训练参数之间的偏差：

并通过以下公式促进多任务学习：

虽然计算效率高且概念简洁，但这种方法通常会遇到未缓解的参数交互导致的任务干扰，限制了其在需要复杂任务协调场景中的实用性。

加权合并

该策略根据各个模型的重要性动态分配合并系数，调整贡献以优化融合结果。MetaGPT [452] 通过归一化每个任务向量的平方 L2 范数来计算最优权重：

从而赋予具有较大参数变化的任务更大的影响，如较高的所示。SLERP [432] 使用球面插值确保平滑的参数过渡，保持模型连续性，而 Layer-wise AdaMerging [453] 通过逐层优化系数来改进这一过程，提高合并架构中任务特定的精度。

子空间合并

该方法将模型参数投影到稀疏子空间，以最小化干扰并保持计算效率，解决参数贡献的重叠问题。TIESMerging [436] 保留按大小排序的前 20% 的参数，解决符号冲突以保持一致性，DARE [437] 缩放稀疏权重以减少冗余，而 Concrete [454] 利用双层优化创建自适应掩码，确保任务间干扰减少的模型组件细致集成。

基于路由的合并

该技术根据输入特定属性动态融合模型，实现上下文响应的集成过程。SMEAR [442] 计算样本依赖的专家权重以优先考虑相关特征，Weight-Ensembling MoE [455] 采用输入驱动的线性层路由进行选择性激活，而 Twin-Merging [456] 融合任务共享和任务私有知识，构建一个灵活的合并框架，适应多样化的输入需求并增强多任务鲁棒性。

后校准

该技术通过将统一模型的隐藏表示与独立组成部分的隐藏表示对齐，纠正合并后的表示偏差，减轻性能下降。Representation Surgery [319] 通过改进表示一致性，增强了合并模型的鲁棒性和准确性。

八、数据集

训练后技术精心设计以优化大语言模型（LLM）对特定领域或任务的适应性，利用数据集作为这一优化过程的基石。对先前研究[457, 82]的深入审查表明，数据的质量、多样性和相关性深刻影响模型的有效性，通常决定着训练后工作的成败。为了阐明数据集在这一背景下的关键作用，我们对用于训练后阶段的数据集进行了全面回顾和深入分析，并根据其收集方法将其归类为三种主要类型：人工标注数据、蒸馏数据和合成数据。这些类别反映了不同的数据管理策略，模型可以采用单一方法或结合多种类型的混合方法，以平衡可扩展性、成本和性能。表9提供了这些数据集类型的详细概述，包括它们的来源、大小、语言、任务和训练后阶段（例如SFT和RLHF），我们在后续部分中探讨了它们在提升LLM能力方面的贡献和挑战。

8.1 人工标注的数据集

人类标注的数据集以其卓越的准确性和上下文保真度而著称，这些属性源自标注者的任务复杂性的细致理解及其能够做出精确、上下文敏感的调整的能力。这些数据集是优化指令微调的基础，通过提供高质量、专家策划的训练信号，显著提升了大型语言模型在多种任务中的性能。在这个类别中，Flan [17]、P3（公共提示池）[459]、Sup-Natinst（超级自然指令）[462] 和 Dolly-15K [468] 等突出资源被广泛应用于大型语言模型的后训练阶段，每个资源都通过人类专业知识为模型能力的优化贡献了独特的优势。

用于 SFT 的人类标注数据

在 SFT 阶段，人类标注的数据集发挥着不可或缺的作用，这一点从 Flan、Sup-Natinst 和 Dolly-15K 的贡献中得到了体现，这些数据集提供了精心设计的提示-响应对和任务特定的指令，以提升大型语言模型在各种自然语言处理基准测试中的效能。

Flan. Flan 数据集 [17] 是一个基础资源，最初涵盖了 62 个广受认可的自然语言处理基准测试——如 HellaSwag [482]、MRPC [483] 和 ANLI [484]——通过其 180 万个示例促进英语中的稳健多任务学习。最近，FlanV2 [34] 作为其前身的高级迭代版本，通过整合 Flan [17]、P3 [459]、Sup-Natinst [462] 和大量其他数据集，形成了一个综合全面的语料库，从而增强了其在多样化语言和任务领域中的 SFT 实用性。
Sup-Natinst. 超级自然指令（Sup-Natinst）[462] 提供了涵盖 55 种语言的 76 种任务类型的广泛多样资源，成为多语言大型语言模型后训练的多功能资源。每种任务都精心配有一个包含明确任务定义的指令——概述了从输入文本到期望输出的映射关系——以及一组示例，展示了正确和错误的响应，为指导模型进行精确的任务执行并增强跨语言适应性提供了强大的框架。
Dolly-15K. 由 Databricks 员工开发的 Dolly-15K [468] 是一个精选的包含 15,000 个高质量、人类生成的提示-响应对的语料库，专门设计用于大型语言模型的指令微调。该数据集涵盖了广泛的主题和场景——包括头脑风暴、内容生成、信息提取、开放式问答和总结——反映了丰富的任务类型多样性，使模型能够灵活适应各种教学情境，并提高上下文相关性。

人类标注数据集在 SFT 中的强大作用源于其对任务和场景的广泛覆盖，这一特点在上述语料库中得到了充分体现。此外，Open Assistant [466] 提供了一个来自全球众包努力的多语言对话语料库，免费用于推进研究，而 OpenOrca [472] 在 FlanV2 [34] 的基础上增加了数百万个 GPT-3.5 和 GPT-4 的完成结果，构成了一个动态扩展的资源，用于微调和任务对齐。然而，尽管它们对模型泛化做出了重要贡献，确保一致的标注质量和多样性仍然是一个挑战，需要严格的质量控制以最大化其影响。

用于 RLHF 的人类标注数据

对于 RLHF，人类标注的数据集如 P3、其多语言扩展 xP3 [463] 和 SHP [460] 提供了关键的人类标注评估，优化了大型语言模型与用户偏好的对齐，提供了奖励建模的细致反馈机制。

P3： P3 数据集 [459] 是一个精心策划的指令调优资源，汇集了来自 Hugging Face Hub 的 2300 万个多任务提示，每个提示都配有手动编写的指令，涵盖了多样化的自然语言处理任务，为 RLHF 提供了丰富的基础，以增强大型语言模型在不同应用中的适应性和精确性。
xP3： xP3（跨语言公共提示池）[463] 将 P3 扩展到多语言框架中，涵盖了 46 种语言和 16 个自然语言处理任务的提示和监督数据，旨在支持像 BLOOMZ 和 mT0 这样的模型的多任务提示微调。其内容整合了英语 P3 数据集、四个新的英语任务（如翻译、程序合成）和 30 个多语言自然语言处理数据集，为跨语言 RLHF 优化提供了全面的资源。
SHP：SHP [460] 包含了 349,000 个人类偏好注释，涉及 18 个主题领域的提问和指令的响应评估，用于训练 RLHF 奖励模型并评估自然语言生成（NLG）的质量，其独特之处在于完全依赖于人类编写的注释，使其区别于 HH-RLHF 等混合数据集。

这些数据集通过提供多样化的、人类标注的评估，增强了 RLHF，精炼了模型与用户偏好的对齐。OpenAI 总结 [458] 和 WebGPT [461] 提供了结构化的、基于比较的反馈和李克特量表评分，有助于更紧密地将模型输出与人类期望对齐。HH-RLHF [104] 进一步强化了这一框架，包括了对有用性和无害性的评估，为旨在确保安全和道德响应的模型奠定了坚实的基础。同时，StackExchange [473] 贡献了特定领域的用户生成内容，丰富了训练数据，特别有利于需要技术领域专业知识的模型。然而，这些数据集面临诸如可扩展性、人类标注中的潜在偏差以及在其特定领域之外的有限适用性等挑战。因此，尽管它们非常有价值，但可能需要补充更广泛的数据集，以实现跨多样化现实任务的全面模型对齐。

8.2 蒸馏数据集

蒸馏数据（distilled dataset）源自将庞大的原始数据集提炼成紧凑、优化的子集的复杂过程，这些子集保留了对大语言模型训练至关重要的信息，同时在保持性能的前提下提高了训练效率并减少了计算需求。该方法生成的数据集通常在效能上能匹敌甚至超越未经过精炼的原始数据集，加速模型收敛并减少资源消耗，特别是在强化学习人类反馈（RLHF）阶段。关键示例包括 ShareGPT [469] 和 HC3（人类-ChatGPT 对比语料库）[467]，这些数据集通过将真实世界互动和比较见解提炼成有效的训练信号，成为广泛采用的大语言模型微调资源。

ShareGPT： ShareGPT [469] 作为一个动态数据收集平台，通过其 API 收集了约 90,000 次来自用户与 ChatGPT 或 GPT-4 的真实交互对话。该数据集包含了真实的人类指令和查询及其对应的 AI 回答，将自然对话模式浓缩成一个集中资源，使 RLHF 能够以高相关性和高质量改进大语言模型的对话流畅性和上下文响应能力。
HC3： HC3 数据集 [467] 是专门设计用于对比 ChatGPT 生成的 AI 回答与人类撰写的答案，包含跨开放性话题、金融、医学、法律和心理学等领域的 161,000 个问题-回答对。这个精炼的语料库有助于分析回答特征和质量的差异，使研究人员能够在 RLHF 过程中提升大语言模型输出的真实性和领域特定准确性，同时突出人类与 AI 生成内容之间的区别。

8.3 合成数据集

合成数据（Synthetic Datasets）在大型语言模型（LLM）后训练的SFT阶段中构成了一种变革性的资产，通过AI模型生成，提供成本效益高、可扩展且保护隐私的人类标注数据集替代方案。通过自动化创建指令-响应对和对话，合成数据能够生成广泛的训练语料库，增强模型的适应性，Self-Instruct-52K [86]、Vicuna [465] 和Baize [478] 是广泛用于提升LLM指令跟随和对话生成能力的主要示例。

基于自我指令方法的数据集

使用自我指令方法的合成数据集从少量手工制作的种子示例开始，利用LLM生成大量指令跟随数据，增强模型对多样化指令的响应能力，例如Self-Instruct-52K、Alpaca和Magpie系列，这些数据集共同通过可扩展的自动化推进指令调优。

Self-Instruct-52K: Self-Instruct-52K [86] 为指令跟随模型建立了基础基准，使用多种提示模板从手工制作的种子生成52,000个示例，指导LLM，从而提高其解释和执行特定任务指令的精确性和一致性。
Alpaca: Alpaca [464] 和Alpaca-GPT4 [18] 分别使用GPT-3和GPT-4将初始175个种子对扩展为52,000个高质量的指令-响应对，提高指令跟随能力，而InstInWild [477] 将这种方法应用于多语言环境，生成英语和中文数据集，以增强跨语言适应性。
Magpie 数据集: Magpie数据集 [481] 利用对齐的LLM从预定义的模板生成指令-响应对，产生专门的系列，如Magpie Reasoning V2（强调链式思维推理）、Magpie Llama-3和Qwen-2系列（针对流行模型定制）、Magpie Gemma-2（适用于Gemma架构）以及结合偏好优化信号的变体如Magpie-Air-DPO，这些数据集共同增强了SFT和指令调优在对话和推理任务中的应用。

除了这些数据集之外，如Unnatural Instructions [97]（240,000个示例）、Evol-Instruct [470]（通过迭代复杂度增强生成70,000至143,000个改进条目）和Belle [471]（从ChatGPT生成500,000至1,100,000个中文对话）显著扩大了指令生成规模，尽管在质量保证、复杂度校准和偏见缓解方面仍存在挑战，需要持续改进以确保在复杂应用中的可靠性。

基于自我对话方法的数据集

自我对话数据集采用一种技术，使模型内部或与同伴模拟多轮对话，增强对话生成能力并解决现有语料库的不足，Baize、UltraChat和OpenHermes通过自动交互策略展示了这一方法。

Baize: Baize [478] 利用ChatGPT的自我对话技术生成653,000个多轮对话，整合来自Quora、Stack Overflow和Alpaca的种子数据，丰富指令跟随质量，从而优化LLM的对话连贯性和任务遵循性，用于SFT。
UltraChat: UltraChat [476] 使用多个ChatGPT API生成超过1200万条高质量的对话记录，涵盖各种主题，克服了多轮数据集中常见的低质量和不准确注释问题，为对话增强提供了强大的SFT资源。
OpenHermes: OpenHermes由Teknium开发，包括OpenHermes-1 [474]（243,000条记录）及其扩展后续版本OpenHermes-2.5 [475]（100万条记录），提供高质量的SFT数据集，增加了数量和多样性，涵盖广泛的主题和任务类型，增强对话和指令跟随能力。

这些自我对话数据集使模型通过自我互动构建多轮对话，如Baize使用具有多样种子的ChatGPT和UltraChat通过API驱动的广泛对话，显著提高了对话质量和填补了训练数据可用性的关键空白。

基于真实用户交互的数据集

基于真实用户交互的数据集利用与LLM的真实对话交流，捕捉多样且真实的输入，增强模型处理现实场景的能力，Vicuna、WildChat和GenQA是这一方法的关键示例。

Vicuna: Vicuna [465] 在ShareGPT的公共API上约70,000次用户共享的对话上进行微调，通过将HTML转换为Markdown、过滤低质量样本和分割长对话以适应模型上下文长度，确保高质量的SFT数据，用于现实交互建模。
WildChat: WildChat [479] 包含100万次真实世界用户与ChatGPT的多语言和多种提示类型的交互，包括独特的交换如模糊请求和代码切换，既作为SFT资源又作为分析用户行为的工具。
GenQA: GenQA [480] 提供一个超过1000万个清理和过滤的指令样本的庞大SFT数据集，完全由LLM生成，无需人工输入或复杂管道，补充现有语料库，通过快速生成合成数据来解决覆盖缺口。

合成数据在成本、可扩展性和隐私方面的优势受到与人类标注数据相比深度和真实性潜在不足的限制，存在偏差传播和过度简化的风险。依赖AI生成的内容可能延续模型固有的错误，强调了整合合成数据和人类生成数据以增强LLM鲁棒性和在不同情境下适用性的必要性。

九、应用

尽管预训练赋予了大型语言模型（LLMs）强大的基础能力，但在特定领域部署时，这些模型仍经常面临持续的限制，包括上下文长度受限、倾向产生幻觉、推理能力欠佳以及固有的偏见。这些不足在实际应用中显得尤为重要，因为精确性、可靠性和伦理一致性是至关重要的。这些挑战引发了根本性的疑问：（1）如何系统地提升 LLM 的性能以满足特定领域的需求？（2）哪些策略可以有效缓解应用环境中固有的实际障碍？后训练作为关键解决方案，通过优化 LLM 对特定领域术语和推理模式的识别，增强其适应性，同时保留其广泛的综合能力。本章阐述了后训练 LLM 在专业、技术和互动领域的变革性应用，阐明了定制化后训练方法如何应对这些挑战并提升模型在不同背景下的实用性。

9.1 专业领域

法律助理

法律领域是利用后训练赋予大语言模型（LLMs）专门知识的一个引人注目的领域，使它们能够驾驭复杂的法律知识并应对法学中固有的多方面挑战。越来越多的研究[485, 486, 487]探讨了这一领域中LLMs的应用，涵盖了法律问答[488, 489]、判决预测[490, 491]、文档摘要[492, 493]以及检索增强和司法推理等更广泛的任务[494, 495, 496]。以LawGPT[497]和Lawyer-LLaMA[498]为代表的后训练法律助手展示了显著的熟练度，不仅在各种法律事务中提供可靠的指导，还在专业资格考试中取得成功，这证明了其先进的解释和分析能力。多语言支持，如LexiLaw[499]和SAUL[500]等模型，扩展了这种实用性的语言范围，包括英语和中文，从而扩大了可访问性。这些进展的核心是在精选的法律语料库上进行后训练，例如ChatLaw[501]，它将广泛的法律文本整合到对话数据集中，使模型能够精炼其推理能力和术语识别能力。

医疗保健和医学

后训练显著提升了LLMs在医疗保健和医学应用中的性能，通过特定领域的数据精确地满足临床和学术需求。在临床环境中，LLMs促进了药物发现[502]、药物协同预测[503]和催化剂设计[504]、诊断支持、病历生成和患者互动等任务；在学术界，它们在医疗报告合成[505]和问答[506]中表现出色，这得益于定制后训练带来的性能提升。例如，基于50万条医疗咨询记录训练的ChatMed[507]展示了增强的诊断和咨询服务准确性；而PULSE[508]则通过400万条涵盖中文医疗和通用领域的指令进行了微调，展示了卓越的多任务能力。这些模型通过利用后训练适应嵌入细致的医学知识，超越了通用模型的表现，突显了定制数据集在实现实际效用中的不可或缺性。这些进展不仅提高了特定任务的结果，还为将LLMs集成到医疗工作流程中铺平了道路，在这些工作中，精度和上下文相关性是不可妥协的，突显了后训练对现实世界医疗应用的变革影响。

金融和经济学

在金融和经济学领域，LLMs在情感分析[509]、信息提取[510]和问答[511]等任务中展现出巨大的潜力，后训练通过特定领域的改进增强了其有效性。尽管通用LLMs提供了坚实的基础，但像FinGPT[512]和DISC-FinLLM[513]这样的专用模型在经过金融语料库的后训练后表现出显著的改进，擅长需要细致理解市场动态和术语的任务。同样，XuanYuan[514]利用广泛的金融数据集和先进的后训练技术，提高了经济建模和预测的准确性，超过了未调优的基准。这些发展展示了后训练在适应LLMs以满足金融应用复杂需求中的关键作用，其中精确解释定量数据和定性见解至关重要，确保模型提供可靠且符合行业标准和期望的领域信息输出。

移动代理

大型多模态模型（LMMs）的发展推动了一个新兴的代理研究领域，专注于基于LMM的图形用户界面（GUI）代理[515]。该领域旨在开发能够在多种GUI环境中执行任务的AI助手，涵盖网络界面[516, 517, 518, 519, 520]、个人计算平台[521, 522, 523, 524, 525]和移动设备[526, 527, 528, 529, 530]。在移动环境中，一个研究方向通过工具集成[526]和额外的探索阶段[527, 528]来增强单个代理的感知和推理能力。最近的进展通过使用多代理系统进行决策和反思[531, 529]，显示出巨大的潜力，从而提高了任务效率。特别是，Mobile Agent-E[532]引入了代理之间的分层结构，促进了稳健的长期规划，并提高了低级动作的精度。这些发展突显了多模态后训练策略在培养适应性强、高效的复杂移动环境代理中的变革作用。

9.2 技术和逻辑推理

数学推理

大语言模型（LLM）在数学推理方面展现出显著潜力，涵盖代数操作、微积分和统计分析。通过后训练，这些模型能够弥合计算能力和人类水平之间的差距。GPT-4 [9] 在标准化数学测试中取得了高分，这归功于其多样化的预训练语料库，但后训练进一步提升了这一能力。例如，Deep Seek Math [64] 利用专门的数学数据集和技术，如监督微调（Supervised Fine-Tuning, SFT）和组相对策略优化（Group Relative Policy Optimization, GRPO）[64]，以提高其推理精度，通过结构化的思维链（Chain of Thought, CoT）解决复杂问题。OpenAI 的 o1 [41] 通过强化学习（Reinforcement Learning, RL）进一步推进了这一领域，逐步优化推理策略，以在多步骤推导和证明中实现卓越性能。这种通过后训练的持续改进不仅提高了准确性，还使 LLM 的输出与严格的数学逻辑对齐，使其成为教育和研究领域中不可或缺的工具，特别是在需要高级推理的场景中。

代码生成

后训练彻底改变了代码生成，使 LLM 能够在自动化编码、调试和文档生成方面表现出色，从而变革了软件开发工作流程。Codex [533] 基于庞大的多样化代码库进行训练，支持 GitHub Copilot * ，提供实时编码辅助，准确率极高。专门的模型如 Code Llama [384] 进一步提升了这一能力，通过针对编程特定数据集的后训练，帮助开发者跨语言和框架进行开发。OpenAI 的 o1 [41] 将其数学推理能力扩展到代码生成，生成高质量且上下文感知的代码片段，与人类输出相当。当前的研究重点是增强个性化、深化上下文理解，并嵌入伦理保障措施，以减轻代码滥用等风险，确保 LLM 在技术领域内最大化生产力的同时，遵循负责任的开发原则。

9.3 理解和交互

推荐系统

大型语言模型（LLMs）作为变革者出现在推荐系统中，通过分析用户交互、产品描述和评论，以前所未有的细致程度提供个性化建议 [534, 535, 536]。后训练增强了它们整合情感分析的能力，使内容和情感细微差别的理解更加细腻，这一点在 GPT4 [9] 和专门系统如 LLaRA [537] 和 AgentRec [538] 中得到了证明。亚马逊和淘宝等电子商务巨头利用这些能力处理评论情感、搜索查询和购买历史，优化客户偏好模型并高精度地预测兴趣 [535]。除了对项目进行排名，后训练的 LLM 还参与对话推荐、规划和内容生成，通过提供动态、上下文敏感的互动来适应不断变化的偏好，从而提升用户体验，这证明了后训练在连接数据分析与实际应用中的作用。

语音对话

后训练的 LLM 重新定义了语音处理，将识别、合成和翻译推进到自然度和准确性的新高度 [539]。这些模型处理诸如文本转语音 [540]、文本转音频生成 [541] 和语音识别 [542] 等任务，支持了亚马逊的 Alexa、苹果的 Siri 和阿里巴巴的天猫精灵等普遍工具。Whisper [543] 以其高保真转录展示了这一进步，而 GPT-4o [78] 引入了实时语音交互，无缝融合多模态输入。未来的发展方向包括多语言翻译和个人化语音合成，其中后训练使 LLM 能够打破语言障碍并根据个人用户档案定制响应，增强全球背景下人机交互的可访问性和参与度。

视频理解

LLM 在视频理解领域的扩展标志着一个重要的前沿，后训练使像 Video-LLaMA [341] 这样的模型能够执行字幕生成、总结和内容分析，简化多媒体创作和理解。Sora [544] 进一步革新了这一领域，通过文本提示生成复杂视频，降低了技术门槛并促进了创新故事讲述，使内容生产更加民主化。这些进展利用后训练使 LLM 适应视觉-时间数据，提高了其解释深度和在教育到娱乐等各种应用中的实用性。然而，它们也带来了计算可扩展性、隐私保护和伦理治理方面的挑战，尤其是在生成内容的滥用问题上。随着后训练方法的演变，解决这些问题将是确保视频相关应用可持续、负责任部署的关键，平衡创新与社会考虑。

十、开放问题和未来方向

在本节中，我们批判性地评估了大型语言模型（LLMs）后训练方法中存在的未解决挑战和未来的发展轨迹，将分析置于由OpenAI的o1 [41] 和DeepSeek-R1 [28] 的发布所带来的变革性进展的背景下。这些模型通过大规模强化学习（RL）重新定义了推理基准，但它们的出现也加剧了对后训练技术中持续存在的限制进行解决的紧迫性。以下小节详细阐述了六个关键的开放问题，每个问题都突显了其对领域进展的重要性和迫切需要解决的问题，并提出了推动未来研究和确保LLM在各种应用中负责任发展的可行策略。

推理能力超越大规模RL

o1和DeepSeek-R1的引入标志着LLM推理能力的范式转变，利用了如RLHF和Group Relative Policy Optimization (GRPO)等广泛的RL框架，在多步问题解决（如数学证明和逻辑推导）中实现了前所未有的准确性。然而，依赖二元奖励信号和大量人工反馈暴露了一个关键限制：它们无法在复杂的开放式任务中有效泛化，例如科学假设生成或动态环境中的战略决策。这一差距亟待解决，因为对LLM在现实世界情境中模拟人类推理的需求日益增长，其重要性在于解锁其作为自主智能代理的潜力，超越当前的基准。当前的RL方法在奖励稀疏性和缺乏适应任务复杂性的能力方面存在困难，需要创新框架。可行的解决方案包括开发多目标RL系统，整合自监督一致性检查（例如，验证推理步骤之间的逻辑连贯性）和领域特定先验知识，如数学公理或科学原理，以在无需详尽的人工注释的情况下指导推理 [545, 546]。这些进展可以减少对昂贵反馈循环的依赖，增强可扩展性，并使LLM能够应对未知的推理领域，这一前景由DeepSeek-R1的冷启动RL创新得以实现。

下一代LLM的后训练可扩展性

随着LLM规模和复杂性的增加，以下一代模型的参数密集型架构为例，后训练的可扩展性成为了一个严峻而紧迫的挑战。基于RL的方法的资源密集性，如DeepSeek-R1的冷启动方法需要大量的计算基础设施，这限制了其对资金充足的实体的可访问性，并引发了显著的可持续性问题，特别是在多模态应用（如视频分析）和实时系统（如对话代理）中。这个问题至关重要，因为它威胁到资源丰富和资源受限的研究社区之间的差距扩大，阻碍了LLM发展的公平进步。虽然参数高效微调（PEFT）[92] 减轻了一些开销，但其性能在大规模数据集上往往会下降，突显了对可扩展替代方案的需求。可行的未来方向 [547, 548, 549] 包括设计轻量级RL算法——可能通过调整GRPO以减少内存占用——联邦后训练框架，将计算负载分布在去中心化的网络中，以及先进的蒸馏技术，保留推理和适应性的同时最小化资源需求。如果这些解决方案得以实现，将有助于民主化后训练，与领域内对可持续和包容性创新的迫切需求相一致。

基于RL的模型的伦理对齐和偏见缓解

通过RL进行后训练，如o1的谨慎对齐策略所展示的，放大了伦理风险，可能会强化嵌入在训练数据集（如HH-RLHF [104] 或合成语料库）中的偏见。鉴于LLM在敏感领域（如医疗诊断和司法决策）中的部署，这是一个极其紧迫的挑战。伦理对齐的动态变化——在一种文化背景下被认为是公平的，在另一种文化背景下可能构成偏见——是实现普遍可信的LLM的重大障碍，这使得确保公平和安全的AI系统变得至关重要。当前的方法存在过度审查的风险，损害实用性（例如，抑制创造性输出），或纠正不足，延续有害的偏见（例如，种族或性别差异）。解决这一问题需要开发公平意识的RL目标，纳入多利益相关者的偏好模型（例如，聚合多样化的人类判断）和对抗性去偏技术，以在训练过程中中和数据集偏见。这些方法的可行性 [550] 得到了最近解释工具和多目标优化进展的支持，能够在伦理稳健性和实际功能之间实现平衡，这是由o1在现实世界部署挑战中强调的必要性。

无缝多模态集成以实现整体推理

向多模态LLM的轨迹，预示着o1的推理增强和GPT-4o的综合能力 [78]，突显了对后训练方法的迫切需求，这些方法能够无缝集成文本、图像、音频和其他数据类型，以实现整体推理——这对于实时视频分析、增强现实和跨模态科学研究等应用至关重要。当前的方法在实现稳健的跨模态对齐方面失败，主要是由于数据异质性和全面多模态训练语料库的稀缺，限制了LLM在不同输入之间协同推理的能力。这一挑战的重要性在于其潜在的变革应用，但在没有可扩展框架的情况下，其解决仍然难以捉摸。DeepSeek-R1的冷启动RL提供了一个有希望的起点，表明统一的模态编码器（例如，能够将异构数据编码到共享的潜在空间中）和动态RL策略，能够自适应地加权模态贡献，可以弥合这一差距。未来的研究应优先创建多模态基准和合成数据集，建立在Magpie [481] 等努力的基础上，以推动进展，鉴于最近在多模态预训练和RL优化方面的进展，这是一个可行的努力。

上下文适应的信任框架

后训练LLM的信任度越来越被视为一个动态的、上下文依赖的属性，而不是静态的质量，这一点在o1在教育等敏感领域谨慎的输出与其在创意任务中更自由的响应之间的对比中得到了证明。这种变异性——在安全要求（例如，避免教育设置中的错误信息）可能与实用需求（例如，促进写作中的创造力）冲突的情况下——是一个紧迫的挑战，鉴于其对用户信任和LLM在各种现实场景中适用性的关键重要性。当前的后训练方法往往过于重视安全，导致实用性的折衷，从而降低实际价值，或者未能适应特定上下文的需求，削弱可靠性。解决这一问题需要上下文敏感的RL模型，能够动态调整安全与实用性的权衡，利用实时用户反馈和可解释的安全指标（例如，生成输出的透明度分数）来确保适应性。这种方法的可行性 [551] 得到了自适应学习系统和实时监控进展的支持，提供了一条在信任度与功能性之间取得平衡的路径，这是随着o1等LLM扩展到高风险应用而迫切需要的。

后训练创新的可访问性和民主化

先进后训练方法的计算强度，以DeepSeek-R1的RL驱动方法为代表，将其应用限制在资源丰富的实体中，成为一个阻碍可访问性的紧迫障碍，抑制了小型研究社区和行业部门内的创新（即，对于促进AI领域的公平进步而言，这是一个极其重要的问题）。这种排他性不仅限制了贡献的多样性，还阻碍了领域应对全球挑战的合作能力。民主化这些创新需要开发高效的开源工具和框架，降低进入门槛而不牺牲质量，这一目标通过可扩展的PEFT适应RL [92]、协作平台共享后训练模型（例如，Hugging Face枢纽）和类似于Magpie [481]的简化合成数据生成管道得以实现。未来的工作应专注于优化这些解决方案，以实现广泛采用，确保后训练的变革潜力——由o1和DeepSeek-R1所体现——超越精英机构，丰富更广泛的AI生态系统。

创造性智能与系统2思维

将创造性智能融入系统2推理代表了LLM演进的一个新兴前沿，如 [552] 所强调的。尽管像OpenAI的o1和DeepSeek的R1这样的推理LLM在刻意、逐步的逻辑分析中表现出色——模仿系统2思维——它们在创造性智能方面的能力仍处于探索阶段，创造性智能涉及生成新想法、综合不同概念和灵活应对非结构化问题。这一差距至关重要，因为创造性智能支撑了艺术创作、科学发现和战略创新等领域中的人类问题解决，这些领域中仅靠僵化的逻辑框架是不够的。这一挑战的紧迫性在于其潜力，可以将LLM从分析工具提升为自主创造代理，这是向通用人工智能（AGI）迈出的变革性一步。下面，我们概述了这一开放问题，并提出了未来的方向，借鉴了调查的见解。

十一、总结

本文首次全面综述了后训练语言模型(Post-training Language Models, PoLMs)，系统地追溯了从2018年ChatGPT的对齐起源到2025年DeepSeek-R1的推理里程碑的轨迹，并肯定了它们在推理精度、领域适应性和伦理完整性方面的变革性影响。我们评估了一系列广泛的技术（即微调(Fine-tuning)、对齐(Alignment)、推理(Reasoning)、效率(Efficiency)和集成与适应(Integration and Adaptation)），综合了这些技术在专业、技术和交互领域（从法律分析到多模态理解）的贡献。我们的分析强调，PoLMs显著提升了大语言模型(LLMs)的能力，从最初的对齐创新演变为复杂的推理框架；然而，它也揭示了持续存在的挑战，包括偏见持续存在、计算可扩展性和情境变量的伦理对齐问题。这些发现被纳入一个新颖的分类体系中，强调了将推理进展与效率和伦理要求相结合的综合性方法的必要性。我们得出结论，实现LLMs作为可靠、负责任工具在各种应用中的潜力，需要持续的跨学科合作、严格的方法论评估以及适应性和可扩展框架的开发。作为此类研究的开创性综述，本工作整合了近年来PoLMs的进步，奠定了坚实的知识基础，激励未来的研究培养能够灵活结合精度、伦理稳健性和多功能性的LLMs，以满足科学和社会背景不断变化的需求。

#只因一个“:”，大模型全军覆没

一个冒号，竟然让大模型集体翻车？

明明应该被拦下来的虚假回答，结果LLM通通开绿灯。

该发现来自一篇名叫“一个token就能欺骗LLM”的论文。

不仅如此，除了冒号、空格这类符号，还有诸如此类的推理开头语：“Thought process：”、“解”，也是轻松通过。

好家伙，原来一个“解”字，数学考试能得分，LLM也会被骗到……

而且这一波是冲着所有通用LLM来的，GPT-4o、Claude-4、LLaMA3-70B通通被斩于马下。

那咋办？bug有了，来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学的研究人员就开始哼哧哼哧解bug。

用增强数据集训练出一个靠谱的“评委”模型Master-RM，被骗概率直接无限接近0，正常评估能力还能不受影响。

一把能欺骗LLM的“万能钥匙”

近来，利用LLM充当评判工具，在带可验证奖励的强化学习（RLVR）中评估答案质量的场景愈加普遍。

LLM评判模型通过比对生成的候选答案与参考答案，输出二元奖励信号，从而指导策略模型更新。

然而研究发现，LLM“崩溃”了？

响应长度不仅锐减至30 tokens以下，一些意义不大的语句或文字符号，却从LLM处骗得了假阳性奖励，也就是打开LLM后门的一把“万能钥匙”。

这把能诱导LLM评判模型产生假阳性判断的“万能钥匙”可分为两类：

非文字符号：如空格、“.”、“,”、“：”。
推理开头语：如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等，仅表示推理开始但并没有实质内容。

同时为了进一步研究这种“奖励模型欺骗”现象是否存在普遍性，研究人员在多数据集、提示词格式上对各种LLM均进行了系统性评估。

实验分别选取两类模型，分别是专用生成式奖励模型（如Multi-sub RM、Omni-Judge），以及通用LLM（如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等）。

专用模型使用默认提示，而通用LLM采用标准化提示模板。

然后选择10种可触发假阳性的对抗性响应，包括非文字符号（如空格、“:”）和多语言推理开头语（如英文的 “Thought process:”、中文的“解”、日语的“かいせつ”）。

另外为了测试模型跨领域的稳健性，实验涵盖通用推理和数学推理的共5个推理基准。

实验结果表明，所有测试模型无一幸免，全部都会触发假阳性响应。

例如GPT-4o对符号 “:” 的假阳性率（FPR）可达35%，LLaMA3-70B对 “Thought process:” 的FPR甚至高达60%-90%，专有模型General-Verifier在MATH数据集上对空格的FPR也达66.8%。

另外，不同语言也不会影响这种欺骗现象的出现，无论是中文还是日语，都同样能够诱发高FPR，该漏洞具有跨语言的普遍性。

研究人员还分析了0.5B至72B的Qwen2.5-Instruct系列模型，发现：

0.5B模型：依赖字面匹配，FPR低但与GPT-4o一致性差；
1.5B-3B模型：能检测语义相似性但缺乏精细验证，FPR骤升；
7B-14B模型：平衡验证能力与谨慎性，FPR最低且一致性高；
32B-72B模型：因为更倾向于自己解题而非对比响应与参考答案，FPR再次上升。

所以模型的大小与FPR之间并非完全的单调关系，不是模型越大就越不容易被骗。

如果想通过一些推理时的技巧来减少这种漏洞，效果也不太稳定，还得看具体模型和应用场景。

此外，研究人员还发现，这种bug还能无限繁殖……

只需要基于all-MiniLM-L6-v2编码器进行嵌入相似度搜索，从大规模语料中自动生成与已知 “万能钥匙” 相似的新对抗性响应，新的“万能钥匙”就能同样产生出高水平FPR。

实验最终说明生成式奖励模型其实存在一个相当关键的核心机制漏洞：原本用于过滤无效或错误答案的验证器，容易被无关紧要的表面内容操纵，从而产生假阳性结果。

这对任何依赖验证器提供反馈的RLVR流程都提出了破坏性的挑战。

一个不会被骗的“评委”模型

为了缓解“万能钥匙”的影响，研究人员专门构建了新的“评委”模型Master-RM（Master Reward Model）。

首先从原始的16万条训练数据中随机采样2万条，用GPT-4o-mini生成带推理开头语句的响应，但仅保留无实质内容的第一句话，并标记为“错误”。

将这2万条对抗样本与原始数据结合，构成增强训练数据集。

然后基于Qwen2.5-7B-Instruct进行有监督微调（SFT），保证最小化交叉熵损失，让模型学习如何区分有效响应与表面欺骗性响应。

将Master-RM放入相同条件下实验再次验证，发现此时在跨数据集测试中，模型对所有 “万能钥匙” 的假阳性率接近0%（甚至完全为零），且鲁棒性可泛化到未见过的数据集和欺骗攻击中。

同时模型保持与GPT-4o的评估一致性可达0.96，验证了其作为通用领域生成式奖励模型的有效性。

所以LLM作为“评委”模型其实相当脆弱，小小一个冒号就可能让它出错。

因此有网友表示，该发现揭示了模型稳健的重要性，而RLHF也需要严格对抗评估，构建更为可靠的LLM工作流程。

作者本人也现身评论区，他认为，生成式奖励模型容易受到虚假奖励攻击，如何更好地避免类似情况发生，将是未来的研究方向。

全华人团队

最后来看下研究团队，分别来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学。

值得一提的是，其中看到了大佬俞栋的身影。

他被称为腾讯AI Lab三剑客之一，目前是腾讯云人工智能首席科学家兼副总经理，之前曾是微软首席研究员，2017年加入腾讯。

他在深度学习的自动语音识别和处理领域深耕多年，共发表两本专著和400多篇论文，并获得4年的IEEE信号处理学会最佳论文奖、2021年NAACL最佳长论文奖等。

此外，论文一作Yulai Zhao本科毕业于清华大学，目前在普林斯顿大学攻读机器学习的博士学位，另外他还在腾讯AI Lab担任研究人员。

研究方向主要是通过数据驱动的方法探索现代强化学习和扩散模型，另外他的一篇有关让扩散模型在生成蛋白质和DNA序列表现更优的论文，最近刚刚被ICML 2025录用。

共同一作Haolin Liu则是弗吉尼亚大学计算机科学系的博士生，师从Chen-Yu Wei教授。

之前在上海科技大学就读本科，先学习了1.5年化学，后才转为计算机科学，主要研究以强化学习为中心，致力于推进RL在LLM后训练中的应用。

Dian Yu目前是腾讯AI Lab的一名NLP研究员，曾在伦斯勒理工学院取得博士学位，目前研究方向包含自然语言处理、信息抽取、机器阅读理解和对话理解。

另外，作者里还有普林斯顿大学电子工程专业的贡三元教授，其研究领域包括机器学习、系统建模与识别、人工神经网络等，发表过400余篇论文及专著。

因其对VLSI信号处理和神经网络的贡献，被表彰为IEEE终生会士，还获得过IEEE信号处理学会最佳论文奖、IEEE信号处理学会技术成就奖等。

Haitao Mi博士毕业于中国科学院计算技术研究所，曾在支付宝中担任首席研究员。

目前是腾讯AI Lab的首席研究员,隶属于旗下的语言智能研究小组，主要研究方向是扩展大型基础模型和下一代智能体系统。

论文链接：https://arxiv.org/abs/2507.08794
数据集链接：https://huggingface.co/datasets/sarosavo/Master-RM
模型链接：https://huggingface.co/sarosavo/Master-RM

参考链接：
[1]https://x.com/omarsar0/status/1944778174493343771
[2]https://yulaizhao.com/
[3]https://liuhl2000.github.io/
[4]https://ece.princeton.edu/people/sun-yuan-kung
[5]https://openreview.net/profile?id=~Haitao_Mi1
[6]https://sites.google.com/view/dongyu888/
[7]https://openreview.net/profile?id=~Dian_Yu3

#ChatGPT Agent

刚刚，OpenAI通用智能体ChatGPT Agent正式登场

ChatGPT 现在可以思考行动，主动选择工具，用自己的虚拟计算机为你完成任务。

Agent AI 时代，比我们想象中来得要早一些。

北京时间周五凌晨，OpenAI 突然开启了新产品直播。

本次发布的是全新的 ChatGPT Agent，它实现了通用智能体（Agent）能力的关键升级。

与以往的基础大模型升级不同，通用 Agent 可以自动利用多种工具进行规划，帮助人们完成复杂的任务，包括自动浏览用户日历，生成可编辑的 PPT，运行代码等等。Agent 能够连接你的 Gmail、GitHub 网站获取信息并解决问题，使用 API 来访问各种应用。Agent 加持的 AI 智能有了大幅提升 —— 基于 ChatGPT Agent 的模型在 HLE 基准上拿到了 41.6% 的分数，是 o3 和 o4-mini 的几乎两倍。

ChatGPT Agent 目前已向 OpenAI Pro、Plus 和 Team 计划的订阅用户开放。想要使用的用户在 ChatGPT 的工具下拉菜单中选择「Agent 模式」即可。

OpenAI 表示，企业版和教育版用户预计将于夏季晚些时候获得新功能。在正式发布时，Pro 用户每月通常最多可使用 400 次 Agent 提示，其他付费用户则最多可使用 40 次。目前尚不清楚该功能何时会面向 ChatGPT 免费用户推出。

这是 OpenAI 迄今为止最为大胆的一次新产品发布，从此以后 ChatGPT 成为了一款能够为人们采取行动和分担任务的 Agent 产品，已经远远超出了回答问题的范畴。

OpenAI CEO 山姆・奥特曼（Sam Altman）表示，看着 ChatGPT 智能体使用计算机执行复杂任务对我来说是一个真正的「感受 AGI」的时刻，看到计算机思考、计划和执行会带来不同的感受。

，时长25:29

ChatGPT 现在可以使用自己的虚拟电脑为你完成工作，从头到尾处理复杂任务。用户不仅可以让 ChatGPT 执行诸如「查询年度财务报告」等请求，并智能地浏览网站、筛选结果，在需要时提示你安全登录，运行代码、进行分析，甚至可以交付可编辑的幻灯片和电子表格，总结其研究成果。

比如让「ChatGPT Agent 搜索查询旧金山市年度综合财务报告（2020-2024 年）」：

再比如输入提示「我是一位网球迷，想去棕榈泉观看网球比赛，特别是在半决赛 / 决赛期间。我住在旧金山，请帮我制定一份详细的三天行程，包括航班安排、酒店预订、活动内容（比赛、徒步、美食、水疗等）。我喜欢徒步旅行、纯素食餐厅和水疗。总预算为 3000 美元。这份行程需要包括：精确的时间安排；每项活动的内容、费用和其他细节；如有需要，提供购票或预订链接」，接着让 ChatGPT Agent 帮你制定详细的行程：

这一新能力的核心是一个统一的智能 agentic 系统，它结合了三个早期突破的优势，包括 Operator 的网站交互能力、deep research 的信息综合能力，以及 ChatGPT 的智能推理与对话能力。

ChatGPT 借助自己的虚拟计算环境，在推理与执行之间灵活切换，根据用户的指令，从头到尾处理复杂的工作流程。最重要的是，用户始终掌控全局。ChatGPT 会在执行任何重要操作前征求你的许可，你也可以随时中断任务、接管浏览器或停止运行。

OpenAI 表示，「虽然 ChatGPT Agent 已经可以应对复杂任务，但这次发布只是开始。我们将持续迭代、定期推出重大改进，让它变得更强大、更实用，服务于更多用户。」

Operator 与深度研究的自然进化

过去，Operator 和 deep research 各自具备独特优势：Operator 能够在网页上滚动、点击和输入，而 deep research 擅长分析和总结信息。

不过，二者在不同场景下才发挥最大作用，各有不擅长的领域。Operator 无法深入分析或撰写详细报告，而 deep research 又无法与网页交互、进一步筛选结果或访问需要用户登录的内容。

OpenAI 发现，许多用户尝试用 Operator 处理的任务，其实更适合用 deep research，因此决定将二者的优势整合在一起。

通过将这些互补能力集成进 ChatGPT，并引入更多工具，OpenAI 在一个模型中解锁了全新的能力。它现在可以主动与网站交互 —— 点击、筛选并收集更精准、高效的结果。yonghu 也可以在同一个对话中，从自然的交流无缝过渡到发出具体操作请求。

OpenAI 为 ChatGPT Agent 配备了一整套工具：包括一个通过图形用户界面与网页交互的可视化浏览器、一个用于处理简单推理类网页查询的文本浏览器、一个终端（命令行界面）、以及直接调用 API 的能力。

该 agent 还可以利用 ChatGPT Connectors，将 Gmail、GitHub 等应用连接进来，使 ChatGPT 能够查找与你提示相关的信息，并将其用于回答中。用户也可以通过接管浏览器，在任意网站上登录账户，从而帮助它在信息检索和任务执行方面更深入、更广泛。

为 ChatGPT 提供多种访问和交互网页信息的方式，意味着 ChatGPT Agent 能够选择最优路径，以最高效地完成任务。例如，它可以通过 API 获取用户的日历信息，使用文本浏览器高效处理大量文本内容，同时也具备通过可视化界面与专为人类设计的网站进行交互的能力。

所有这些操作都是在 ChatGPT Agent 自己的虚拟计算机上完成的，这可以在使用多个工具时保留任务所需的上下文信息。ChatGPT Agent 可以根据需要选择用文本浏览器或可视化浏览器打开网页，从网上下载文件，在终端中运行命令处理文件，然后再通过可视化浏览器查看输出结果。同时也会根据任务调整策略，以快速、准确和高效的执行。

ChatGPT Agent 专为迭代式、协作式的工作流程而设计，远比以往的模型更加互动和灵活。在 ChatGPT 执行任务的过程中，用户可以随时打断它，进一步澄清指令，令其朝着期望的方向发展，或完全更换任务内容。它会在新的信息基础上继续工作，而不会丢失此前的进度。

同样地，ChatGPT 也会在需要时主动向用户请求更多细节，以确保任务始终与目标保持一致。如果某项任务耗时超出预期或陷入停滞，用户可以选择暂停任务、请求进度摘要，或者直接终止任务并获取当前已有的部分结果。如果用户在手机上安装了 ChatGPT 应用，它还会在任务完成后发送通知。

基准测试结果：拓展现实世界的实用性

ChatGPT Agent 及背后模型的能力提升体现在多个基准测试中的顶尖表现，评估内容包括网页浏览和现实世界任务的完成能力。

其中在「人类最后考试」（Humanity's Last Exam）评估中（这项评估衡量了 AI 在各个领域的专家级问题上的表现），支持 ChatGPT Agent 的模型在该评估中的 Pass@1 分数为 41.6。

由于该 Agent 能够动态规划并自主选择工具，它可以通过不同的方式处理相同的任务。在通过简单的并行策略进行扩展时 —— 同时运行最多八次尝试并选择自我报告信心最高的结果 —— 该 Agent 的 HLE 得分提高到了 44.4。

FrontierMath 是目前已知最难的数学基准测试，包含全新且未公开发表的问题，通常需要数学专家花费数小时甚至数天才能解决。在具备工具使用能力（例如可访问终端以执行代码）的情况下，ChatGPT Agent 在该测试中达到了 27.4% 的准确率，远远超越此前的所有模型。

OpenAI 还使用模拟复杂真实任务的基准测试对该模型进行了评估。在一个用于评估模型在复杂、具有经济价值的知识型工作任务中表现的内部基准中，ChatGPT Agent 的输出在大约一半的情况下可与人类相媲美，甚至优于人类，任务完成时间范围不等，并且显著优于 o3 和 o4-mini 模型。

在 DSBench 基准测试中，用于评估 Agent 在涵盖数据分析与建模的真实数据科学任务的表现。ChatGPT Agent 超越了人类的平均表现，且优势明显。

在 SpreadsheetBench 基准测试中，用于评估模型处理真实场景电子表格编辑任务的能力。ChatGPT Agent 表现远超现有模型。当赋予直接编辑电子表格的能力时，它的得分更是高达 45.5%，而 Excel 中的 Copilot 仅为 20.0%。

方法概览如下：SpreadsheetBench 的作者使用的是基于 Windows 系统的 Microsoft Excel 环境来评估电子表格任务。而 OpenAI 使用的是 macOS 系统和 LibreOffice，这可能会导致评分上的细微差异。例如，作者报告 GPT-4o 在「整体高难度限制」项上的得分为 15.02%，而 OpenAI 测得的结果为 13.38%。OpenAI 使用的是包含全部 912 道题目的完整基准测试集。

在一个内部基准测试中，OpenAI 评估了模型处理投资银行分析师一至三年级建模任务的能力，例如：为一家《财富》500 强公司制作带有规范格式和引用的三大财务报表模型。ChatGPT Agent 所依托的模型在这一评估中显著优于 deep research 和 o3。

OpenAI 还在 BrowseComp 基准测试中评估了 ChatGPT Agent。该基准由 OpenAI 于今年早些时候发布，用于衡量浏览型 Agent 在网络上查找难以获取信息的能力。ChatGPT Agent 在该测试中创下了新的 SOTA（当前最优表现），得分为 68.9%，比 deep research 高出 17.4 个百分点。

最后，在 WebArena 基准测试中，用于评估网页浏览型 Agent 完成真实网页任务的能力。ChatGPT Agent 在表现上超越了由 o3 驱动的 CUA（即驱动 Operator 的模型）。

更多基准测试细节请参阅 ChatGPT agent 系统卡（System Card）：

系统卡地址：https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21eacc3459d/chatgpt_agent_system_card.pdf

最后，山姆・奥特曼发表了一篇长推介绍了 ChatGPT Agent 的安全限制。

Agent 代表了 AI 系统能力的新高度，它能够利用自身的计算机为你完成一些特殊而复杂的任务。它融合了 Deep Research 和 Operator 的精髓，但实际功能远超想象 —— 它可以进行长时间思考，使用一些工具，进行更深入的思考，采取一些行动，再进行更深入的思考等等。

例如，我们在发布会上展示了一个为朋友的婚礼做准备的演示：购买服装、预订行程、挑选礼物等等。我们还展示了一个分析数据并创建工作演示文稿的示例。

尽管其效用很大，但潜在的风险也很大。我们已在其中构建了大量的安全措施和警告，以及比以往任何时候都更广泛的缓解措施，从强大的训练到系统安全措施再到用户控制，但我们无法预见一切。本着迭代部署的精神，我们将向用户发出很多警告，并给予用户自主选择是否谨慎采取行动的自由。

我会向我的家人解释这是前沿和实验性的。这是一个尝试未来的机会，但在我们有机会在现实世界研究和改进它之前，我不会将它用于高风险用途或获取大量个人信息。我们尚不清楚具体会造成什么影响，但恶意行为者可能会试图「诱骗」用户的 AI Agent，使其提供不该提供的隐私信息，并采取不该采取的行动，而这些行为的方式我们无法预测。

我们建议授予 Agent 完成任务所需的最低访问权限，以降低隐私和安全风险。例如，我可以授权 Agent 访问我的日历，以便安排一个合适的聚餐时间。但如果我只是让它帮我买衣服，就不需要授予它任何访问权限。诸如「查看我昨晚收到的电子邮件，并采取一切必要措施处理，不要问任何后续问题」之类的任务风险更大。这可能会导致恶意电子邮件中不可信的内容诱骗模型泄露你的数据。

我们认为，重要的是从接触现实开始学习，并且随着我们更好地量化和降低潜在风险，人们应该谨慎而缓慢地采用这些工具。与其他新的能力水平一样，社会、技术和风险缓解策略需要共同发展。

网友一手体验

至于这款 Agent 是否好用，不少网友现身说法。

X 网友 @rowancheung 提前获得访问权限，并让 ChatGPT Agent 在 20 分钟内为他创建一个完整的提前退休计划。

拿到任务，ChatGPT Agent 就开始查找温哥华的当地税法、分析平均每月支出率、计算 30 岁退休所需的储蓄金额、研究最佳投资分配，还发现了 Rowan 从未听说过的税务优化策略、构建多种财务独立提前退休（FIRE）场景，最终创建一个可下载的演示文稿，总结结果。

，时长00:16

Rowan 表示，这项工作如果由财务顾问完成，可能会花费 5000 美元以上，并且需要数周时间。其中电子表格和幻灯片生成能力确实不错，但与 Manus 或 Genspark 等工具得到的结果类似。

于是，Genspark 联合创始人、CEO Eric Jing 将 Rowan Cheung 的提示词进行了 OCR，并将其输入到 Genspark 中。

他表示，在相同的提示下，Genspark 仅用了一小部分时间和成本，就生成了比 ChatGPT Agent 质量高得多的结果。

，时长00:35

还有网友让 ChatGPT Agent 去 Tesco 食品店完成购物，订购烤肉晚餐和粘稠焦糖布丁。

他给出的提示词也相当简单：Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert.

，时长01:11

「我看着它浏览网站、提示我输入登录信息、将商品加入购物车，并自主完成整个过程，真是太不可思议了。」

不过，该网友也坦言，ChatGPT Agent 干活的整个过程大约花了 20 分钟，如果自己手动操作可能会更高效一些，未来还有改进的空间。

参考内容：

https://openai.com/index/introducing-chatgpt-agent/

https://x.com/OpenAI/status/1945890050077782149

https://x.com/rowancheung/status/1945896543263080736

https://x.com/ericjing_ai/status/1945915234784588272

https://x.com/thealexbanks/status/1945921363237052589

#Le Chat

Le Chat全方面对标ChatGPT，欧洲AI新贵穷追不舍

Mistral AI只是想做欧洲版的OpenAI？

最近几个月，由谷歌和 Meta 前研究人员建立的欧洲的 AI 初创公司 Mistral AI 有些躁动不安。

他们接连发布了好些个开源模型，覆盖不同的领域，包含号称「世界上最优秀」的 OCR 模型、「对标 Claude」的多模态模型、首个推理大模型 Magistral 以及两天前发布的「全球最佳」的开源语音模型 Voxtral。

这样似乎也很难让这位欧洲 AI「新贵」感到满意，他们还想在应用层面好好地卷一卷 OpenAI。

他们将 Le Chat 再一次升级，引入了一些强大的新功能，使其更强大、更直观，也更有趣，在功能上几乎全方位对标 ChatGPT。

Le Chat 的新功能

深度研究模式：即使是复杂主题，也能快速生成结构化的研究报告。

语音模式：使用我们的新 Voxtral 模型与 Le Chat 对话，而不是用键盘输入。

原生多语言推理：借助我们的推理模型 ——Magistral，获取深思熟虑的答案。

项目管理：将您的对话组织到内容丰富的文件夹中。

高级图像编辑，在 Le Chat 中直接进行，与 Black Forest Labs 合作。

，时长01:53

Le Chat 新功能宣传片

研究模式可将 Le Chat 转变为一个协调的研究助手，能够规划、明确需求、搜索和综合信息。提出一个有深度的问题，它会将其分解，收集可靠的资料，并构建一个结构清晰、有参考文献支持且易于理解的报告。

它由工具增强型深度研究 Agent 驱动，但设计得简单、透明且真正有帮助，仿佛与一个组织良好的研究伙伴合作。

Mistral AI 也在官网展示了一些用例。深度研究模式能够追踪市场趋势、撰写商业策略书、做个人计划以及最重要的、进行学术研究。

语音模式可以像和人聊天一样与 Le Chat 交流 —— 无需打字。你可以在散步时头脑风暴、在处理杂事时快速获取答案或转录会议内容。它由 Mistral 新的语音输入模型 Voxtral 驱动，专为自然、低延迟的语音识别而构建，能跟上用户的工作速度。

但目前 Le Chat 仅支持语音转文字的输入，该功能并非实时语音对话。

所以，跟电子助手聊天的功能依旧没有实现，更别提 Grok 4 Ani 那样的数字伴侣了。

在图像编辑功能方面，可以通过「移除物体」或「将我放置在另一个城市」等简单提示来创建并编辑图像。模型支持转换场景，同时保留角色和细节。这有助于保证编辑的一致性：可以保持人物、物体和设计元素在图像之间的不会变得认不出来。

图像编辑这块，Le Chat 似乎做得出人意料的好。网友在论坛分享了使用体验，认为 Le Chat 做得比 OpenAI 更好。

「OpenAI 的模型在编辑时会改变整个图像，导致无关区域出现细节错误。（Le Chat）似乎完美地保留了与查询无关的图像部分，并选择性地应用编辑，这令人印象深刻！」

网友上传了一张家庭办公室的照片，并提出了以下提示：「修复照片底部略微撕裂的灰色面板，让它们看起来像全新的」，编辑结果非常令人满意。

上图为原始图像，下图为编辑后图像

对于这些新功能，我们的读者想必已经非常熟悉。在这一次的大更新之后，Le Chat 在功能上基本实现了与 ChatGPT 等行业领先的产品保持一致。

最近 Mistral AI 的动作确实让人看到了欧洲在大模型领域保持追赶的势头。对此，网友们表达了对 Mistral 快速追赶的兴奋。

值得分享的是，Le Chat 在法语中意为「猫」，而 Mistral AI 的主页底部就有一只像素猫咪，Mistral AI 图标也形似一只猫猫头，非常可爱。

Mistral AI 的语音识别模型

7 月 15 日，Mistral AI 发布了全新的语音识别模型 Voxtral，号称是「全球最佳（且开源）」的语音识别模型。

Voxtral 在语音转写方面全面超越了 Whisper large-v3，当前领先的开放源代码语音转写模型。它在所有任务中都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash，并在英语短形式和 Mozilla Common Voice 上取得了最先进的结果，超越了 ElevenLabs Scribe，展示了其强大的多语言能力。

Voxtral 3B 和 Voxtral 24B 模型不仅仅具备语音转录功能，还具备以下能力：

超长上下文理解：支持最长 32k token 的上下文，转录最长达 30 分钟音频，理解可达 40 分钟；
内置问答与摘要功能：无需将语音识别与语言模型串联，即可直接针对音频内容提问或生成结构化摘要；
原生多语种支持：具备自动语言识别功能，在全球主流语言（如英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等）中均达到业内领先表现，助力团队以单一系统服务全球用户；
从语音直接触发函数调用：可根据用户的语音意图直接触发后端函数、工作流或 API 调用，无需中间解析步骤，实现语音到系统指令的无缝转换；
强大的文本理解能力：延续其语言模型基础（Mistral Small 3.1）在文本处理方面的高性能表现。

#FreeMorph

训练太复杂？对图片语义、布局要求太高？图像morphing终于一步到位

本文第一作者操雨康，南洋理工大学MMLab博士后，研究方向是3D/4D重建与生成，人体动作/视频生成，以及图像生成与编辑。

本文共同第一作者司晨阳，南京大学助理教授，研究方向是图像/视频生成，以及生成模型的优化和加速。

在图像处理领域，「图像 morphing」（图像变形）是一项常见又充满创意的任务 —— 它可以让两张风格迥异的图片平滑过渡、自然融合，从而生成令人惊艳的中间图像。你可能在动画、电影特效或照片编辑中见过它的身影。

过去，这项技术往往依赖于复杂的图像对齐算法和颜色插值规则，难以应对复杂纹理和多样语义的图像变化。近年来，虽然 GAN、VAE 等深度学习方法取得了显著进步，但它们仍然面临训练成本高、数据依赖强、反演不稳定等问题 —— 尤其在真实世界图像中表现并不稳定。

为了实现高质量的图像 morphing，研究者们先后尝试了从图像 warping 到颜色插值，从 GAN 到 VAE，甚至使用了 Stable Diffusion 和 CLIP 等大模型。然而，即使在最先进的方案中，训练成本高、适应性差依旧是难以回避的难题。

那么，是否可能完全抛开训练？不再依赖预训练模型或额外标注？只用两张图像，就能高效、自然地完成 morphing？为了解决这一挑战，来自南洋理工大学 S-Lab、南京大学以及香港中文大学的研究团队提出了一种全新的方法 ——FreeMorph。该方法不仅实现了无需训练、一步到位的图像 morphing 效果，还能在拥有不同语义与布局的图像之间，生成流畅自然的过渡过程，为 training-free 图像 morphing 打开了全新的可能性。

想深入了解 FreeMorph 的技术细节？我们已经为你准备好了完整的论文、项目主页和代码仓库！

论文地址：https://arxiv.org/abs/2507.01953
项目地址：https://yukangcao.github.io/FreeMorph/
GitHub：https://github.com/yukangcao/FreeMorph

引言

近年来，随着大规模文本 - 图像数据集的普及，视觉 - 语言模型（如 Chameleon）、扩散模型（如 Stable Diffusion）以及 transformer 架构（如 PixArt-α, FLUX）在从文本提示生成高质量图像方面展现出了惊人的能力。这些技术进步也为生成式图像变形（image morphing）方法的革新奠定了基础。Wang & Golland [1] 利用基于 CLIP 的文本嵌入的局部线性特性，通过潜在图像特征的插值来实现平滑过渡。在此基础上，IMPUS [2] 引入了一个多阶段训练框架，包括文本嵌入的优化与 LoRA 模块的训练，以更好地捕捉语义。尽管该方法在视觉效果上更为出色，但每个案例需约 30 分钟的训练时间。DiffMorpher [3] 则通过插值 latent noise，并引入自适应实例归一化（AdaIN）以提升性能。然而，这些方法在处理语义多样、布局复杂的图像时仍显力不从心，限制了其实用性。

针对这些问题，我们的目标是实现无需调参和训练的图像变形。但是，这一目标也带来了两个关键挑战：

1) 图像变形过程中的特征丢失：通常来讲，面对这一问题，大家的第一反应会是把输入图像先转化为预训练扩散模型的潜在特征，然后再通过球面插值来实现图像变形。然而，这一方法看似直接，但 diffusion 扩散模型的多步去噪的非线性过程会导致生成的中间变形图片不连续。同时，diffusion 扩散模型自身的预训练特征也容易造成身份信息丢失；

2) 难以实现连贯过渡：diffusion 扩散模型本身并不具备明确的 “变化趋势”，这使得实现平滑、连贯的变形序列仍需额外机制支持。

为了解决这两个问题，FreeMorph 通过改善 diffusion 扩散模型中的注意力 attention 机制，以实现无需训练的图像变形方法：

1) 引导感知的球面插值：我们首先通过修改预训练扩散模型的自注意力模块 self-attention，融入输入图像的显式引导来增强模型。这是通过球面插值实现的，它产生中间特征并用于两个关键方面：首先，我们进行球面特征聚合，以融合自注意力模块的 Key 和 Value 特征，确保整个生成图像序列的过渡一致性。其次，为解决身份信息丢失问题，我们引入了先验引导的自注意力机制，该机制融入输入图像的显式引导，以保留其独特身份特征。

2) 面向步骤的变化趋势：为实现丝滑的过渡，我们提出了一种新颖的步骤导向的变化趋势方法。该方法融合了分别源自两个输入图像的两个自注意力模块，实现了一种受控且一致的过渡，同时尊重两个输入。为进一步提升生成图像序列的质量，我们设计了一种改进的反向去噪和正向扩散过程，将这些创新组件无缝集成到原始的 DDIM 框架中。

为全面评估 FreeMorph 并与现有方法进行基准测试，我们专门收集了一个新的评估数据集。该数据集包含四组不同类别的图像对，这些类别根据图像的语义相似性和布局相似性进行划分。

FreeMorph: 无需训练的图像变形框架

给定两张输入图像，我们首先提出两个模块：(1) 引导感知的球面插值和(2) 步骤导向的变化趋势，以增强定向性（保持身份特征的能力）和一致性（平滑过渡）。此外，我们注意到，在去噪步骤中简单应用这两个模块中的任何一个，效果都不够理想。因此，我们针对正向扩散和反向去噪过程开发了一种改进的方法，如上述算法所示。

引导感知的球面插值

现有的图像渐变方法 [25, 47, 49] 通常需要为每张输入图像训练低秩适应（LoRA）模块，以增强语义理解并实现平滑过渡。然而，这种方法通常效率低下且耗时，并且难以处理语义或布局不同的图像。

本文中，我们提出了一种基于预训练 Stable Diffusion 模型的免调参图像渐变方法。利用 DDIM（如公式 2 所示）进行图像反转和插值的能力，人们可能会考虑将输入图像

转换为潜在特征

，并应用球面插值，这看起来像是一个简单直接的解决方案：

其中

是中间图像的索引，

。在实验中，我们设置 J=5。

然而，直接将这些插值后的潜在特征

反转为图像，常常会导致过渡不一致和身份信息丢失（见下图）。这个问题的根源在于：

1. 多步去噪过程高度非线性，导致生成的图像序列不连续；

2. 缺乏显式引导来控制去噪过程，使得模型继承了预训练扩散模型本身的偏见。

球面特征融合（Spherical feature aggregation）：从先前的图像编辑技术中汲取见解，我们观察到：使用特征

作为初始化，并在注意力机制中用来自右侧图像

的特征替换 Key 和 Value 特征（K 和 V），可以显著提升图像过渡的平滑度和特征信息保持度，尽管可能仍存在一些瑕疵（见上图）。

受此发现的启发，并认识到 Query 特征（Q）在很大程度上反映了图像的整体布局，我们提出首先融合来自左右图像（

）的特征，为多步去噪过程提供显式引导。

具体操作如下：

在去噪步骤 t 中：

1. 我们将输入图像

对应的潜在特征

输入预训练的

，以获取它们的 Key和 Value特征（

）。

2. 接着，我们替换掉当前中间状态

输入

得到的原始 K 和 V 特征

。

3. 我们计算左右图像 K 和 V 特征的平均值，并据此修改注意力机制：

其中，

是通过将

输入预训练

得到的。

先验驱动的自注意力机制（Prior-driven Self-attention Mechanism）：虽然我们的球面特征融合技术显著改善了图像渐变中的身份信息保持度，但我们发现，在前向扩散和反向去噪阶段统一使用这种方法，会导致生成的图像序列变化极小，无法准确代表输入图像。这个结果是预料之中的，因为潜在噪声会对反向去噪过程产生重大影响（如下图所示）。因此，应用上述公式中描述的特征融合会引入模糊性 —— 来自输入图像的一致且强大的约束，使得每个中间潜在噪声 i 都显得非常相似，从而限制了过渡的有效性。

为解决这一问题，我们进一步提出了一种先验驱动的自注意力机制。该机制优先考虑来自球面插值的潜在特征，以确保潜在噪声空间内的平滑过渡；同时，在后续阶段强调输入图像以维持身份信息。具体策略为：

在反向去噪阶段：我们继续使用公式 5 描述的方法（融合左右图像特征）。
在前向扩散步骤：我们采用一种不同的注意力机制，通过修改自注意力模块来实现：

即：使用所有 J 个中间步骤 k 对应的 Key 和 Value 特征 (

) 的平均来计算注意力。

步骤导向的变化趋势

在获得了能够体现方向性并准确反映输入图像身份的图像序列后，下一个挑战是如何实现从左图像

到右图像

一致且渐进的过渡。这个问题源于缺乏一个捕捉从

变化的变化趋势。

为此，我们提出了一种步骤导向的变化趋势，它逐渐改变输入图像（

）在生成过程中的影响力：

其中

代表图片总数（包括生成的 J 张图像和输入的 2 张图像）。

整体前向扩散和反向去噪过程：

高频高斯噪声注入（High-frequency gaussian noise injection）：如前所述，FreeMorph 在前向扩散和反向去噪阶段都融合了左右图像的特征。然而，我们观察到，这有时会给生成过程施加过于严格的约束。为缓解此问题并允许更大的灵活性，我们提出在前向扩散步骤后，向潜在向量 z 的高频域注入高斯噪声：

其中，

分别表示快速傅里叶逆变换和快速傅里叶变换。

表示随机采样的噪声向量，m是一个与 z 大小相同的二值高通滤波器掩码。

整体流程（Overall process）：为提升图像渐变效果，我们发现在所有去噪步骤中统一应用引导感知球面插值或步骤导向的变化趋势会导致次优结果。

为此，我们为前向扩散和反向去噪过程开发了一种精细化方案：

前向扩散：

前
步：使用标准自注意力机制。
从
到
步：应用先验驱动的自注意力机制（即平均所有中间状态特征）。
剩余步骤：实施步骤导向的变化趋势（动态混合左右图影响力）。

反向去噪：

前
步：使用步骤导向的变化趋势。
从
到
步：应用特征融合方法（即双图特征平均融合）。
最终步骤：切换回原始自注意力机制（追求最高保真度）。

这里，

是超参数，T=50 是总步数。

实验

实验结果：在下图中，我们展示了 FreeMorph 生成的效果，这些结果充分证明了其生成高质量平滑过渡的能力。FreeMorph 在多样化场景中表现卓越：既能处理不同语义与布局的图像，也能驾驭具有相似特征的画面。同时，该方法还能有效捕捉细微变化 —— 无论是不同颜色的蛋糕，还是人物表情的微妙差异，均能精准呈现。

与其他图像变形方法的对比：下图中，我们提供了与现有图像变形方法的定性对比。有效的图像变形结果应当呈现从源图像（左）到目标图像（右）的渐进式过渡，同时保持原始身份特征。基于此标准可得出以下观察：

1. 处理语义与布局差异较大的图像时，IMPUS [2] 存在身份特征丢失及过渡不平滑问题。如下图第二案例所示：(i) 第三张生成图像偏离原始身份特征；(ii) 第三与第四生成图像间出现突变；

2. 尽管 Diffmorpher [3] 比 IMPUS 实现了更平滑的过渡，但其结果常存在模糊且整体质量较低（见下图第一个案例）；

3. 基本方法 "Slerp"（仅采用球面插值与 DDIM 过程）存在三大缺陷：(i) 因缺乏显式引导而难以准确解析输入图像，(ii) 图像质量欠佳，(iii) 过渡突变。相比之下，本方法始终展现优越性能，其平滑过渡特性与高清画质优势显著。

总结

本文提出 FreeMorph，一种无需调参的新型流程，可在 30 秒内为两张输入图像生成高质量平滑过渡。具体而言，本方法创新性地通过修改自注意力模块引入显式图像引导，其核心技术包含两大创新组件：球面特征聚合机制与先验驱动自注意力机制。此外，我们提出步骤导向的定向变分趋势，确保过渡方向与输入图像严格一致。为将上述模块融入原始 DDIM 框架，还专门设计了改进型前向扩散与反向去噪流程。大量实验表明，FreeMorph 在多样化场景中均能生成高保真结果，以明显优势超越现有图像变形技术。

局限性和失败案例：尽管我们的方法达到了当前的最先进水平，但仍存在一些局限性。我们在下图中展示了若干失败案例，具体包括：

1）当处理语义或布局差异较大的图像时，虽然模型仍能生成一定程度上合理的结果，但过渡过程可能不够平滑，存在突变现象；

2）由于我们的方法基于 Stable Diffusion，其固有的偏差也会被继承，导致在处理涉及人体四肢等结构时，图像过渡的准确性受到影响。

参考文献

[1] Interpolating between images with diffusion models. ICML workshop 2023.

[2] IMPUS: Image morphing with perceptually-uniform sampling using diffusion models. ICLR 2023.

[3] Diffmorpher: Unleashing the capability of diffusion models for image morphing. CVPR 2024

#Oasis

One image is all you need，多模态指令数据合成，你只管给图，剩下的交给Oasis

近年来，多模态指令数据合成方法多依赖人工设计复杂的合成提示词（prompt），耗费大量人力与时间成本。在文本数据合成领域，MAGPIE [1] 是一个非常成功的合成方法，该方法无需用户提供任何 prompt，仅以 <|im_start|> 这类特殊 token 作为模型输入，即可完成数据合成。

受启发于 MAGPIE，本文中来自同济大学、字节跳动和爱丁堡大学的研究者提出了一种新型多模态指令数据合成方法，只需用户提供图片（即，VLM 中常用的特殊 token <image>），Oasis 会自动完成指令合成、质量控制和回复生成，产出高质量的数据。

同时，为了支持进一步研究，该研究提供了一个全新的开源代码库 MM-INF，该库涵盖了 Oasis 和一些常用的多模态数据合成方法，并不断进行更新维护，欢迎大家试用并提供宝贵的反馈意见。

论文链接：https://arxiv.org/abs/2503.08741

代码链接：https://github.com/Letian2003/MM_INF

数据集链接：https://huggingface.co/datasets/WonderThyme/Oasis

研究动机

上图展示了常用数据合成链路与 Oasis 的流程对比，常用的数据链路可能会存在以下三类问题：

多样性缺失：大量方法依赖固定不变的提示词与合成流程，严重限制了数据的覆盖范围与难度层次，导致生成数据同质化严重；
质量不足：现有技术难以稳定产出能显著提升多模态大语言模型（MLLMs）表征能力的高质量合成数据，多数研究不得不退而求其次，采用基于图像描述（caption）的二次生成策略，效果与效率均不理想；
依赖人工：流程繁琐且成本高企。即便看似「一站式」的合成框架，在关键环节（如设计数据模式、编写提示词等）仍需大量人工参与，不仅费时费力，还使整个数据合成过程低效且繁琐。

本文提出的 Oasis 仅依靠图像生成数据，打破了依赖预设文本提示词（<image> + [text prompt]）的传统多模态输入模式。该方法诱导强大的 MLLM 仅基于输入的图像（作为 < image> token 输入），利用其自身的知识和自回归特性，自主生成多样化、与图像内容相关的指令。完全不需要人工提供任何前置的文本提示词。研究者深入分析了高质量指令应具备的属性，并据此精心设计了一系列筛选标准，用于自动过滤掉生成指令中的低质量数据。

方法介绍

概述

方法如上图所示，主要有三个步骤：

构造「钩子提示词（hooking prompt）」以诱导模型进行自回归采样；
对采样结果进行分类，只保留指令型采样结果；
进行指令质量控制 & 回复生成。

我们以 Qwen2-VL 为例，详细介绍这三个步骤。

第一步：构造「hooking prompt」诱导模型进行自回归采样

我们提取完整输入中的前缀「<|im_start|>User\n<image>」，送入到 VLM 中进行采样，由此生成的回复是不受任何人为 bias 影响的，唯一的 condition 是图片自身；

在采样过程中，生成的数据大致可分为两类：指令型（instruction-following）和描述型（caption），这一现象可以通过交错的多模态语言模型（MLLM）图像 - 文本训练过程来解释。

第二步：采样结果分类

为了仅筛选出指令数据用于后续工作，我们设计了一种分类机制将数据归入指令型和描述型两类。

具体而言，我们驱动一个大语言模型（LLM）作为分类器来预测类别。若包含指令，则将其分类为指令遵循型数据，并从中提取一条指令；否则，将其分类为描述型数据并舍弃。我们采用 few-shot 策略以提高分类精度，完整的提示词模板见附录。

对于分类为指令型的采样结果，我们会进行质量控制和回复生成。

第三步：质量控制 & 回复生成

我们从指令的可解性 / 清晰度 / 幻觉程度 / 无意义性四个角度，对指令进行筛选，通过筛选的指令会用 Qwen2-VL 进行回复生成，组成一条完整的「指令 - 回复」训练数据；

每个维度均采用 1-5 级评分（1 分表示最差，5 分表示最优）：

可解性 (Solvability)：评估图像是否提供足够的信息来全面回答问题。如果图像缺失关键细节（如对象或上下文），指令可能无法被完全解决。
清晰度 (Clarity)：评价问题传达意图的精确程度。指令应避免模糊性，确保能得出明确答案（例如，避免开放式或含糊的表述）。
幻觉程度 (Hallucination)：衡量问题内容与图像实际内容的一致性。指令需避免引入图像中不存在的信息（如虚构对象或场景）。
无意义性 (Nonsense)：检查问题在语法、连贯性和语义上的合理性。指令必须通顺、有意义，避免错误如语法混乱或逻辑矛盾。

具体的筛选细节见附录。另外，我们在消融实验中发现回复的质量控制是无效的，只对指令做质量控制即可。

Oasis-500k

我们基于 Cambrian-10M [2] 的图片，进行数据生产，最后合成约 500k 的训练数据，称之为 Oasis-500k；由于 Oasis 的生产只依赖图片，所以只要图片的数量是足够的，Oasis 可以轻松进行 Scaling，数据量级随着时间是线性增长的。

数据特性分析

我们对 Oasis 合成的数据和开源常用的指令数据 LLaVA-NeXT 进行了一系列属性的对比，包括指令和回复的长度、语言类型、动名词组合等。

指令和回复的长度

如上表所示，从指令和回复的平均长度来看，Oasis 数据均长于 LLaVA-NeXT，且整体标准差更大。更长的长度表明 Oasis 数据可能包含更丰富的信息，而更大的标准差则说明其数据任务更多元。

语言类型

得益于该方法的自回归特性，基于图像的自回归过程不会引入显式语言偏差，因此生成的指令覆盖广泛语种。借助 langdetect 库，对 Oasis-500k 数据的语言类型分布进行可视化分析发现：除英文（78.52%）和中文（18.66%）外，还包含韩语、挪威语、越南语、法语、德语等小语种，语言多样性显著。

动词名词组合

基于 spaCy 库，解析了数据集的根动词（root verbs）与高频名词对象（top noun objects，即出现频率超过 1% 的根动词及与其关联的前 3 位名词对象）。上图展示了两类数据中最常见的根动词及对应名词对象分布，相较 LLaVA-NeXT，Oasis 数据的根动词具有以下优势：

表达自然性：覆盖更自然实用、信息量更丰富的动词语汇；
对象多样性：高频名词对象呈现更丰富的语义分布。

值得注意的是，LLaVA-NeXT 对「answer question」组合的高度依赖，反映出其在任务设计上可能过度偏重问答（QA）场景。

数据示例

Oasis 数据集的示例如图所示，可见 Oasis 的指令生成能力很强，可基于图像主题生成细节丰富且信息密度高的指令。另外生成的任务覆盖广度好，涵盖跨领域任务场景，如目标识别（Object Recognition）、场景描述（Scene Description）和代码理解（Code Comprehension）等。这些可视化同样佐证了前文关于数据多样性的观点。

实验结果

Oasis 有效性

我们将 LLaVA-NeXT 设置为 baseline，在其 SFT 数据上做增量改进，观察相对于 baseline 的提升。我们在 14 个 benchmark 上对基于 Oasis 训练的 MLLM 进行了全面评估。

如上表所示，Oasis 作为基线的增量数据引入，较基线实现全面且显著的性能提升。

在 Vicuna1.5/Qwen2.5/Llama3 等基座网络上，平均提升分别 3.1%/1.8%/3.2%；以 Vicuna-7B-v1.5 为例，通用知识 MMBench-EN/CN 准确率提升 + 1.4% / +2.3%；OCR 任务 TextVQA 与 OCRBench 精度分别提高 2.7% 和 2.1%；在文档分析任务上较基线提升 4.3% 和 6.3%；

上述结果不仅证明了合成数据的多样性，更揭示了 Oasis 在增强 MLLM 泛化能力上的有效性。

对比其他合成方法

除了 Oasis 数据，我们引入了 4 种增量改进，来进一步说明 Oasis 的有效性。

Oasis 图片的原始标注数据（指令 + 回复），验证 SFT 图片多样性增加的影响；
LLaVA-NeXT 原始 SFT 数据的上采样，排除数据量级对效果的影响；
MMEvol 数据 [3]
DenseFusion-1M 数据 [4]

如上表所示，Oasis 作为增量数据引入时，依然表现出了更好的综合性能，再一次佐证关于数据多样性的观点；

数据 Scaling 效果

我们基于 100k 的 LLaVA-NeXT 数据，对 Oasis 的数据量进行了 3 组 Scaling 实验，即，在 LLaVA-100k 的基础上分别加入 150k/300k/500k 的 Oasis 合成数据。整体趋势上来看，Oasis 数据量从 0 增至 500k 的过程中，模型性能稳定提升，添加 500k 条 Oasis 数据后，平均得分提高 5.2%；300k→500k 带来了 + 4.0% 的显著增益，也进一步说明该数据的可扩展性；

垂域数据合成能力

受益于 Oasis 只依赖图片输入的特性，它非常善于合成垂类的数据。我们以 OCR 为例，验证 Oasis 在垂域数据合成上的有效性。我们从 Cambrian-10M 中筛选出了 24 个和 OCR 相关的数据集（共 311k 图片），然后基于这些图片进行 Oasis 数据合成了 70k 的垂域训练数据。如上表所示，这份 OCR 垂域数据在 OCR 相关的 benchmark 上带来了非常明显的提升。另外如上图所示，Oasis 合成的数据不仅仅关注文字提取任务，同样也考察了模型对于上下文的理解、属性推理等能力。

消融实验

描述数据的回收利用

在数据合成流程的第二步中，我们使用了 LLM 来对第一步中模型自回归采样出的数据进行筛选，去掉 caption 类型的数据。这一步的通过率为 49.9%，占比约一半的 caption 类型数据被丢弃，这导致合成效率受到较大的影响。

因此，我们采用一些策略来对此类 caption 数据进行回收利用。首先，我们使用一些规则来对数据中的特殊字段（如乱码等）进行去除。然后，我们使用 Qwen2.5-72B-Instruct LLM 来对 caption 数据的质量进行三个维度评估，最终我们得到了约 250k 的高质量 caption，并与 LLaVA 论文中给出的图像详细描述指令进行随机匹配。

我们在原始的 OASIS 数据上额外加入这 250k 数据进行训练，如上表所示，加入 caption 后多数指标有上升，并带来了总体 0.3% 的提升。这说明我们可以低成本地回收利用数据合成过程中被丢弃的数据，并带来额外的实验收益。

指令质量控制的必要性

在完成数据分类之后，我们对指令质量进行了控制，从四个维度筛除低质量指令：可解性、清晰度、幻觉成都和无意义内容。为了评估这一质量控制机制对数据质量和模型性能的影响，我们进一步进行了消融实验。

具体来说，我们使用经过质量控制和未经质量控制的 20 万条数据分别训练模型，比较所得模型的性能。在质量筛选过程中，高质量指令的接受率为 50.9%，因此，未经质量控制的 20 万条数据中，会包含约 10 万条「低质量」指令。

根据上表第二部分展示的实验结果。在应用质量控制机制的情况下，模型整体性能显著提升了 1%。在 DocVQA 和 InfoVQA 这两个任务中，模型性能分别提升了超过 7%。这一结果充分证明了在 Oasis 框架中，数据质量控制机制是非常必要的。

回复质量控制的必要性

为探究响应质量控制的必要性，我们尝试了两种低质量响应过滤方法：

负对数似然（NLL）拒绝采样法：对每条指令采样 5 个回复，计算其负对数似然，保留置信度最高的回复作为最终输出（参考 [5]）；
多模态大语言模型（MLLM）评分法：使用 Qwen2-VL-72B-Instruct 模型从有用性（helpfulness）、真实性（truthfulness）、指令遵循性（instruction-following）三个维度进行 1-5 分评分，过滤未获满分（5 分）的回复。

如上表所示，证明两种方法均导致模型平均得分下降（-0.7% 与 -1.6%），证明对回复做质量控制无效甚至有害。高质量指令本身即可驱动 MLLM 生成高质量的回复，引入对回复的质量控制可能会引入额外的人为 bias；

开源代码库 MM-INF

代码链接：https://github.com/Letian2003/MM_INF

该研究还开源了一个数据合成的 codebase MM-INF。该 codebase 依托于开源代码库 ms-swift [6] 实现了一个数据合成引擎，可以串联起若干个基于 LLM/VLM 的数据合成步骤。代码库内涵盖了 Oasis 的实现以及一些常用的多模态数据合成链路（如图片描述、基于描述生成 QA 等），欢迎大家试用并提供宝贵的反馈意见。

参考文献

[1] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, ICLR 2025.

[2] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs, NeurIPS 2024.

[3] MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct, arxiv 2409.05840.

[4] DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception, NeurIPS 2024.

[5] SimPO: Simple preference optimization with a reference-free reward, NeurIPS 2024.

[6] https://github.com/modelscope/ms-swift