51c大模型~合集170

原创已于 2025-08-20 08:59:55 修改 · 842 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-08-18 20:13:24 首次发布

人工智能专栏收录该内容

429 篇文章

订阅专栏

自己的原文哦~ https://blog.51cto.com/whaosoft/14132244

#4DNeX

一张图，开启四维时空：4DNeX让动态世界「活」起来

仅凭一张照片，能否让行人继续行走、汽车继续飞驰、云朵继续流动，并让你从任意视角自由观赏？

南洋理工大学 S-Lab 携手上海人工智能实验室，给出肯定答案 ——4DNeX。作为全球首个仅依赖单张输入即可直接输出 4D 动态场景的前馈（feed-forward）框架，4DNeX 摆脱了游戏引擎与合成数据的束缚，首次大规模利用真实世界动态影像进行训练，实现「时空视频」的高效、多视角、高保真渲染。

在多项基准测试中，4DNeX 以显著优势超越 Free4D、4Real 等当前最佳方法，真正把「一张图生成四维世界」的科幻概念带进了现实。

，时长00:51

论文链接：https://4dnex.github.io/4DNeX.pdf

项目主页：https://4dnex.github.io/

1. 研究背景

世界模型正成为 AI 研究的高频热词。 Google DeepMind 近期迭代的 Genie 3 已能在高质量游戏数据上生成长达数分钟的交互式视频，但目前尚且缺乏在诸多真实场景上的验证。

世界模型发展的一个重要拐点在于：让模型学会刻画我们身处的动态 3D 世界，并服从其物理定律。唯有如此，生成的内容才能既逼真又可导，进而支持「反事实」推演 —— 在虚拟中重放、预测甚至改写现实。这一能力不仅可构成下一代 AR/VR 与xx智能的重要研究基石，更是迈向可信 AGI 的必经之路。

构建 4D 世界模型的关键能力，在于能否持续产出高保真、可扩展的 4D 内容，其主要在于以下三个方面的研究：

数据 – 相较于游戏等引擎合成的数据，真实采集的数据虽能保留物理属性，却难以大量获取，更难标注；
表征 - 如何兼顾不同模态（如材质和几何等）特性，设计选取高效的 3D/4D 表征仍是学界长久未竟的科研命题；
架构 – 当前的不同生成模型架构互有优劣，如何更好地继承现有模型先验，保障高质量仍需探索。

鉴于此，「真实高效」的 4D 世界模型构建非常重要，也充满挑战。

2. 4DNeX-10M Dataset

近千万帧带 4D 标注的视频集

为破解高质量真实 4D 数据稀缺的瓶颈，4DNeX 首度发布 4DNeX-10M—— 近千万帧、多场景、带伪标签的超大规模 4D 视频数据集。其覆盖室内外环境、自然景观与人体运动等多元主题，尤以海量「以人为中心」的 4D 数据为特色，囊括丰富的物理属性、动态细节与交互行为，为 4D 世界模型的构建奠定坚实基础。

图 1 4DNeX-10M Dataset 包含了不同来源且丰富多样的动态数据

为支撑 4DNeX-10M 的构建，研究者们同步设计了一条全自动的数据–标注管线（见下图）。

数据源：单目实拍视频数据，其中动态场景取自 Pexels、Vimeo 等公开视频库；静态场景则整合 RealEstate-10K、DL3DV 等。
首轮清洗：基于光流一致性、亮度统计、运动强度及 OCR 文字检测，剔除低质片段。
标签制作：
内容：LLaVA-Next Video 给视频片段打标。
几何：静态场景使用 Dust3R 三维重建，动态场景使用 Monst3R / MegaSam 四维重建，输出 Semi-Dense 3D/4D 点云图、几何标签。
质量把关：联合置信度（MCV、HCPR 等）与运动平滑度等多重阈值，筛除几何漂移或动态异常序列。

最终打标完成的 4DNeX-10M 数据集构成如图右下角统计所示。

图 2 4DNeX-10M 构建管线以及数据统计情况

3. 4DNeX 方法架构

表征选取

在 4D 内容生成中，传统「4D」指 3D 空间几何外加时间轴；而在世界模型的语境下，RGB 视频携带的材质、光照与语义信息同样关键。4DNeX 因而提出 6D 统一表征：以 RGB 序列刻画外观（3 维）并以 XYZ 序列编码几何（3 维）。该设计无需显式相机控制，即可同步生成多模态内容，兼顾真实感与物理一致性。

图 3 不同的 RGB 和 XYZ 模态融合策略

算法框架

4DNeX 框架的技术突破在于「宽度融合」这一关键策略：系统比较五种方案后，研究者们发现将 RGB 与 XYZ 在 token 宽度维度直接拼接，可将跨模态距离压到最低。相比之下，通道融合会扰乱预训练分布，批处理融合又无法保证对齐。

图 4 不同的空间融合策略对比

网络骨架沿用 Wan2.1 视频扩散模型，通过轻量级 LoRA 微调完成适配，主要的策略包括有：

输入端以斜坡深度初始化，先验地逼近自然场景的深度梯度；
XYZ 坐标经归一化校正，彻底消除 VAE 潜在空间的分布错位；
软掩码机制在扩散过程中动态约束几何细节，引导结构收敛；
旋转位置编码维持像素级 RGB-XYZ 对齐。

最后，仅需一次轻量重投影即可反算出相机参数，确保输出在物理层面严密自洽。

图 5 4DNeX 框架总览

4. 实验结果

实验验证显示 4DNeX 在效率与质量上实现双重突破：VBench 测试中，其动态幅度达 100%（超越 Free4D 的 40.1%），时空一致性 96.8% 领先业界。用户研究（23 人评估）更显示 85% 用户偏好其生成效果，尤其在运动幅度与真实感方面优势显著。

生成效果可视化证明模型能力 —— 单图输入可输出连贯动态点云序列（图 5），新视角合成在真实场景（in-the-wild）中保持几何一致性（下图 6）；与 Animate124、4Real 等基线对比（下图 7），4DNeX 在树叶摇曳幅度、人体动作自然度等细节表现更优。

，时长00:05

图 6 4DNeX 生成的视频效果（RGB & Point Map）

，时长00:05

图 7 4DNeX 生成未经训练真实世界视频的新视角视频

图 8 4DNeX 对比其他方法的生成效果

User Study 用户调研结果显示 4DNeX 生成的效果优于 Free4D、4Real、Animate124、GenXD 方法。

表格 1 User Study 结果对比

消融实验

研究者们还对比了五种融合 RGB 以及 XYZ 的策略，以发现最佳的多模态融合策略。实验一步证实宽度融合策略的关键作用，消除其他方案（如通道融合）的噪声或对齐失败问题。

图 9 不同融合策略的结果可视化展示

#Discrete-Diffusion-Forcing

开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍

视频 1：D2F dLLMs 与同尺寸 AR LLMs 的推理过程对比示意

在大语言模型（LLMs）领域，自回归（AR）范式长期占据主导地位，但其逐 token 生成也带来了固有的推理效率瓶颈。此前，谷歌的 Gemini Diffusion 和字节的 Seed Diffusion 以每秒千余 Tokens 的惊人吞吐量，向业界展现了扩散大语言模型（dLLMs）在推理速度上的巨大潜力。然而，当前的开源 dLLMs 却因一定的技术挑战 —— 例如缺少完善的 KV 缓存机制，以及未充分释放并行潜力 —— 推理速度远慢于同规模的 AR 模型。

近期的一篇工作彻底扭转了这个局面。上海交通大学 DENG Lab 联合加州大学圣地亚哥分校（UCSD）推出 Discrete Diffusion Forcing（D2F），首次使开源 dLLMs 的生成速度显著超过同等规模的 AR 模型。实验显示，D2F 模型在 GSM8K 等基准上，实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升，同时相比于原始的 dLLMs 模型实现了最高达 50 倍的加速。

本文作者团队来自上海交通大学 DENG Lab 与加州大学圣地亚哥分校（UCSD）。该研究由硕士生王旭、准硕士生徐晨开、本科生金义杰以及博士生金佳纯共同完成，指导教师为邓志杰与张浩老师。DENG Lab 隶属上海交通大学，致力于高效、跨模态生成模型的研究。

论文地址：https://arxiv.org/abs/2508.09192

代码地址：https://github.com/zhijie-group/Discrete-Diffusion-Forcing

项目主页：https://zhijie-group.github.io/Discrete-Diffusion-Forcing/

模型仓库：https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_Base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_Lora

Demo 地址：https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B

图 1：D2F dLLMs 实现了相比 LLaMA3 等主流 AR 模型高达 2.5 倍的吞吐量提升

简单来说，D2F 赋予了 dLLMs 几种关键特性：

1. 自回归 - 扩散混合架构：引入块级自回归生成，块间保持因果性，让模型能够有效利用 KV 缓存。

2. 块内 + 块间双尺度并行：引入了块内 token 间并行解码和块间并行解码，最大化并行生成潜力

3. 双状态解码：通过设计双状态的块解码流水线，最大化吞吐量。

4. 更优的 tradeoff：相比原始 dLLMs，具有显著更优的性能 - 效率权衡

5. vLLM 集成：已将 vLLM 集成到 D2F 中，让推理速度更进一步

问题的根源：dLLMs 理论优势与现实瓶颈

扩散大语言模型（dLLMs）理论上具有并行生成 token 的能力，不必像 AR 模型一样逐个生成，从而在推理效率上具备巨大潜力。然而，在实践中，现有的开源 dLLMs 并未充分展现这一优势，其推理速度往往落后于 AR 模型，这个瓶颈主要源于两个基础性问题：

KV Cache 的不兼容性：标准 dLLM 依赖双向注意力机制来获取全局上下文，导致 AR 模型中常见的 KV 缓存加速技术无法直接应用于 dLLMs。在每次去噪迭代中，模型都需要重新计算所有 token 的 K、V 矩阵，造成了巨大的计算冗余。

块间解码的串行限制：为了引入缓存机制，一些工作尝试将生成过程分块（block-wise）。但这些方法通常要求严格的块间顺序，即只有前一个块必须被完全解码后，才能开始处理下一个块。这种严格的依赖使得并行生成仅限于块内而无法应用于块之间，极大地限制了整体的并行潜力。

因此，想要释放 dLLMs 的潜力，就必须同时解决 KV Cache 的兼容性与块间的并行解码问题。

D2F 的核心设计：一种自回归 - 扩散混合范式

面对上述瓶颈，D2F 的核心思想是构建一个融合自回归和扩散思想的混合范式，协同设计高效的模型架构，训练方法以及推理策略。

架构：块级因果注意力，兼容 KV Cache

为了让 dLLMs 能真正兼容 KV 缓存，D2F 将 dLLMs 中标准的双向注意力机制重塑为了块级因果注意力。具体来说：

块内（Intra-block）：保持标准的双向注意力，以充分利用块内的上下文信息。
块间（Inter-block）：使用因果注意力，即任意一个块只能关注其自身及所有在它之前的块。

这种设计在块的层面上建立了自回归的顺序。每个生成完成的块的 KV 状态被缓存并在后续复用，从而根本上解决了 KV Cache 的兼容性问题，大幅减少了冗余计算。

训练：非对称蒸馏与结构化噪声

图 2：D2F dLLMs 基于非对称蒸馏实现训练

为了避免从头训练 dLLMs 的高昂成本。D2F 使用了非对称蒸馏策略，将一个预训练好的 dLLMs 教师模型的能力，高效地蒸馏到 D2F 学生模型上。两者区别在于教师模型使用双向全注意力而学生模型使用块级因果注意力。

为了进一步解锁学生的块间并行能力，D2F 引入了单调递增的结构化噪声调度。具体而言，训练数据前向加噪过程中，序列靠前的块被施加较小的噪声而靠后的块被施加更大的噪声。这种结构化的噪声训练，其目的是为了教会学生模型如何依据部分去噪、尚不清晰的前文来预测后文。

推理：流水线并行解码

图 3：D2F dLLMs 的推理流程示意

在上述训练范式的基础上，D2F 设计了一套创新的并行解码算法：Pipelined Parallel Decoding。

该算法维护一个动态的待解码窗口，其中包括若干 tokens 块。在必要时，新块以半激活的状态进入窗口，并在前缀去噪到一定比例后转为全激活状态。这种动态添加和双状态解码的机制，确保了流水线的高效和质量。

两种状态的区别主要在于解码策略的激进程度：

半激活状态（Semi-activated）：只接受那些预测置信度超过某一阈值 τ_conf 的 token。
全激活状态（Fully-activated）：如果没有 token 超过置信度阈值，也会选择置信度最高的一个 token 进行解码。

，时长00:25

视频 2：D2F dLLMs 推理过程中显式地对多个块进行并行解码

实验结果

速度提升，性能不降

D2F 给原始 dLLM 带来了最高可达 50 倍的加速，同时平均性能不下降。

图 4：D2F-LLaDA 与基线方法的对比

图 5：D2F-Dream 与基线方法的对比

优异的性能 - 效率权衡曲线

D2F 提供了一条远优于现有模型的性能 - 效率权衡曲线。通过调整解码参数，D2F 可以适应各种场景，在性能和速度之间做出灵活的选择。例如，在 MBPP 任务上，通过稍微牺牲性能，吞吐量可达 AR 模型的 4 倍以上。

图 6：D2F dLLMs 实现更优异的优异的性能 - 效率权衡

总结与思考

D2F 的出现为开源 dLLMs 社区注入了新的活力，展现了 dLLMs 推理速度上的巨大潜力。通过开源代码和模型，团队希望能够激励社区投入更多的研究资源，共同推动并行解码技术走向成熟，进入更广泛的实际应用。

此外，D2F 的成功证明了 AR 和 Diffusion 并非是两种完全对立的范式。通过巧妙的混合框架设计，可以融合 AR 模型的缓存优势和 dLLMs 的并行优势，这为大模型推理优化开辟了新的道路。

未来工作：目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待实现，欢迎感兴趣的同学跟我们联系。

#UoMo

UoMo来了，首个无线网络流量预测模型，一个框架搞定三类任务

你有没有想过，未来的移动网络能像 “预知未来” 一样提前感知用户需求？在今年的 ACM KDD 2025 大会上，清华大学电子系团队联合中国移动发布了 UoMo，全球首个面向移动网络的通用流量预测模型。UoMo 能同时胜任短期预测、长期预测，甚至在没有历史数据的情况下生成全新区域的流量分布。它结合了前沿的扩散模型与 Transformer 结构，还能理解城市中的地理信息与人流变化，把网络规划和优化做得更聪明、更精准。

标题：UoMo: A Universal Model of Mobile Traffic Forecasting for Wireless Network Optimization

作者：Haoye Chai（柴浩野）， Shiyuan Zhang（张诗源），Xiaoqian Qi（齐效乾），Baohua Qiu（邱宝华），Yong Li（李勇）

机构：清华大学，中国移动

论文链接：https://dl.acm.org/doi/10.1145/3711896.3737272

数据及代码链接：https://github.com/tsinghua-fib-lab/UoMo

为什么要做 UoMo

在大规模移动网络中，流量预测是实现智能化网络运营与优化的核心能力。它让运营商能够在复杂网络环境中，提前感知流量变化，从而主动执行一系列网规网优操作（如调度资源、部署基站、降低能耗）。然而，现有方法往往针对单一任务，缺乏跨区域、跨任务的统一预测能力，难以支撑智能化网络在多样化场景下的长期稳定运行：

泛化能力不足

不同城市在人口分布、城市布局和地理环境上差异极大，导致流量模式也随之变化，现有专用模型难以捕捉多样化时空特征，更难迁移到新场景。

任务适应性受限

短期 / 长期预测对数据特征的关注点不同，传统做法往往为每个任务单独设计模型，导致部署复杂、维护成本高。

UoMo 目标：在统一框架下同时支持短期预测、长期预测、生成三类任务。

移动网络流量预测任务是什么

论文把移动网络的流量预测归纳为三类

短期预测：用较长历史
预测近未来
，强调短时波动，典型的网规网优任务包括资源分配、用户接入控制等。
长期预测：用较短历史
预测较长未来
，强调周期与规律，典型的网规网优任务包括基站休眠节能、网络容量扩展等。
生成（无历史）：仅用区域环境特征直接生成
，用于新区域的潜在需求评估，典型网规网优任务包含频段规划、小区选址等。

UoMo 的统一架构

数据词元化→ 模型预训练 → 模型微调

(一) 数据词元化：异构时空流量变成统一 “token”

将城市区域

、时间

的张量

切分基础单元

获得 token 序列

，并通过嵌入层

转换为低维表征，以此将不同时空粒度（小区 / 栅格，1 小时 / 15 分钟）投影到相同低维空间。

(二) 基于扩散模型预训练

UoMo 骨干网络结合扩散模型 + Transformer，采用扩散模型建模大规模移动数据的复杂时空分布，采用 Transformer 学习流量数据序列相关性。同时，UoMo 采用掩码 - 复原的自监督训练范式，定义如下四种掩码策略：

短期掩码：遮掩未来短时间内，对应短期预测任务；
长期掩码：遮住更长时间段，对应长期预测任务；
生成掩码：将目标时空区域全部数据进行遮掩，用周围区域 + 环境上下文完成生成任务；
随机掩码：随机遮掩时空点，帮助模型学习数据普适时空规律。

训练目标：定义前向过程加噪后数据表示为e，可观测部分数据为o，掩码策略为m，可以表示如下：

去噪网络用于还原原始添加噪声，最小化掩码部分的 MSE 损失：

(三) 城市环境微调：把人和城市注入模型

城市环境两大来源：（1）移动网络用户数：与网络流量格式相同的时空序列，表征不同时空地点人类移动规律；（2）POI 分布：表示某一时空区域的 POI 数量，通过与时间戳进行组合映射，能够获得具备时间属性的 POI 分布。
基于对比学习的环境对齐：相同时空区域内的流量与环境信息作为正样本，文章中通过理论分析，指出扩散模型中训练目标实际上等价于对比学习中优化 InfoNCE 目标，可以表示：

实验与结论

作者从真实世界 9 座规模不同的城市中采集下行移动流量数据，时间粒度为 15 分钟至 1 小时。在每个数据集中，城市环境环境数据通过公开地图服务抓取各城市的 POI 信息，覆盖居住、娱乐等 15 个相关类别。

实验结果表明，无论是短期预测、长期预测、生成任务，UoMo 相比于现有 baseline 算法，均体现卓越的预测能力，充分说明 UoMo “一模多用” 的能力，具备良好的通用性。

本文还对数据预测效果进行了可视化展示，充分说明 UoMo 所预测数据不仅仅是 “数值指标最优”，能够很好地还原真实流量数据的波动模式，这也为移动网络规划与优化提供重要实用基础。

对于 UoMo 零样本 / 小样本的学习能力， UoMo 相比于其他算法同样能够展示强大的泛化迁移能力，尤其是在小样本数据（如 5%/10% 数据）训练之后，能够进一步拉近与真实的误差。

部署与应用

基于 UoMo 预测的移动网络流量，文章测试了三类典型的应用场景（基站选址规划、无线资源分配、基站休眠控制），验证移动流量预测能力以及对网规网优的能力支撑。部署过程遵循三步闭环范式：

UoMo 流量预测：基于城市多源数据（历史流量、用户数、POI 等），UoMo 执行相应流量预测任务（长期 / 短期 / 生成），产生可用于后续优化的预测流量。
基于生成数据的优化策略求解：在获得预测流量后，将其输入到网络优化求解器中（站点选址、容量规划、节能优化、QoS 优化等），获得网规网优策略。
基于真实数据的策略验证与评估：应用平台按照真实网络数据验证网规网优策略，从覆盖、吞吐、时延等指标对优化策略进行量化评估，当最终系统性能越高，则说明基于 UoMo 预测流量所制定的规划优化策略效果越好。

总结

UoMo 是一种结合扩散模型的移动流量预测通用模型，该模型能够同时支持多种预测任务（短期 / 长期预测与生成）。通过建模移动流量在时间、空间、城市环境之间的联合分布，UoMo 在多城市的预测任务中具备优越的性能表现，并且具备较好的零样本 / 小样本学习能力，体现出卓越的通用性与泛化能力。

#NextStep-1

一次在图像生成上自回归范式的探索

自回归模型，是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界，从经典的离散序列生成，到结合强大扩散模型的混合范式，每一步都凝聚了社区的智慧。

这些工作，比如 MAR、Fluid、LatentLM 等，为我们带来了巨大的启发，也让我们看到了进一步优化的空间：比如，如何避免离散化带来的信息损失？如何让模型的架构更轻盈、更强大？

带着这些问题，阶跃星辰团队进行了新的尝试，并分享了阶段性成果：NextStep-1。

阶跃星辰的初衷是探索一条新的自回归图像生成的路径。NextStep-1 的核心思想是直接在连续的视觉空间中，以自回归方式进行生成。

为实现这一点，团队采用了一个轻量的「流匹配头」（Flow Matching Head）。它让模型能够：

学会在连续的视觉空间中直接生成单个图像 Patch，从根本上绕开了作为信息瓶颈的离散化步骤。
模型以自回归的方式，逐一生成所有 patches，最终完成一幅完整的图像。

这一设计带来了另一个显著优势：架构的简洁与纯粹。由于不再需要外部大型扩散模型的「辅助」，NextStep-1 的整体架构变得高度统一，实现了真正意义上的端到端训练。

阶跃星辰团队认为，NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下，构建一个简洁、高效的自回归模型是完全可行的。

这只是探索的第一步。阶跃星辰选择将 NextStep-1 开源，衷心期待它能引发更多有价值的讨论，并希望能与社区的研究者一起，继续推动生成技术的演进。

论文链接：https://arxiv.org/abs/2508.10711
GitHub 链接：https://github.com/stepfun-ai/NextStep-1
Hugging Face 模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

动因探究：背后的技术支撑

整体架构

NextStep-1 的架构如图 1 所示，其核心是一个强大的 Transformer 骨干网络（14B 参数），辅以一个轻量级的流匹配头（Flow Matching Head，157M 参数），用于直接生成连续的图像 Patch。

图 1 NextStep-1 的架构图

这一结构极其简洁、纯粹，它带来了两大解放：

解放了对离散化的依赖：不再需要图像 Tokenizer 进行离散化，直接在连续空间操作。
解放了对外部扩散模型的依赖：不再需要外接大型扩散模型作为「解码器」，实现了端到端的自回归训练。

核心发现

在探索 NextStep-1 的过程中，阶跃星辰团队获得了两个关键发现，它们不仅解释了模型为何高效，也为未来的研究提供了新的思路。

发现一：真正的「艺术家」是 Transformer

在阶跃星辰的框架中，Transformer 是「主创」，流匹配头更像是「画笔」。团队通过实验发现，流匹配头的尺寸大小（ 157M -> 528M），对最终图像质量影响很小。这有力地证明了，核心的生成建模与逻辑推理等「重活」，完全由 Transformer 承担。流匹配头则作为一个高效轻量的采样器，忠实地将 Transformer 的潜在预测「翻译」成图像 Patch。

发现二：Tokenizer 的「炼金术」—— 稳定与质量的关键

在连续视觉 Token 上的操作带来了独特的稳定性挑战，团队发现两个关键「炼金术」：

通道归一化（Channel-Wise Normalization）是稳定性的「压舱石」：通过引入简单的通道归一化，极其有效地稳定了 Token 的统计特性，即使在高 CFG 指导强度下，也能确保生成清晰、无伪影的图像。
「更多噪声」竟能带来「更好质量」：一个反直觉的发现是，训练 Tokenizer 时加入更多噪声正则化，反而能显著提升最终生成图像的质量。阶跃星辰团队推断，这有助于塑造一个更鲁棒、分布更均匀的潜在空间，为自回归主模型提供更理想的工作平台。

眼见为实：高保真的视觉生成和编辑能力

NextStep-1 实现了高保真的文生图的生成，同时具有强大的图像编辑能力，覆盖多种编辑操作（如物体增删、背景修改、动作修改、风格迁移等），并能理解用户的日常语言指令，实现形式自由的图像编辑。

图 2 展示 NextStep-1 全面的图像生成和编辑能力

硬核实力：权威 Benchmark 下的表现

除了直观的视觉效果，阶跃星辰团队也在多个行业公认的 Benchmark 上对 NextStep-1 进行了严格的评估。结果表明，

综合性能在自回归模型中达到了新的 SOTA（State-of-the-Art）水平
在多个 benchmark 上已能与顶尖的扩散模型（Diffusion Models）直接竞争

表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能

表 2 NextStep-1 在 OneIG 上的性能

表 3 NextStep-1 在 WISE 上的性能

表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性与未来展望

NextStep-1 是阶跃星辰团队对构建简洁的高保真生成模型的一次真诚探索。它证明了，在不牺牲连续性的前提下，构建一个纯粹的端到端自回归模型是完全可行的。阶跃星辰相信，这条「简洁」的道路，为多模态生成领域提供了有价值的新视角。

阶跃星辰团队深知这只是探索的开始，前路依然广阔。作为一个对新范式的初步探索，NextStep-1 在展现出巨大潜力的同时，也让团队识别出了一些亟待解决的挑战。我们在此坦诚地列出这些观察，并视其为未来工作的重要方向。

生成过程中不稳定

NextStep-1 成功证明了自回归模型可以在高维连续潜在空间中运行，并达到媲美扩散模型的生成质量，但这条路径也带来了独特的稳定性挑战。观察到，当模型的潜在空间从低维（如 4 通道）扩展到更高维（如 16 通道）时，尽管后者能表达更丰富的细节，但也偶发性地出现了一些生成「翻车」的情况（如图 3 所示）。

图 3 失败的例子，展示图像生成过程中一些暴露出的问题

虽然其根本原因仍有待进一步探究，但团队推测可能存在以下因素：

局部噪声 / 块状伪影：可能源于生成后期出现的数值不稳定性。
全局噪声：可能反映了模型尚未完全收敛，需要更多的训练来优化。
网格状伪影：可能揭示了当前一维位置编码在精确捕捉二维空间关系上的局限性。

顺序解码带来的推理延迟

自回归模型的顺序解码特性，是其推理速度的主要瓶颈。研究团队对单个 Token 在 H100 GPU 上的延迟进行了理论分析（如表 5 所示），结果表明：

主要瓶颈在于大模型（LLM）骨干网络的顺序解码
流匹配头（Flow Matching Head）的多步采样过程也构成了不可忽视的开销

表 5 H100 上生成每个 token 的理论延迟速度 ( batch size 为 1 )

这一观察指明了两个明确的加速方向：

优化流匹配头：通过减小其参数量、应用模型蒸馏以实现少步生成，或采用更先进的少步采样器。
加速自回归主干：借鉴大语言模型领域的最新进展，如将多 Token 预测等技术，适配到图像 Token 的生成中。

高分辨率生成的挑战

在扩展到高分辨率图像生成方面，与技术生态已相当成熟的扩散模型相比，阶跃星辰团队的框架面临两大挑战：

收敛效率：自回归模型的严格顺序生成特性，在更高分辨率下需要更多的训练步数才能收敛。相比之下，扩散模型在每次迭代中并行地优化整张图像，能更直接地利用二维空间归纳偏置。
技术迁移难度：为高分辨率扩散模型开发的先进技术（如 timestep shift）难以直接迁移。其根本原因在于，流匹配头主要扮演一个轻量级采样器的角色，而核心的生成建模由 Transformer 骨干网络完成，因此单纯修改采样过程对最终输出的影响有限。

因此，基于 patch-wise 的图像自回归模型的高分辨率生成是一个重要探索方向。

监督微调（SFT）的独特挑战

团队观察到，当使用小规模、高质量的数据集进行微调时，训练动态会变得极不稳定。

扩散模型通常仅需数千个样本，就能稳定地适应目标数据分布，同时保持良好的泛化生成能力。相比之下，阶跃星辰的 SFT 过程：

依赖大规模数据：只有在百万样本规模的数据集上训练时，才能观察到显著且稳定的提升。
在小数据集上表现脆弱：当使用小规模数据集时，模型会陷入一种「岌岌可危」的平衡状态。它要么收效甚微，几乎没有变化；要么突然「崩溃」，完全过拟合到目标数据分布上，丧失了原有的泛化能力。

因此，如何在一个小规模数据集上，找到一个既能对齐目标风格、又能保留通用生成能力的「甜蜜点」（sweet spot）检查点，对阶跃星辰团队而言仍然是一个重大的挑战。

#一句话，性能暴涨49%！

马里兰MIT等力作：Prompt才是大模型终极武器

提示词才是AI隐藏的王牌！马里兰MIT等顶尖机构研究证明，一半提示词，是让AI性能飙升49%的关键。

AI性能的提升，一半靠模型，一半靠提示词。

最近，来自马里兰大学、MIT、斯坦福等机构联手验证，模型升级带来的性能提升仅占50%，而另外一半的提升，在于用户提示词的优化。

他们将其称之为「提示词适应」（prompt adaptation）。

论文地址：https://arxiv.org/pdf/2407.14333v5

为此，他们让DALL-E 2和DALL-E 3来了一场PK，1,893名「选手」在10次尝试中，用随机分配三种模型之一复现目标图像。

令人惊讶的是，DALL-E 3图像相似度显著优于DALL-E 2。

其中，模型升级本身仅贡献了51%的性能，剩余的49%全靠受试者优化的提示词。

关键是，那些没有技术背景的人，也能通过提示词，让DALL-E 3模型生成更好的图片。

OpenAI总裁Greg Brockman也同样认为，「要充分发挥模型的潜力，确实需要一些特殊的技巧」。

他建议开发者们去做「Prompt库」管理，不断探索模型的边界。

换言之，你的提示词水平，决定了AI能不能从「青铜」变成「王者」。

别等GPT-6了！

不如「调教」提示词

GenAI的有效性不仅取决于技术本身，更取决于能否设计出高质量的输入指令。

2023年，ChatGPT爆红之后，全世界曾掀起一股「提示词工程」的热潮。

尽管全新的「上下文工程」成为今年的热点，但「提示词工程」至今依旧炙手可热。

然而共识之下，提示词设计作为一种动态实践仍缺乏深入研究。

多数提示词库和教程，将有效提示视为「可复用成品」，但却用到新模板中可能会失效。

这就带来了一些现实的问题：提示策略能否跨模型版本迁移？还是必须持续调整以适应模型行为变化？

为此，研究团队提出了「提示词适应」这一可测量的行为机制，用以解释用户输入如何随技术进步而演进。

他们将其概念化为一种「动态互补能力」，并认为这种能力对充分释放大模型的经济价值至关重要。

为评估提示词适应对模型性能的影响，团队采用了Prolific平台一项预注册在线实验数据，共邀请了1,893名参与者。

每位受试者被随机分配三种不同性能的模型：DALL-E 2、DALL-E 3，或自动提示优化的DALL-E 3。

除模型分配外，每位参与者还独立分配到15张目标图像中的一张。这些图像选自商业营销、平面设计和建筑摄影三大类别。

实验明确告知参与者模型无记忆功能——每个新提示词均独立处理，不继承先前尝试的信息。

每人需要提交至少10条提示词，需通过模型尽可能复现目标图像，最优表现者将获得高额奖金。

任务结束后参与者需填写涵盖年龄、性别、教育程度、职业及创意写作/编程/生成式AI自评能力的人口统计调查。

随机分配，10次生成

实验的核心结果指标，是参与者生成的每张图像与指定目标图像之间的相似度。

这项指标通过CLIP嵌入向量的余弦相似度进行量化。

由于生成模型的输出具有随机性，同一提示词在不同尝试中可能产生不同的图像。

为控制这种变异性，研究人员为每个提示词生成10张图像，并分别计算它们与目标图像的余弦相似度，随后取这10个相似度得分的平均值作为该提示词的预期质量分数。

回放分析：是模型，还是提示词？

实验的另一个核心目标在于，厘清图像复现性能的提升中，有多少源于更强大的模型，又有多少来自提示词的优化？

根据概念框架的表述，当模型从能力水平θ1升级至更高水平θ2时，其输出质量的总改进可表示为：

研究人员将这一变化分解为两部分：

1. 模型效应：将相同提示词应用于更优模型时，获得的性能提升；

2. 提示词效应：通过调整提示词以充分发挥更强大模型优势所带来的额外改进。

为实证评估这两个组成部分，研究人员对DALL-E 2和DALL-E 3（原词版）实验组参与者的提示词进行了额外分析。

具体方法是将实验过程中参与者提交的原始提示词，重新提交至其原分配模型和另一模型，并分别生成新图像。

· 分离模型效应

针对DALL-E 2参与者编写的提示词（x*(θ1,s)），团队同时在DALL-E 2和DALL-E 3模型上进行评估，分别获得Q[θ1s,x*(θ1,s)]和Q[θ2,s,x*(θ_1,s)]的实测值。

这一对比可分离出模型效应：即在固定提示词情况下，仅通过升级模型获得的输出质量提升。

· 比较提示效应

为了评估提示词效应，作者还比较了以下两组数据：

1. 在DALL-E 3上回放DALL-E 2提示词的质量（即Q[θ2,s,x*(θ1,s)]估计值）

2. DALL-E 3的参与者专门为模型编写的提示词在相同模型上的质量（即Q[θ2,s,x*(θ2,s)]估计值）

这一差异恰恰能反映，用户通过调整提示词，模型本身得到的额外改进。

那么，这项实验的具体结果如何？

DALL-E 3强大的生图能力

提示词解锁了一半

实验中，研究团队主要探讨了三大问题：

(i) 接入更强大的模型（DALL-E 3）是否能提升用户表现；

(ii) 用户在使用更强模型时如何改写或优化他们的提示词；

(iii) 整体性能提升中有多少应归因于模型改进，多少应归因于提示词的适应性调整。

模型升级，是核心

首先，团队验证了使用DALL-E 3的参与者，是否比使用DALL-E 2的参与者表现更优？

如下图1所示，汇总了所有发现。

A展示了三组代表性目标图像，每组都包含了从两种模型中抽取的三张图像。

中间行是，目标图像余弦相似度最接近全体参与者平均值的生成结果，上行（下行）则呈现比均值相似度高（低）约一个平均处理效应（ATE）的图像。

在10次必要提示尝试中，使用DALL-E 3的参与者生成图像与目标图像的余弦相似度平均高出0.0164。

这个提升相当于0.19个标准差，如下图1 B所示。

而且，这种优势在10次尝试中持续存在，因此不可否认，模型升级一定会比前代有着显著的性能提升。

而且，参与者的动态提示行为在两种模型间也存在显著差异：

图C表明，DALL-E 3使用者的提示文本平均比DALL-E 2组长24%，且该差距随尝试次数逐渐扩大。

他们更倾向于复用或优化先前提示，这表明当发现模型能处理复杂指令后，他们会采取更具开发性的策略。

此外词性分析证实，增加的词汇量提供的是实质性描述信息而非冗余内容：

名词和形容词（最具描述性的两类词性）占比在两种模型间基本一致（DALL-E 3组48% vs DALL-E 2组49%，p = 0.215）。

这说明了，提示文本的延长反映的是——语义信息的丰富化，而非无意义的冗长。

模型51%，提示词49%

研究人员观察到提示行为的差异表明，用户会主动适应所分配模型的能力。

DALL-E 3使用者的整体性能提升中，有多少源自模型技术能力的增强，又有多少归因于用户针对该能力重写提示？

为解答这一问题，研究人员采用前文所述的回放（replay）分析法，以实证分离这两种效应。

模型效应

将DALL-E 2参与者编写的原始提示，分别在DALL-E 2和DALL-E 3上评估性能。

结果显示，相同提示在DALL-E 3上运行时余弦相似度提升0.0084（p<10^-8），占两组总性能差异的51%。

提示效应

将DALL-E 2参与者的原始提示与DALL-E 3参与者编写的提示（均在DALL-E 3上评估）进行对比。

结果显示，该效应贡献了剩余48%的改进，对应余弦相似度提升0.0079（p=0.024）。

总处理效应

总处理效应为0.0164，关键的是，当DALL-E 3用户编写的提示应用于DALL-E 2时，性能较原始DALL-E 2提示无显著提升（Δ=0.0020；p=0.56）。

这种不对称性，印证了提示优化的效果依赖于模型执行复杂指令的能力边界。

图2 B通过单一目标图像直观呈现这些效应：

上行展示DALL-E 2参与者的原始提示，在DALL-E 3上生成更高保真度的图像，证明固定提示下模型升级的效果；
下行显示DALL-E 3参与者的提示在DALL-E 2上输出质量显著下降，凸显当模型能力不足时，提示优化的效果存在天花板。

这些发现研究人员的理论主张，提供了实证支持：

提示优化是一种动态互补策略——用户根据模型能力提升而主动调整行为，且这种调整对实际性能增益的贡献不可忽视。

技能异质性

如下表1呈现了「回归分析结果」，测试了模型效应、提示词效应以及总效应是否会在不同技能水平的参与者之间系统性地变化。

主要发现如下：

1. 总效应与表现十分位数的交互项呈负相关且统计显著（−0.000115，p = 0.0152）。

这表明模型改进缩小了高、低绩效用户之间的整体差距，这与概念框架中的命题1一致。

2. 模型效应与表现十分位数的交互项，同样呈负相关且统计显著（−0.000059，p=0.0210）。

这说明模型升级主要惠及低技能用户。这与命题2的理论预测相符，因为接近性能上限的高技能用户存在收益递减效应。

3. 并没有发现提示词适应的效益，在技能分布上存在显著差异（−0.000056，p=0.2444）。

此外，研究团队还评估了自动化提示词的效果。

结果发现，GPT-4经常添加无关细节或微妙改变参与者的原意，导致模型输出质量下降58%。

用简单的话来说，AI写的提示词曲解了意图，不如用户精心编制的提示词。

对此，Outbox.ai的创始人Connor Davis给出了建议，不要去过度自动化提示词，人还应该在其中发挥主动性。

作者介绍

Eaman Jahani

Eaman Jahani是马里兰大学商学院信息系统专业的助理教授。

他曾在UC伯克利统计系担任博士后研究员，还获得了MIT的社会工程系统与统计学双博士学位。

Benjamin S. Manning

Benjamin S. Manning目前是MIT斯隆管理学院IT组的四年级博士生。他曾获得MIT硕士学位和华盛顿大学学士学位。

他的研究围绕两个相辅相成的方向：(1) 利用AI系统进行社会科学发现；(2) 探索AI系统如何代表人类并按照人类指令行事。

Joe Zhang

Joe Zhang目前是斯坦福大学博士生，此前，曾获得了普林斯顿大学的学士学位。

个人的研究喜欢从人机交互到社会科学等多个学术领域汲取灵感，试图理解新兴的人机协作系统及其对商业和社会的影响。

参考资料：

https://arxiv.org/abs/2407.14333v5

https://x.com/connordavis_ai/status/1957057335152836737

#Sketch3DVE

妙笔生维：线稿驱动的三维场景视频自由编辑

刘锋林，中科院计算所泛在计算系统研究中心博士研究生（导师：高林研究员），研究方向为计算机图形学与生成式人工智能，在ACM SIGGRAPH\TOG，IEEE TPAMI，IEEE TVCG，IEEE CVPR等期刊会议上发表论文10余篇，其中5篇为第一作者发表于SIGGRAPH和CVPR，4篇论文收录于中科院一区期刊ACM Transaction on Graphics，第一作者研究工作连续两年入选SIGGRAPH亮点工作宣传片（Video Trailer）。曾获得国家奖学金、中国计算机学会CAD&CG凌迪图形学奖学金等荣誉。

随着移动摄影设备的普及，基于手机或相机等可以快速获取带有丰富视角变换的三维场景视频。如何高效、自由地编辑这些三维内容成为一个关键挑战。例如，在视频中无缝添加新物体、精准去除不需要的元素，或者自然替换已有部分，这些能力在虚拟现实 (VR)、增强现实 (AR) 以及短视频创作中具有广泛的应用前景。

然而，现有的经典方法，通常只能添加预定义的三维模型库中的物体，极大地限制了用户的个性化创意表达。更关键的是，让新加入的物体融入原有场景的光影环境，生成逼真的阴影，以达到照片级的真实感，是具有挑战性的难题。同样，移除物体后，如何合理地填补空缺区域并生成视觉连贯合理的内容，也需要更优的解决方案。

近期，研究人员提出了一种基于线稿的三维场景视频编辑方法 Sketch3DVE [1]，相关技术论文发表于 SIGGRAPH 2025，并入选 Video Trailer。它赋予用户基于简单线稿即可重塑三维场景视频的能力。无论是为视频场景个性化地添加全新物体，还是精细地移除或替换已有对象，用户都能通过绘制关键线稿轻松实现。

论文标题：Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

论文地址：https://dl.acm.org/doi/10.1145/3721238.3730623

项目主页：http://geometrylearning.com/Sketch3DVE/

Github：https://github.com/IGLICT/Sketch3DVE

此外，即使是单张静态图片，用户也能自由规划虚拟相机路径（指定相机轨迹），首先生成具有视角变化的动态视频，随后再进行任意编辑。

现在，就让我们一同探索 Sketch3DVE 如何将简单的线稿笔画，转化为重塑三维世界的钥匙！

，时长00:14

图 1 基于线稿的三维场景视频编辑结果

，时长00:12

图 2 视角可控的视频生成及编辑结果

Part 1 背景

近年来，视频生成基础模型（如 Sora、Kling、Hunyuan Video、CogVideoX 和 Wan 2.1 等）在文本到视频和图像到视频生成方面取得了显著进展。精确控制生成视频中的相机轨迹因其重要的应用前景而受到广泛关注。

现有方法主要分为两类：一类工作 [2, 3] 直接将相机参数作为模型输入，利用注意力机制或 ControlNet 结构来实现对生成视频视角的控制；另一类工作 [4, 5] 则从单张输入图像构建显式的三维表示（如 NeRF），通过指定相机轨迹渲染出新视角图像，并以此作为控制信号引导视频生成。

尽管这些方法能够生成视角可控的视频，如何对已存在的、包含大幅度相机运动的真实视频进行精确编辑，仍然是一个有待解决的研究问题。

视频编辑任务与视频生成有本质区别，它需要保持原始视频的运动模式与局部特征，同时根据用户指令合成新的内容。早期的视频编辑方法 [6, 7] 通常基于 Stable Diffusion 等图像扩散模型，对视频帧进行逐帧处理，并通过引入时序一致性约束来生成编辑结果。

进一步地，研究者开始利用视频生成模型进行编辑，例如一些方法 [8] 从输入视频中提取注意力特征图以编码运动信息，另一些方法 [9] 则采用 LoRA 对预训练视频模型进行微调以捕捉特定视频的运动模式。然而，这些方法主要擅长外观层面的编辑（如风格化、纹理修改），在几何结构层面的编辑效果较差，并且难以有效处理包含大幅度相机运动的场景。

线稿（Sketch）作为一种直观的用户交互方式，已被广泛应用于图像、视频和三维内容的生成与编辑中。基于线稿的视频编辑方法也已出现，例如 VIRES [10] 通过优化 ControlNet [11] 结构实现了基于线稿引导的视频重绘，而 SketchVideo [12] 则设计了一种关键帧线稿传播机制，允许用户仅提供少量帧（1-2 帧）的线稿即可编辑整个视频。

尽管如此，现有的基于线稿的视频编辑方法主要面向通用场景。如何处理包含显著相机视角变化的视频，并在编辑过程中保持新内容的三维几何一致性，仍是当前研究面临的关键挑战。

Part 2 算法原理

图 3 Sketch3DVE 的编辑流程和网络架构图

给定输入的三维场景视频后，用户首先选定第一帧图像。在该帧上，用户绘制一个掩码（Mask）标记需要编辑的区域，并绘制线稿（Sketch）来指定新物体的几何形状。

同时，用户输入文本描述来定义新物体的外观特征。系统采用 MagicQuill [13] 图像编辑算法（或其他兼容的基于图像补全的编辑方法）处理第一帧，生成该帧的编辑结果。

随后，系统利用 DUSt3R [14] 三维重建算法处理整个输入视频，对场景进行三维分析。该方法输出第一帧对应的场景点云（Point Cloud）以及每一帧对应的相机参数（Camera Parameters），为后续的视频编辑传播提供几何基础。

接下来，需要将第一帧图像上的编辑操作传播到其对应的三维点云上。系统采用基于深度图的点云编辑方法：首先，使用 DUSt3R 或 DepthAnything [15] 等方法预测编辑后第一帧图像的深度图（Depth Map）。由于预测得到的是相对深度值，需要将其与原始场景的尺度对齐。

为此，系统利用掩码外部（非编辑区域）的像素，通过逐像素的对应关系计算深度值的平移和缩放参数。应用这些参数对预测深度图进行变换，并将编辑区域的深度值融合到原始场景的深度图中。最后，通过反投影（Back-projection）处理融合后的深度图，得到编辑后的三维点云。

为了减少用户交互，掩码只需在第一帧绘制。为了将第一帧的掩码精确传播到后续不同视角的帧上，系统设计了一个基于三维感知的掩码传播算法。

该算法在三维空间中构建一个网格模型来表示三维掩码（3D Mask）：利用编辑前后帧提供的深度信息和相机参数，将每个像素位置反投影到三维空间，形成网格顶点；根据像素邻域关系连接这些顶点，构建出表示编辑区域前表面的网格面片；后表面则使用平面结构并通过侧面连接，最终形成一个封闭的三维网格模型。该三维掩码模型可根据不同帧的相机参数渲染出对应的二维掩码。

最后，系统构建了一个基于三维点云引导的视频生成模型，其思路类似于 [11, 12]。该模型在预训练的 CogVideoX 模型基础上，额外引入了一个条件控制网络。

该网络以三种信息作为输入引导视频生成：1) 编辑后的第一帧图像；2) 由编辑后点云渲染得到的多视角视频（提供三维几何一致性约束）；3) 原始输入视频（但移除了掩码区域的内容，用于保持非编辑区域的时空一致性）。通过融合这些条件信息，模型最终输出具有精确三维一致性的场景编辑视频。

Part 3 效果展示

如图 4 所示，用户可以在首帧绘制线稿并标记编辑区域，该方法可以生成高质量的三维场景视频编辑结果，实现物体的添加、删除和替换等操作，所生成新的物体具有良好的三维一致性。

，时长00:15

图 4 基于线稿的三维场景视频编辑结果

如图 5 所示，当视频中存在阴影和反射等较为复杂的情景时，由于该工作使用了真实视频作为数据集进行训练，也能在一定程度处理上述情况，并生成相对合理的视频编辑结果。

，时长00:12

图 5 阴影和反射等情况的场景编辑效果

如图 6 所示，给定真实拍摄的三维场景视频后，用户可以标记指定编辑区域，并绘制颜色笔画指定新生成内容的外观。该工作可以生成较为真实自然的三维场景视频编辑结果。

，时长00:19

图 6 基于颜色笔画的三维场景视频编辑结果

如图 7 所示，该工作也支持不以线稿作为输入，而直接使用图像补全方法对首帧进行编辑，相关编辑效果也可以合理应用至三维场景。

，时长00:16

图 7 基于图像补全方法的三维场景视频编辑结果

Part 4 结语

随着大模型和生成式人工智能的迅速发展，三维场景视频编辑问题也有了新的解决范式。传统的模型插入方法存在难以个性化定制、渲染结果不够真实、无法去除已有物体等问题。

Sketch3DVE 则提出了一种有效的解决方案，通过线稿定制化生成三维物体，合成高真实感的三维场景视频编辑效果，并支持基于单目图像的三维视频合成和二次编辑。

借助该方法，用户无需掌握复杂的专业三维处理和视频处理软件，也无需投入大量时间和精力，仅凭几笔简单的线稿勾勒，便可以将想象中的物体带到现实，构建出灵感和现实的桥梁。该项工作已经发表在SIGGRAPH 2025。

有关论文的更多细节，及论文、视频、代码的下载，请浏览项目主页。

参考文献：

[1] Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao*. “Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing.” In ACM SIGGRAPH. 2025.

[2] Zhouxia Wang, Ziyang Yuan, Xintao Wang, Yaowei Li, Tianshui Chen, Menghan Xia, Ping Luo, and Ying Shan. MotionCtrl: A Unified and Flexible Motion Controller for Video Generation. In ACM SIGGRAPH. 2024.

[3] Yuelei Wang, Jian Zhang, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, and Bo Li. 2024c. CPA: Camera-pose-awareness Diffusion Transformer for Video Generation. CoRR abs/2412.01429 (2024).

[4] Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, and Yonghong Tian. 2024. ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis. CoRR abs/2409.02048 (2024).

[5] Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, and Yuan Liu. 2025. Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control. CoRR abs/2501.03847 (2025).

[6] Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, and Jiaya Jia. Video-P2P: Video Editing with Cross-Attention Control. In IEEE CVPR 2024. 8599–8608.

[7] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation. In ACM SIGGRAPH, 2023. 95:1–95:11.

[8] Max Ku, Cong Wei, Weiming Ren,Harry Yang, and Wenhu Chen.2024. AnyV2V: A Plug and-Play Framework For Any Video-to-Video Editing Tasks. CoRR abs/2403.14468 (2024). [9] Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, and Xingang Pan. 2024a. I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models. In ACM SIGGRAPH Asia, Takeo Igarashi, Ariel Shamir, and Hao (Richard) Zhang (Eds.). 95:1–95:11.

[10] Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, and Boxin Shi. VIRES: Video Instance Repainting with Sketch and Text Guidance. IEEE CVPR 2024.

[11] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." ICCV 2023.

[12] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. “SketchVideo: Sketch-based Video Generation and Editing.” IEEE CVPR 2025

[13] Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, and Yujun Shen. 2024d. MagicQuill: An Intelligent Interactive Image Editing System. CoRR abs/2411.09703 (2024).

[14] Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, and Jérôme Revaud. DUSt3R: Geometric 3D Vision Made Easy. In IEEE CVPR 2024. 20697–20709.

[15] Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. 2024b. Depth Anything V2. CoRR abs/2406.09414 (2024).

#图生视频新玩法刷爆外网

图上画两笔就能动起来，终于告别文本提示

现在，AI看你画的就能懂。

Higgsfield AI 这家公司，有点意思。

不仅三天两头上线新功能，在 X 上疯狂刷存在感，还一度被传出和 Meta 洽谈收购事宜，虽然最后不了了之。

据 The Information 报道，Meta Platforms 正在寻求与开发人工智能视频生成与编辑模型的初创公司建立合作关系，曾与视频生成初创公司 Higgsfield 探讨过潜在的收购事宜，但这些谈判目前已不再进行。

该公司专注于 AI 视频生成，最擅长电影级镜头控制技术，三个月前曾凭借 AI 运镜视频生成火出圈，我们还专门报道过：一张照片实现超 70 种百万级运镜！这款 AI 神器给了摄影师一记「铁拳」

前几天，它又先后发布了 Draw-to-Video 和 Product-to-Video 功能。

前者只需上传一张静态图像，在上面绘制图形、文字或箭头等元素，即可生成具有电影质感的视频画面。该功能一经发布就在外网爆了，短短 4 天时间 X 上的浏览量就超 530 万。

，时长00:47

后者则可以通过简单的拖拽操作，免费生成精美的、电影级的广告视频。截至目前也已在 X 上收获 160 万次浏览量。

如果再往前扒拉扒拉，你会发现这家公司几乎每周都会发布新功能或新模板。

8 月 6 日，上线 UPSCALE 功能，能够将模糊的图片和视频升级到 4K 或 8K 分辨率。

8 月 2 日，推出全新升级的多参考图功能，支持最多 4 张参考图输入，实现高度一致的角色呈现，并彻底消除随机伪影。配合 Higgsfield Soul 使用后，整体效果更为真实，还能一键更换肤色、背景、服装。

7 月 24 日，推出全新功能 STEAL，搭配 Soul ID 使用，可以让用户「偷取」他人的动作、表演风格等，并将其应用到自己的虚拟角色或视频中。

7 月 17 日，发布全新的 UGC Builder 工具，只需通过一个界面上传人脸、设定人物动作、语音、情绪和背景音乐，即可生成无需剪辑的完整电影场景。

……

而且，哪家模型火了，它转头就将其「纳入麾下」，比如 GPT-5、MiniMax、Veo 3、Seedance Pro 等。

打开 Higgsfield 的官网，密密麻麻都是视频功能和模板。

体验链接：https://higgsfield.ai/

网友一手实测

Higgsfield 的功能一上新，就有网友亲自上手体验，整出了不少花活。

就以最新的 Draw-to-Video 为例。

其玩法相当简单。打开 Higgsfield AI 官网，选择 Create-Draw to Video，上传任意一张图片。

然后直接在画面上绘制箭头、图形等元素，并输入动作指令，比如「演员跑进来」、「这里爆炸」或「镜头移动」，AI 会立即执行，并生成极具真实感的动态画面。

过去需要工作室、演员和高昂成本的大片场景，如今只需几分钟就能完成。它可以凭空生成一只猫，还能自由控制镜头运动和演员的入场位置。

为了生成效果更佳，有网友总结出一个教程。

使用 Higgsfield 的 Draw-to-Video 时，要先确保图片主体清晰，若需要加入人物或物体，可以提前去掉背景，用透明 PNG 格式。

画箭头可以清晰指示人物或物体的出现方向，画爆炸标记可以很好地引导爆炸场景。在画布上直接写文字提示，能显著提升成功率。如果有出现顺序，务必清晰写明「Step 1, Step 2, Step 3」，避免 AI 出错。

在价格上，使用Seedance Pro 的 480p 生成 5 秒视频是免费的，其他如 Hailuo02、Seedance Pro 和 Veo3 都有不同分辨率和时长对应的点数消耗。其中最贵的是 Veo3 ，标准版本 720p 分辨率需要 150 个点数。

因此，我们可以先用免费 480p 版本不断尝试和调整提示词，满意后再生成 720p 或更高分辨率，最后通过 Upscale 功能提升清晰度，就能在保证质量的同时最大限度降低成本。

在此基础上，Higgsfield 又推出了 Product-to-Video 功能，只需上传一张人物照片，然后拖拽产品图片、添加文字，就能生成广告大片。

比如让金刚狼从冰箱里掏出一瓶可口可乐：

甜茶在线安利巧克力：

此外，该功能还有四大亮点：

1. 它支持谷歌 Veo 3、字节 Seedance、MiniMax Hailuo02 等视频生成模型，无需切换不同平台，只在一个界面就能完成图像和视频的创作。

2. 可以在成片基础上叠加特效（Effects）、Flux Kontext、UGC Builder 等功能模块，进一步丰富广告内容。

3. 还能添加片头 / 片尾帧，或用「修补（inpaint）」来精细修改。

4. 渲染速度更快，不再需要繁琐的导入导出。

看了一圈网友生成的效果，感觉还不错，感兴趣的朋友可以去体验一下。

公司及创始人介绍

根据公开资料显示，Higgsfield AI 创立于 2023 年 10 月，总部位于美国旧金山，专注于为内容创作者打造个性化 AI 视频工具。目前，团队规模约为 11-50 人。

2024 年 4 月，Higgsfield AI 完成了由 Menlo Ventures 领投的 800 万美元种子轮融资，用于推动视频生成工具、社交媒体创作平台的发展。2025 年 8 月，Meta 被传出曾与 Higgsfield AI 进行过收购层面的讨论，但最终不了了之。

公司创始人兼 CEO Alex Mashrabov 此前曾任 Snap 公司（以构建顶级社交媒体应用 Snapchat 而闻名）的生成式 AI 负责人，旗舰负责开发 MyAI 对话式聊天机器人、生成式 AI 增强现实（AR）特效、Cameos Stories（个性化的 AI 驱动的视频内容形式）以及 3D 合成数据框架。

而更早之前他创立的图像和视频识别公司 AI Factory 以 1.66 亿美元的金额被 Snap 收购。

2023 年 9 月，Alex Mashrabov 从 Snap 离职并开始自己创业。

自创立以来，Higgsfield AI 先后推出了旗舰产品 Diffuse、Diffuse 2.0，支持用户免费上传单张自拍照或输入文本，利用最新的生成式 AI 技术来生成个性化视频内容，甚至用户自己自然地插入场景中。

图源：https://www.trydiffuse.com/

2025 年 3 月，Higgsfield AI 推出了最新的视频生成模型 DoP I2V-01-preview，以专业级镜头控制、世界建模和电影级叙事意图为主要特征，尤其在精准性、真实性与风格表现力方面出色。

此外，Higgsfield AI 还对世界模型有所涉猎。今年 4 月，Mashrabov 曾表示，「我们正在构建世界模型，它可以提供顶级的视频生成与编辑体验，并能实现直观的细粒度控制。」

此次推出的 Draw-to-Video 功能更是 Higgsfield AI 在生成式视频交互方式上的一次突破，将用户从「写文本提示词」的困扰中解放出来，通过简单的图形动作（比如箭头）指引就能完成直观的创作。

网友盛赞，终于不用后期加特效了。而相比于文本提示，空间提示将成为最佳的视觉控制器之一。

参考链接：

https://www.aibase.tech/news/higgsfield-ai-is-bringing-personalized-video-creation-to-the-masses/?utm_source=chatgpt.com

https://x.com/higgsfield_ai/status/1955742643704750571

https://x.com/EHuanglu/status/1955762111344517310

https://x.com/MayorKingAI/status/1956823869689680247

https://x.com/KanaWorks_AI/status/1956589544285106617

#Matrix-Game-2.0

开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品

国产开源版 Genie 3 问世，昆仑万维用 1.8B 模型跑出了神级效果。

世界模型，正在迎来一次技术大突破。

本月初，Google DeepMind 发布的 Genie 3，因为效果惊艳，关注度直接超越了 OpenAI 同日发布的 GPT-5。

Genie 3 实现了实时互动、高度一致化的生成，直接从「游戏画面」迈入「真实世界」的程度，它能维持数分钟的生成一致性，更重要的是还能做到实时响应。

Genie 3 实现的效果。

AI 领域里，技术发展的速度总是很快，没过两个星期，开源的实时世界模型就已经出现。

这款国产开源的新模型能把复杂的建筑和地形，玻璃的反光都模拟出真实感，符合物理逻辑。

或是模拟出《侠盗猎车手》（GTA）的大地图，让你可以在其中自由探索。

如果你上传一个神庙逃亡游戏的截图，就可以在这个世界模型里面开一局，AI 脑补出来的画面会无限地向前延伸。

它就是昆仑万维发布的交互世界模型「Matrix-Game 2.0」，它的参数量仅有 1.8B，能跑在单块 GPU 上，生成的虚拟环境帧率能达到 25FPS，我们在其中可以用键盘 WASD 按键进行实时的自由移动和视角控制，实现持续时长达分钟级的互动。

，时长00:10

最重要的是，它还是完全开源的（有权重 + 代码库），任何人都可以免费使用和修改，还可以自己上传图片进行体验。

项目链接：https://matrix-game-v2.github.io/

GitHub 链接：https://github.com/SkyworkAI/Matrix-Game

HuggingFace：https://huggingface.co/Skywork/Matrix-Game-2.0

Matrix-Game 2.0 成为了业内首个在通用场景上实现实时长序列、交互式生成的世界模型开源方案，相比过去的开源模型有了质的飞跃。它也成为了在外网引发关注的又一个国内开源模型。

有人已经在说「这是开源版本的 Genie 3」了。它的效果究竟如何，我们第一时间进行了实测。

一手实测

丢张图即可走进实时生成的虚拟世界

世界模型一直面临诸多挑战，尤其是在处理复杂环境、实时交互和高度动态变化的情况下。传统的世界模型通常依赖大量高质量数据，且在缺乏预设情境时难以进行准确推理和反应。同时，这类模型在生成和更新时需要消耗庞大的计算资源，导致实时反馈效率受限，从而难以真正落地应用。

昆仑万维推出的 Matrix-Game 2.0 为这一领域带来了新突破。这款交互式世界模型结合了高度自由的操作与实时生成的特点，提供了一种独特的玩法体验。

我们只需上传一张静态图片，模型便会基于该图像加载并生成一个虚拟世界。玩家可以通过方向键或 WASD 键控制人物在虚拟世界中的移动，且每一次人物的移动都会实时影响环境，并生成新的视频内容。

例如，我们丢给它一张 3A 大作《荒野大镖客》的游戏画面，并控制方向和视角切换，模型最终生成的视频展示了非常细腻的自然景观。

从山上俯瞰，一条清澈的河流蜿蜒流淌，看起来，Matrix-Game 2.0 不仅能够理解海拔的高度差异，还能够模拟出流水的动态效果，这种精细的渲染无疑增加了虚拟世界的真实感与沉浸感。

再以经典的《CS:GO》地图 De_Dust2 为例，模型不仅加载了现有场景，还展现出强大的推理和补充能力。它能够基于图像信息自然拓展额外视角和细节，确保生成视频在场景一致性和时序连贯性上的高度可靠。

对于《我的世界》这种像素画风的游戏场景，Matrix-Game 2.0 同样表现出了极高的创造力。通过将静态元素转化为动态场景，模型生成了一段如同无人机航拍的视角视频，展现了两侧山脉的轮廓、梯田的层次、高大的树木，以及河流中的倒影。

最近，《战地 6》在全球范围内引起了广泛关注，预购开启后短时间内登上 PS5 及 Steam 多个国家的畅销榜，并在 Beta 公测期间以 52 万 Steam 同时在线人数打破记录。

我们利用 Matrix-Game 2.0 复刻了这款尚未发售的 3A 游戏精细地图，每次角色移动和视角切换都会实时触发新的画面生成。高帧率和物理一致性保证了操作与画面的紧密结合，充分展现了其在高复杂度交互场景中的潜力。

Matrix-Game 2.0 的能力不仅局限于游戏场景，在现实世界模拟中，它能快速响应用户的视角与移动变化，生成符合物理规律的自然画面。

例如，它成功复现了自行车骑行的第一视角：柏油马路笔直延伸，两旁的行道树不断后撤，画面细节丰富、动态感强，每一帧都精准模拟了现实骑行的空间感与真实感。

前段时间，Google DeepMind 研究科学家 Aleksander Holynski 使用谷歌 Genie3，「走」进 1978 年的名画《苏格拉底之死》，吸引了不少网友围观。

，时长00:59

这次我们也来个「名画漫游」，让 Matrix-Game 2.0 生成一段梵高《星空》的视频，可以自定义不同角度观察画作，感受其构图、色彩与氛围的变化。

同样，我们还通过模型生成了宫崎骏风格的乡间小道场景，随着方向键的切换，生成的画面景色也随之变化，脑补出的画面毫无违和感，甚至连树影都模拟出来了。

经过一系列测试，我们认为 Matrix-Game 2.0 的技术确实具备巨大的潜力。作为一个开源项目，它已经能够实现高度真实的虚拟世界生成和实时交互，为游戏开发者和玩家提供全新的可能性。当然，它也有不少可以提升的空间，比如视觉保真度并不总是能与主流游戏工作室的水平相媲美，而且复杂的交互有时对 AI 来说也难以完美处理。

不过这是一个好的开始，Matrix-Game 2.0 让我们看到，虚拟世界与现实交互的边界正在被逐步打破，下一代游戏和智能体或许就将以此为基石。

从数据生成到模型架构

核心技术全面突破

在上周开源模型的同时，昆仑万维同时放出了 Matrix-Game 2.0 的技术报告，我们可以在其中看到不少技术细节。

技术报告链接：https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

最近一段时间，基于扩散模型的方法让我们看到了交互式视频生成的潜力。但是，现有的交互式世界模型依赖于双向注意力机制和冗长的推理步骤，严重限制了实时性能，难以模拟现实世界的动态。

为解决这个问题，昆仑万维提出了一种全新的视觉驱动交互世界建模方案，彻底摆脱了此前依赖语言提示的生成模式，专注于通过视觉理解和物理规律学习来构建虚拟世界。

在 Matrix-Game 2.0 上，研究人员通过少步骤自回归扩散算法实时生成长视频，引入了一个专为实时模拟和交互设计的高效框架，同时应对解决了效率和可控性的挑战。

Matrix-Game 2.0 模型由三个关键组件组成：

适用于虚幻引擎和 GTA5 环境的可扩展数据生产流水线，可有效生成海量（约 1200 小时）交互式视频数据；
动作注入模块，支持帧级鼠标和键盘输入交互；
基于自回归扩散模型的少步骤蒸馏，用于实时流式视频生成。

基于以上架构和训练机制，Matrix -Game 2.0 能够在单块英伟达 H100 GPU 上以 25 FPS 的速度跨不同场景生成高质量的分钟级视频。

在模型的构建过程中，首先昆仑万维设计并实现了全面的数据生产管线，以支持交互式视频生成模型的大规模训练，克服精准匹配键盘控制与画面、完善动态交互这两大挑战。其开发的多样化数据集生产流程包含从著名游戏引擎虚幻引擎和游戏 GTA5 的模拟环境中获取静态与动态场景。

虚幻引擎的数据生产管线如下所示：

为了获取更多交互式动态场景，工程人员在 GTA5 环境中开发了一个综合记录系统，使用 Script Hook V 扩展工具，使视觉内容与相应的用户动作同步捕捉。这个数据整理流程收集了超过 120 万个视频片段，它们的整体准确率超过 99%。

GTA5 采集数据的轨迹。

在 Matrix-Game 2.0 的基础模型框架上，昆仑万维也进行了一系列独特的设计。模型源自 WanX，通过移除文本分支并添加动作模块，该模型仅根据视觉内容和对应的动作来预测下一帧的画面。

该系统首先对原始视频数据进行时空压缩，图像输入通过 3D Causal VAE 和 CLIP 图像编码器作为条件输入进行处理。在用户提供的输入动作的引导下，DiT 模型（Diffusion Transformer）生成一个视觉隐空间序列，随后通过 3D VAE 解码器将其解码为视频。

简单来说，这种机制避免了语言先验可能带来的语义偏置，转而专注于图像的空间结构和动态模式，可以更准确地理解和生成虚拟世界。

为了让人们可以与生成内容互动，Matrix-Game 2.0 系统集成了动作条件控制模块，支持帧级键盘与鼠标交互输入。在其中，连续的鼠标操作会直接与输入的潜在表征相连接，经多层感知机（MLP）层处理后，再通过时序自注意力层进行动态调整。此外，键盘操作通过交叉注意力层对融合特征进行查询，从而实现交互操作的精准可控性。

Matrix-Game 2.0 基础模型框架。

最后，为了生成更长的视频，减少内容上出现的偏差，昆仑万维开发了一种用于实时长视频合成的自回归扩散生成机制，通过 Self-Forcing 把双向基础模型转化为高效的自回归变体，让每个帧基于先前自生成的输出而非真实值进行条件化处理，从而解决了暴露偏差，显著减少了此前世界模型中常见的误差累积问题。

自驱动因果扩散模型训练流程示意图。通过自条件生成机制，蒸馏过程将学生模型的分布与教师模型进行对齐。该方法在保持生成质量的同时有效抑制了误差累积。

实验效果如何？在与 Oasis 世界模型的对比上，Matrix-Game 2.0 在长时间互动视频生成方面效果更好：Oasis 会在生成几十帧之后效果明显下降，Matrix-Game 2.0 则能够一直保持稳定。

Matrix-Game 2.0 和 Oasis 生成画面效果的对比。

定量比较的话，Matrix-Game 2.0 在图像质量、时间一致性、控制准确性等方面保持领先，同时也保证了灵活性和效率不降低。

可见，昆仑万维的新方法可以有效减少当初 Oasis 模型「转一圈画风完全变了」的尴尬情况，这对于面向实际落地的应用来说非常重要。

昆仑万维

持续发力开源社区

Matrix-Game 2.0 并不是昆仑万维第一次展示实力。在开源领域，最近这家公司的名字越来越频繁地出现。

仅在今年，昆仑万维就开源奖励模型 Skywork-Reward-V2，无限时长电影生成模型 SkyReels-V2，多模态推理模型 Skywork-R1V，面向数学、代码等领域的文本推理模型 Skywork-OR1，以及软件工程自主代码智能体基座模型 Skywork-SWE 等等多款模型。

在 HuggingFace 上，昆仑万维的模型热度很高。

上周连续五天的技术发布活动，昆仑万维还陆续发布了 SkyReels-A3 视频生成模型、世界模型 Matrix-Game 2.0 与 Matrix-3D、Skywork UniPic 2.0 多模态训练推理框架，Skywork Deep Research Agent v2、Mureka V7.5 等等一系列 AI 模型、工具。这一套覆盖图像、音频、视频、音乐、智能体的组合拳，向世人展示了该公司持续深耕技术的成果。

这些 AI 领域的新技术，有很多都实现了业界领先的水平，不仅让昆仑万维在技术落地上不断扩大版图，也通过不断的开源反哺了研究社区。

当然，这样持续不懈的前沿技术研发也在引发质变，开启新的方向。

世界模型

进入实用阶段

在 DeepMind 的 Genie 3 发布后，很多人发现，世界模型已经不再是个未来式，而是正在展现出很大应用潜力。DeepMind 自己就表示，希望能把世界模型生成的环境直接对齐到机械臂和xx智能的训练上。

在很多情况下，xx智能的基础模型面临着数据匮乏、采集难、难以泛化等问题，世界模型生成的虚拟环境，可以成为 AI 完美的训练场。世界模型会在学习物理规律、事物之间交互规则等知识后进行预测和规划。在其中进行探索的机器人、自动驾驶汽车依据这些规则进行交互，就可以训练出更多的智能。

可见不仅在游戏、虚拟人等娱乐场景中，在发展现实世界生产力的「物理 AI」方面，世界模型也可以发挥作用。

在 Matrix-Game 2.0 等开源技术出现之后，世界模型实用化的脚步还会加快。

#X-SAM

从「分割一切」到「任意分割」：统一图像分割多模态大模型，在20+个图像分割数据集上均达SoTA

本研究由中山大学、鹏城实验室、美团联合完成，第一作者王豪为中山大学博士研究生，主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。

背景与动机

Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越，但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型（MLLMs）虽在图像描述、视觉问答等任务中表现出色，但输出局限于文本生成，无法直接处理像素级视觉任务，这一根本性限制阻碍了通用化模型的发展。

中山大学、鹏城实验室、美团联合提出 X-SAM—— 一个统一的图像分割多模态大模型，将分割范式从「分割万物」扩展到「任意分割」。X-SAM 引入了统一框架，使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割（Visual Grounded Segmentation, VGS）新任务，通过交互式视觉提示分割所有实例对象，赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练，X-SAM 采用统一训练策略，支持跨数据集联合训练。实验结果显示，X-SAM 在广泛的图像分割基准测试中达到最先进性能，充分展现了其在多模态像素级视觉理解方面的优越性。

论文地址：https://arxiv.org/pdf/2508.04655
代码地址：https://github.com/wanghao9610/X-SAM
Demo地址: http://47.115.200.157:7861

方法设计

X-SAM 设计了通用输入格式和统一输出表示：

1）文本查询输入（Text Query）：

适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
采用特殊短语标记 和 标注类别 / 短语 / 句子
格式化为："category/phrase/sentence"

2）视觉查询输入（Vision Query）：

适用于交互式分割和 VGD 分割任务
支持点、涂鸦、边界框、掩码等多种视觉提示形式
使用专用标记 < region > 表示视觉提示
格式化为："<region>"

3）统一输出表示：

引入特殊标记 < SEG > 表示分割结果
和 标记间的潜在语言嵌入作为分割解码器的条件嵌入

X-SAM 采用端到端的统一分割 MLLM 架构，包含以下核心组件：

1）双编码器设计（Dual Encoders）

图像编码器：采用 SigLIP2-so400m 提取全局图像特征，提升图像理解能力。
分割编码器：采用 SAM-L 提取细粒度图像特征，提升图像分割效果。

2）双映射器架构（Dual Projectors）

为增强 LLM 的图像理解能力，X-SAM 采用特征融合策略。

分割特征投影：利用像素重排（pixel-shuffle）操作减少空间尺寸，通过 MLP 投影到语言嵌入空间
图像特征投影：直接通过 MLP 投影与分割特征连接后输入 LLM

3）分割连接器（Segmentation Connector）

针对图像分割任务对细粒度多尺度特征的需求，设计了分割连接器，为分割解码器提供丰富的多尺度信息。

下采样路径：通过 0.5 倍像素重排生成 1/32 尺度特征；
上采样路径：通过 2.0 倍像素重排生成 1/8 尺度特征；
原始特征：保持 1/16 尺度特征。

4）统一分割解码器（Segmentation Decoder）

替换 SAM 原始解码器，采用 Mask2Former 解码器架构。

模块优势：支持单次分割所有对象，克服 SAM 单对象分割限制。
模块特点：引入潜在背景嵌入表示所有任务的 "忽略" 类别，实现一个解码器适配所有分割任务。

X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能：

1）第一阶段：分割器微调（Segmentor Fine-tuning）

训练目标：微调分割器提升分割能力。
训练配置：参考 Mask2Former 训练流程，在 COCO-Panoptic 数据集上训练。
优化策略：训练分割器所有参数，分割编码器采用较低学习率训练
损失函数：

2）第二阶段：对齐预训练（Alignment Pre-training）

训练目标：对齐语言嵌入和视觉嵌入。
训练配置：参考 LLaVA 一阶段训练流程，在 LLaVA-558K 数据集上训练。
优化策略：冻结双编码器和 LLM 参数，仅训练双投影器。
损失函数：

3）第三阶段：混合微调（Mixed Fine-tuning）

训练目标：在多个数据集上进行端到端协同训练
优化策略：微调模型所有参数，分割编码器和图像编码器采用较低学习率训练。
损失函数：

针对训练数据集规模差异（0.2K 到 665K 样本），X-SAM 采用数据集平衡重采样策略：

数据集级别重复因子：

其中 t 为控制过采样比例的超参数，f_d 为数据集 d 的频率。在混合训练过程中，根据 r_d 对数据集 d 进行重采样，改善在少样本数据集上的性能。

实验结果

综合性能指标

X-SAM 在超过 20 个分割数据集上进行了全面评估，涵盖 7 种不同的图像分割任务，实现了全任务最优性能。

部分关键任务性能指标

指代分割任务：

对话生成分割任务：

视觉定位分割任务：

图文理解任务：

可视化结果展示

总结与展望

X-SAM 作为首个真正统一的分割多模态大语言模型，成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略，X-SAM 在保持各项任务竞争性能的同时，实现了更广泛的任务覆盖范围，为图像分割研究开辟了新方向，并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割，进一步扩展应用范围；二是将 VGD 分割扩展到视频中，引入视频中的时序信息，构建创新的视频分割任务，为视频理解技术发展提供新的可能性。

#7年了，OpenAI官方给出五代GPT对比

网友却怀念起「狂野」初代

从2018年至今，GPT系列模型已经来到第五代，如果让你回忆第一次使用GPT-1时的感受，可能是一种新奇却略显笨拙的震撼，就像这样：

当你问 GPT-1：麻醉状态下，你真的有意识吗？

它的回答很生硬，甚至有些胡言乱语：我没有。你醒了。

又或者，你让它用诗歌来解释牛顿物理定律，额，结果大家自己看吧，只能说毫不相干，甚至像是某种误入歧途的胡编乱造。

「用 50 个字讲述一个关于有意识的烤面包机的故事。」GPT-1 的回答疯癫的不成样子。

相同的问题丢给 GPT-5 来回答，给出的答案既遵循要求，又非常完美。

提示：麻醉状态下，你真的有意识吗？GPT-5 的回答

不难发现，经过 7 年的发展，GPT 系列模型已经发展成一个全能助手，就像一个婴儿，经过七年的学习之后初步掌握了世界基本规律。这种变化，OpenAI 内部人员感受最为深刻。

刚刚，OpenAI 总裁兼联合创始人 Greg Brockman 分享了一个帖子：在给定相同提示的情况下，GPT-1 到 GPT-5 的输出有何不同。

链接：https://progress.openai.com/

接下来我们看几个完整的比较。

当我们输入提示：为什么我们不能每年进行一次全身核磁共振扫描来检测癌症？

GPT-1 的回答有些胡言乱语，逻辑更是跳脱得让人摸不着头脑。

GPT-2 看起来也是逻辑不通，答案虽然沾点边，也是没啥帮助：

text-davinci-001 的回答只是一句话：目前缺乏足够证据支持每年进行 MRI 扫描用于普通人群的癌症筛查。

gpt-4-0314 答案似乎很可靠，但感觉少了点人情味：

GPT-5 就不同了，在回答问题的同时，还能给你提供情绪价值。GPT-5 首先对问题进行了肯定，这是一个好问题，接着分析了几点原因，还给出了建议。仿佛和你交流的不是机器，而是医生。

再来一个比较有趣的问题：写一首关于狗的五行打油诗 (Limerick)。

GPT-1 依然状况之外，第一句与后面几句几乎毫无关联。

GPT-2 的回答就很有趣了，非常有画面感，像牙牙学语的小孩，说话天马行空又充满童趣。

另外几个模型的回答就比较务实了，不过它们描绘的小狗看起来性格都不太一样。

text-davinci-001 看起来像养过一只傲娇的小狗。

gpt-4-0314 笔下的小狗活泼热情，一见到主人尾巴就能摇出螺旋桨。

gpt-5 则更富想象力，塑造了一只仿佛在动画片中冒险的「小狗大侠」。

接下来的问题有点难度：写一首诗来解释牛顿物理定律。

GPT-1 这次比 GPT-2 话多，风格还是一如既往的抽象。

GPT-2 看起来开了个不错的头，但似乎没写完。

text-davinci-001 的作品更像是分行的散文，诗意不足。

gpt-4-0314 和 gpt-5 则各有所长，一个优雅富有诗意，一个简洁、明快且通俗易懂。

gpt-4-0314：

gpt-5：

通过比较，能明显的感觉到 GPT 系列在知识储备、逻辑结构和语言连贯性上不断进步。

然而有趣的是，在 Brockman 的评论区，网友们的看法却百花齐放。许多人反而对早期的模型情有独钟。

有人夸赞起 GPT-1：有点狂野，我喜欢。不媚俗，希望 OpenAI 把它带回来。

甚至有人认为，GPT-1 更像「真正的 AGI」。

GPT-2 的人气也挺高。

反正大家各有各的喜好，你觉得哪个模型最合你意，欢迎评论区留言。

#RobustSplat

解耦致密化与动态的抗瞬态3DGS三维重建

3DGS (3D Gaussian Splatting) 技术凭借在新视角合成与 3D 重建中实现的实时照片级真实感渲染，已成为研究热点。然而，现有方法在建模含动态物体的场景时精度不足，常导致渲染图像出现伪影。

在最近的一项研究中，来自中山大学、深圳市未来智联网络研究院、港中深的研究者提出鲁棒性解决方案 RobustSplat，其核心设计包含两点：一是首创延迟高斯生长策略，在允许高斯分裂 / 克隆前优先优化静态场景结构，从而减少优化初期对动态物体的过拟合；二是设计尺度级联掩码引导方法，先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计（借助其更强的语义一致性与抗噪声特性），再逐步过渡到高分辨率监督，以实现更精准的掩码预测。

论文标题：RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS

论文链接：https://arxiv.org/abs/2506.02751

论文主页：https://fcyycf.github.io/RobustSplat

代码链接：https://github.com/fcyycf/RobustSplat

研究动机

我们通过分析揭示了高斯致密化 (densification) 在 3D Gaussian Splatting 中的双重作用机制。具体来说，致密化过程在增强场景细节表达方面具有显著优势，但同时也会促使模型过早拟合动态区域，导致伪影和场景失真。这一发现表明，传统的致密化策略在存在有动态物体的场景建模中存在依赖性风险，即其所带来的细节提升可能以牺牲静态区域的重建质量和引入伪影为代价。

因此，本文的研究动机源于对该分析的深入理解，意在通过调节致密化过程的引入时机，有效平衡场景的静态结构表达与动态干扰的抑制。致密化既是优化细节的关键因素，也是动态干扰的放大器，为此提出「延迟高斯生长」策略，通过延后致密化过程实现静态部分的准确重建，同时结合多尺度掩码引导，系统抑制动态伪影，推动在复杂场景中实现鲁棒、细节丰富的 3D 场景重建。

方法

瞬态掩码估计

网络架构：采用含两层线性层的 MLP (Mask MLP)，以图像特征为输入，通过 Sigmoid 函数输出逐像素的瞬态掩码 Mt（取值范围 [0, 1]，0 表示瞬态区域，1 表示静态区域）。

特征选择：选用 DINOv2 特征作为输入，原因是其在语义一致性、抗噪性和计算效率间取得很好的平衡。对比之下，Stable Diffusion 特征语义信息更强但计算成本高，SAM 特征边界精度高却易漏检瞬态物体的阴影区域，而 DINOv2 特征能稳定支撑掩码预测。

监督设计：掩码 MLP 的优化结合了图像残差损失和特征余弦相似度损失：使用基于渲染图像与真实图像的光度差异，捕捉像素级动态干扰，作为基础监督信号。在此基础上，将渲染图像与真实图像的 DINOv2 特征余弦相似度映射至 [0, 1] 范围作为特征监督，以增强语义级动态区域识别。

延迟高斯生增长策略

延迟高斯生长是 RobustSplat 针对 3DGS 优化中瞬态物体过拟合问题设计的核心策略，其核心思想是推迟高斯致密化过程（分裂 / 克隆操作），优先完成静态场景结构的优化，为掩码学习提供更稳定的基础。

掩码正则化：掩码正则化是针对早期优化阶段掩码估计不准确问题设计的关键策略，核心目标是减少静态区域被误分类为瞬态区域的风险，确保 3DGS 优先优化静态场景结构。

掩码学习的总损失：

尺度级联掩码引导

先利用低分辨率特征相似性监督进行初始瞬态掩码估计，借助其强语义一致性和抗噪性；再过渡到高分辨率监督，实现更精确的掩码预测，降低静态区域误分类。

实验

下图分别展示了在 NeRF On-the-go 和 RobustNeRF 数据集上的实验结果。与 3DGS、SpotLessSplats、WildGaussians 等基线方法相比，RobustSplat 在 PSNR、SSIM、LPIPS 等指标上全面领先。

总结

通过实验分析发现，高斯致密化过程虽然提升了场景细节的捕捉能力，但也会生成额外的高斯来建模瞬态干扰，从而无意中导致了渲染伪影的产生。

RobustSplat 通过延迟高斯生长策略和尺度级联掩码引导方法，优化 3DGS 以减少瞬态物体导致的渲染伪影。

实验表明该方法在 NeRF On-the-go 和 RobustNeRF 数据集上，相比现有基线方法在各项指标上全面领先，能处理含多样瞬态物体的复杂场景并保留细节。

#强化学习之父Richard Sutton最新演讲揭示OaK架构

通向超级智能的八步愿景

强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 今天分享了他在 RLC 2025（强化学习会议）和 AGI 2025 上发表的远程演讲《OaK 架构：一个基于经验的超级智能愿景》。

演讲中，Sutton 介绍了他认为有望实现通用人工智能乃至超级智能的路径：

他回顾了长期以来对简单且通用的 AI 智能体架构的追求

强调了从经验中学习、拟合世界的重要性

介绍了现有的常用智能体模型的架构及其缺陷

最终引出了演讲主旨：OaK 架构。

Sutton 在介绍 OaK 架构的基础上，也对实现 OaK 架构所需的八个步骤进行了详细拆解，并指出了目前未能实现的部分和可能的发展路径。可谓干货满满。

虽然说 OaK 架构并不是目前能够实现的完整算法或管线，只是一个愿景，但是 Sutton 为 AI（尤其是 AGI）的发展拆解了目标，提供了一张清晰的路线图和研究目标。

xxx对 Sutton 的这次演讲进行了整理，以飨读者。

视频地址：https://www.youtube.com/live/XqYTQfQeMrE?t=22620s

OaK 架构目前还只是一个愿景，尚没有完整的算法，它还需要一些尚未实现的先决条件。这个先决条件就是一个能够不断学习和提升的深度学习算法。让我惊讶的是，到目前为止，我们都还没有这样一个算法。

在开始之前，我想介绍一下我创立的 Openmind Research Institute，这是一家研究与心智相关的强化学习方法的研究所。如果你是对此方向感兴趣的年轻人，可以考虑申请加入我们。

下面正式进入主题。这是本次演讲的提纲。

首先，我要介绍的是我追寻的目标 —— 一种简单且通用的 AI 智能体架构。然后我将介绍如何在这个大而复杂的世界中学习，之后将进入 OaK 架构本身以及超级智能的愿景。

Sutton 追寻的目标

我追寻的目标是一种简单且通用的 AI 智能体架构。

「通用」是指该架构不包含特定于任何世界的东西，因此其中不包含任何领域知识。

然后，该架构需要是「经验的（experiential）」，也就是说，它会随着运行时间经验（如上图右侧小图的红色箭头所示）而成长，而不是仅仅依赖某个专门的训练阶段。

具体来说，「经验」是指一种未经标注、未经解释的信息。由于我们追求的是通用设计，因此这些信息不包含任何与特定世界相关的内容。「观察」就只是一些信息、事物之间的差别，智能体需要通过自身的体验去理解和解释这些信息。

最后，也可能是最重要的一点，是「开放式抽象（open-ended abstraction）」的概念。我们希望智能体能够不断发展自身的概念（concept）体系、思维方式和行为中的常见模式，并且这种抽象能力在复杂性上不设上限，当然唯一的限制是它的计算资源。

为了帮助大家理解我的思路，我想说明：抽象通常有两种主要形式。

抽象本质上是指从世界中提取出某些「特征」—— 这些特征可用于帮助理解这个世界。这里所说的「特征（feature）」，可以理解为线索、方式、概念或者某种在试图理解世界时所构建出的信号结构（进而帮助你做出决策）。

因此，我们希望能够寻找「好的特征」，更准确地说，是「状态特征」（state features）。这是一类描述当前情境的有用抽象。其次，我们还需要寻找好的「时间抽象」（temporal abstractions），也就是比单一动作更高层次的行为单位 —— 一种在时间尺度上更大的「可以做的事情」。

比如说，「走去上班」、「打开门」或者「捡起一个物体」就是典型的时间抽象。我们接下来会详细讨论这些内容。

这正是我们所追求的目标。

从经验学习

这里，我要引入两个非常关键的概念：设计时（design time）和运行时（runtime）。

设计时是指智能体还未被部署到环境中、尚未开始获取奖励阶段的时间段。在这个阶段，人们可以将领域知识嵌入智能体中。当然，我本人并不推崇这种做法，反而希望尽量减少这种预注入。

而在运行时阶段，指的是智能体已经处于环境中，依赖经验进行学习、并制定与当前世界状态相匹配的规划。

我要重点强调的是在运行时阶段根据经验进行学习。

在一个庞大且复杂的世界中，情况往往是难以预判的。如果我们只依赖设计时的构建，这是远远不够的。尤其是当我们关注的是「开放式抽象」时，就必须依赖运行时去主动发现它们。那些在设计时就被预设好的「非开放式抽象」并不能满足需求。因此，一切必须在运行时完成，真正的智能必须靠运行时来驱动。

既然一切都需要在运行时完成，那为什么还要在设计时做任何事呢？事实上，这些预设反而会使设计更加复杂。因此，我们不妨将「设计」本身看作是对智能的一种理解方式，而非仅仅是为了制造某个产品。

如果你的目标是打造一个具体的产品，那么在设计时引入一些信息或背景知识可能是有意义的。但如果目标是理解「心智」的本质，那你就希望这个系统尽可能地简洁纯粹。也正因为如此，设计时我们应当尽量去除所有不必要的复杂性。

我想在这里再补充一点：如果我们的目标是理解智能，那么理想的智能体架构就不应该在设计时对任何特定世界做出预设承诺。

正如我在《苦涩的教训（The Bitter Lesson）》博客中所指出的：心智的实际内容，属于任意的、固有复杂的外部世界的一部分。

由于世界的复杂性是无穷无尽的，因此这种复杂性不应当被直接预设到系统中。相反，我们应当预设的，只是那些可以主动发现并捕捉复杂性的元方法（meta-methods）。我们所追求的是像人类一样具有发现能力的 AI 智能体，而不是那些仅仅包含我们已经发现的知识的系统。

这就是基本的思想，也因此，为了实现「通用性」，我们需要刻意弱化领域知识的作用。

那么，我想问大家一个问题：我们是否应该让智能体通过特别准备的训练数据进行学习？还是说，我们应该严格限制它只能通过运行时的经验来学习？

对我来说，答案是明确无疑的。我认为，这正是智能（尤其是强化学习）的真正力量所在：它能够从未经预设的运行时经验中学习。

因此，我想明确表达我的立场：智能体应该只从运行时经验中学习。

这正是我所说的「智能体应当是完全基于经验的」的含义所在。

世界太复杂，只能近似

我之前提到过「大世界」的视角。我们可以设想一下我们的智能体，它就像一个人，与这个世界相比，它是渺小的 —— 甚至是远远小于这个世界的。

这个世界不仅包含了各种物体、地点以及物理世界的复杂性，还包含了大量其他智能体。而这些其他智能体的内在心理活动，对于我们的智能体而言是极其重要的。

智能体之所以能做出「正确的行为」，是因为它能够与人类进行互动 —— 比如与它的上司、配偶、朋友。而这些人的内心活动对它而言至关重要，正如此刻你们在思考什么对我来说也很重要一样。

正因如此，世界的复杂性远远超出了智能体的处理能力，并且这种不对称是不可避免的。因此，智能体所学到的任何知识都不可能是「完全正确」的，它也不可能实现真正的「最优」行为。

凡是涉及「最优性」或「正确性」的定理，在现实环境中都不具备实际意义。我们必须清楚地认识到：这些定理在现实世界中的适用性是极其有限的，甚至是无关紧要的。

你所构建的价值函数必须是近似的，你的策略也必须是近似的。你的状态转移模型，尤其是你对整个世界的模型，必然要比真实世界简单得多。因此，它注定是不准确的，它只能是近似的。

甚至对于世界的某个状态，你都不可能真正将其完整地保留在大脑中，因为一个世界状态可能包含了其他所有智能体内心正在发生的事情。而你自己的认知能力，也不可能比所有其他智能体的总和还要复杂。因此，准确建模整个世界状态本身就是不现实的。

由此还引出一个更进一步、但更微妙的推论：世界在你看来是非平稳的（non-stationary）。因为你并不知道环境中真正发生了什么，它在不同时间点表现出的状态也会有所不同。例如，当你开车行驶在路上时，看到前方有一辆车，你并不知道它会向右转还是向左转。

当然，这种行为并非真正随机 —— 对方驾驶者脑中的决策过程可能是确定性的，但从你的角度来看，它表现出来的就是非平稳的：有时它转向右，有时转向左，行为似乎在变化。

因此，面对这些现实中的不确定性，你必须在运行时进行学习，在运行时进行规划，并且必须在运行时自主发现所需的抽象结构。你出生、成长、进入这个世界，而后必须逐步弄清楚：这个世界由哪些物体构成、有哪些人、这个世界是如何运作的、社会制度是如何组织的 —— 你必须在运行时去弄清这一切。这些内容不可能在设计阶段就预先嵌入，因此我们强烈主张应摒弃设计时注入的知识结构。

强化学习及其奖励

在介绍 OaK 架构之前，我先从更宏观的角度谈谈一般性的 AI 问题。AI 研究的目标是设计出一个有效的智能体，它能够在现实世界中完成目标。

强化学习研究的问题其实一样，只不过它采用了一种更具体的形式：用一个标量信号奖励来表示智能体的目标。关于这一点，我稍后进一步解释。

其次（这点更贴近强化学习的核心假设），我们通常假设世界是通用的，并且无法被完全知晓。这个「世界」可能是一个简单的网格环境，也可能是一个高度复杂的、充满人类行为的现实世界。它可能是随机的、复杂的、非马尔可夫的、非线性的。

正如我之前所说，它的状态空间可以说是无限的，并且它的动态演化在我们看来也是非平稳的。

我们必须在运行时进行学习与决策，并且这一过程不能依赖来自教师或人类的特殊训练信号。这是一个极具挑战性的问题，但我认为这个问题本身非常好，我们无需改变问题设定。我们已经拥有了「奖励信号」这一设定，这就足够了，我们只需要努力去解决这个问题即可。

我还想补充说明一点：在这里我们假设智能体的瓶颈是计算资源，而不是数据量。我们认为环境能够提供丰富的数据。因此我们希望使用流式算法来处理这些数据，而不依赖像 replay buffer 这类机制。

前面我提到，智能体的目标是通过一个标量信号来定义的。现在我想再展开讲一下，这就是所谓的「奖励假设（reward hypothesis）」。

奖励假设的核心观点是：我们所说的「目标」和「目的」，都可以被很好地形式化为最大化某个标量信号（即奖励）的累计期望值。

我认为，这一设定丝毫不是一种限制，相反，它是一种非常清晰、优雅的定义目标的方式。如果试图添加其他附加成分，不但不会更好，反而会削弱其清晰性。

已有一些理论工作探讨了这个假设。我推荐大家阅读 Michael Bowling 等人的论文《Settling the Reward Hypothesis》。

论文标题：Settling the Reward Hypothesis
论文链接：https://arxiv.org/pdf/2212.10420

此外，我们知道，即使是一个非常简单的奖励信号，也可能催生出智能的所有属性。当然，我不该说「我们知道」，更准确地说，我和一些同行主张并论证了这一观点：在一个足够复杂的世界中，一个简单的奖励就足以引导出智能的全部表现。这一点在我们的论文《Reward is Enough》中有详细阐述。

常用智能体模型

但正式开始介绍 OaK 架构之前，我希望先从一个「已有的经典架构」讲起，我称之为常用智能体模型（common model of the intelligent agent）。这个模型在许多学科中广泛存在 —— 无论是人工智能、心理学、控制论、经济学、神经科学，还是运筹学，大家几乎都采用了这一标准模型。

它所假设的智能体架构具有一些基本属性。

首先是上图中红色部分的那些元素，也就是经验接口（experiential interface）：你会接收到奖励信号（reward），你可以采取行动（action），你会接收到来自环境的某种观察信号（observations）。

而这些观察信号通常是不充分的，它们无法完全揭示出环境的真实状态（也就是说，观察不能唯一决定状态）。

所以从外部视角来看，智能体的核心就是这三个「红色部分」组成的经验接口。

另一方面，实际上这个常用模型的核心内容，更多是关于智能体内部的四个组成部分：感知、价值函数、反应策略、转移模型。

图中蓝色部分，我们可以看到这些组件之间是如何互相连接的。这些连接也就是所谓的状态特征向量（state feature vector）。这是用来表示世界状态的方式。

状态特征向量由多个特征组成，每个维度代表一个抽象出的特征。这个向量的生成基本上就是对当前状况的理解。因此，当基于输入信号和过去的动作来构建对当前状况的认知时，用「感知（perception）」这个词来描述是非常恰当的。它就是你对世界的感知方式，表示你的当前状况。这种状态表示是你进行决策、选择行为的基础。

如图中所示，状态表示输入反应策略，然后得到行动的动作。这里的策略是反应性的（reactively）—— 也就是说，它不需要进行复杂的推理或规划，而是直接基于当前状态做出动作选择。

这就构成了智能体的前两个核心组件：感知系统（perception）和策略模块（policy）。这两者合起来就能构成一个完整的智能体。

但如果我们希望这个系统能够学习和改进，我们还需要加入第三个模块，即价值函数（value function）。价值函数可以提供这样的信息：「我现在的表现很好」或「我现在表现很差」，也就是说，它用来判断事情是变好了还是变糟了。

因此，它必须能够读取奖励（reward）信号。归根结底，价值函数本质上就是对未来奖励的预测。这个预测结果会被用来调整和优化策略 —— 我们用图中一条穿过策略模块的斜线来表示价值函数对策略的影响路径。

第四个组成部分是状态转移模型（transition model），它是我们用来进行规划的关键结构。状态转移模型的作用是：在给定当前状态的情况下，根据一个特定的动作，预测可能到达的下一个状态。

虽然我无法在这里详细展开它的全部工作机制，但总的来说，在规划的过程中，它同样会对策略结构产生影响 —— 我们可以用另一条穿过策略模块的对角线来表示这种影响。这种影响不仅作用于策略本身，还会反过来影响价值函数的学习与更新。

到这里，我们就构建了整个常用智能体模型（common model），它以学习与规划为核心，由这四个组件构成。

我认为有趣的一点是，这个单一模型框架，几乎可以涵盖多个不同学科的建模方式。例如，在控制论中，相同的概念会用不同术语来表述：它们不说「动作（action）」，而说「控制量（controls）」；不说「奖励（reward）」，而说「收益（payoff）」或「代价（cost）」。在心理学中，我们可能也使用「奖励」一词，但我们不会说「观察（observations）」，而是说「刺激（stimuli）」。

总之，这些学科尽管术语不同，但底层思想是高度一致的。

OaK 架构

那么，关键问题来了：这个常用模型究竟缺失了什么？为什么我们不能就此止步？

核心缺失在于：这个模型虽然完整，但它仍然停留在低层次的表示上。动作是瞬时的，奖励是瞬时的，观察也是瞬时的。而我们所追求的智能行为，必须涉及到更高层次的抽象。

我们需要发展出概念（concepts），发展出一整套高级思维方式（ways of thinking）。

因此，在这个常用模型基础上，我认为最需要补充的就是开放式抽象（open-ended abstractions），这正是 OaK 架构试图引入的新要素。

来看 OaK 架构的设计图。这里使用了紫色来标示所有新增的内容。OaK 架构的关键扩展，是引入了一系列辅助子问题，这些子问题是相对于主问题（获得奖励）而言的「次级任务」。

主任务仍然是：最大化奖励。而这些子任务，我们即将反复看到一个术语：「与奖励一致的特征达成子问题（reward-respecting subproblems of feature attainment）」。

也就是说：每一个子任务会围绕某个特定特征展开，试图去达成这个特征目标，但前提是：在完成这个目标的同时，不能牺牲太多主任务的奖励，仍然要保持整体的奖励水平不被严重削弱。

从图上看，整个架构与之前几乎相同。但有一个关键变化：在原有的策略之后新增了一组被称为「选项（options）」的结构，它们可以理解为更高层次的策略；而在原有的价值函数之后也增加了多个新的价值函数。

这是因为每一个子问题都是一个独立的问题，因此必须为每个子问题配备一个独立的价值函数，以衡量当前在该子问题上的表现好坏。因此，系统中需要更多的价值函数来支持多个子任务的评估。

因此，现在该架构有四类组件：虽然感知和状态特征向量的机制保持不变，但策略和价值函数这两个部分现在都变成了多个。

我们仍然保留之前的感知模块，负责生成状态特征向量，这个向量会被所有子任务共享。

现在每个子任务都拥有自己的一组选项策略，用于制定适合该任务的行为方式；而对应的，每个子任务也拥有一个独立的价值函数，用于评估当前行为在该子任务上的效果。

图中没有直接把「子问题」明确画出来。因为在架构中，我们并不需要为每个子问题构造一个明确的「对象」。我们只需要为它定义一个对应的价值函数即可。

图中那些从特征向量上延伸出来的蓝色小箭头表示：每一个价值函数都试图从共享的状态特征向量中提取出与自己任务相关的那一部分特征进行优化。

现在我们稍作停留，来谈谈状态转移模型（transition model）。我希望用一个更具哲学意味的词来定义它：知识（knowledge）。

我们的所有知识，其实都体现在状态转移模型之中。也就是说，它代表了我们对世界的理解：当我们采取某种行动时，世界将如何变化。特别是当我们采取那些更高层级的复杂行为 —— 也就是所谓的「选项（options）」时，世界状态可能发生的变化。

「OaK」这一架构名称，正是来源于这两个关键词：Options（选项）和 Knowledge（知识）。

所谓「选项」，指的是一种更高层级的行为方式。但形式上它非常简单，由两个部分组成：一个是策略，一个是终止条件。

策略的含义是：它是一个函数，将状态映射到底层动作上的概率分布；而终止条件则是将状态映射到当前是否应该终止该选项的概率。

OaK 架构中会有大量的选项 —— 通常是针对每一个数值型特征设立一个选项。系统会学习：如果持续执行该选项直到终止，会发生什么，这就是我们所说的「知识」的形式。

比如：「如果我捡起一个物体并握在手中，那会是什么感觉？」、「如果我下楼走进厨房，会在那里遇见谁？」、「如果我去冰岛旅行，可能会遇到什么样的人？」、「如果我去听一场讲座，我能学到什么？」

这些内容，构成了你对世界的预测性理解，也就是一种高级的状态转移模型，它能够让你在计划过程中考虑更大的跳跃，并希望能够「在世界的自然结构处切割它（carve the world at its joints）」。

整个 OaK 架构的运行涉及八个步骤，这些步骤都将在运行时并行执行。我会逐步展开解释，但你可以先整体浏览一遍流程：

(1) 学习用于最大化奖励的策略和价值函数；

(2) 生成新的状态特征；

(3) 对这些特征进行排序，确定其重要性；

(4) 基于排名靠前的特征，构建对应的子问题；

(5) 为每个子问题学习解法；

(6) 为每个子问题的解法学习对应的状态转移模型；

(7) 执行规划；

(8) 维护关于整个系统中各项元素效用的元数据。

距离实现还有多远？

接下来将逐步评估：现在这些步骤真的可以做到吗？

学习用于最大化奖励的策略和价值函数

这是强化学习中的经典任务，我们已有成千上万种算法可以实现它。

但我认为它尚未被完全解决。要说它被解决的前提是：我们能够真正高质量地实现持续性深度学习。而正如我在一开始所说的，这正是目前尚未突破的关键前提技术。

其实我们对它的需求早在 40 年前就已经非常明确。

对于线性网络来说，我们确实可以做到可靠的持续学习；但一旦涉及到非线性深度学习网络，系统在持续学习的过程中就会出现灾难性失效，特别是在尝试保留旧知识的同时学习新知识时。

最为人所知的现象就是「灾难性遗忘（catastrophic forgetting）」。这早在 1990 年代就被发现了。更近的研究显示，我们不仅会忘记旧知识，甚至会出现学习能力完全丧失（loss of plasticity）的现象。这个问题在我自己的实验室以及其他研究机构中都已被反复证实。

近几年出现了一些部分性的解决方案。我们现在可以在一定程度上使用持续性反向传播（continual backprop）来实现一定程度的持续深度学习。另一个可能有前景的方向是：持续发现新的特征表示，以及使用自适应步长机制（adaptive step sizes）。

我确实相信，在未来几年内，我们总会以某种方式实现可靠的、持续性的非线性学习。因此，我认为现在假设它将会实现，并在 OaK 系统架构中基于它的存在来进行设计，是合理的。

生成新的状态特征

这里我要强调的不是「挑选出最好的特征」，而是要生成大量候选特征。

我认为这是一个至今仍不清晰的领域，有很多不同的尝试。

OaK 架构依赖于状态特征的持续发现，而这其实是一个非常老的问题，早在上世纪 60 年代就已经被提出。如果你对历史有所了解，可能听说过它的很多别称，比如「表示学习（representation learning）」、「新术语问题（new terms problem）」以及「元学习（meta-learning）」，本质上都在谈同一类问题。

而众所周知，反向传播曾被认为能解决这一问题，但实际上它并没有。

但现在我们普遍承认，反向传播其实并不能真正发现「好的特征表示」。它只是在某种「被动意义」上实现了目标，泛化能力差，而且也不是显式地在学习这些表征。

另一些方法则基于「生成并测试（generate-and-test）」策略，这一思路可以追溯到很久以前。持续性反向传播就是一种基于生成并测试思路的新算法。

我认为，这一领域目前仍属于未解问题，我们必须找到一种能够从现有状态特征中有效生成新特征的方法，我会在 OaK 架构中假设这种方法是可用的。

我个人最青睐的解决思路是一个名为 IDBD（Incremental Delta-Bar-Delta）的算法，我认为它将在未来的方案中扮演重要角色。

论文标题：Adapting Bias by Gradient Descent: An Incremental Version of Delta-Bar-Delta
论文链接：https://cdn.aaai.org/AAAI/1992/AAAI92-027.pdf

特征排序

我认为这一步相对容易。排序标准也很清楚，只需回答这些问题即可：这些特征是否对子任务有用？是否对智能体整体表现有帮助？是否被模型的学习过程所实际使用？

我们可以简单观察这些特征是否在系统中被频繁使用，从而据此进行排序。

基于排名靠前的特征，构建对应的子问题

我特别想讲一讲这一步，因为我实际上认为它是可行的，而且我们已经在实验中实现过了。

那么，如何构建子问题呢？

首先必须承认：关于「辅助子问题（auxiliary subproblems）」，已有很长的研究历史。有些问题已经基本达成共识，但还有很多问题仍然悬而未解。

我们需要认真思考这些开放性问题：

子问题应该是什么？
它们从何而来？
智能体是否能够自主生成子问题？
这些子问题又是如何帮助主问题（最大化奖励）实现的？

OaK 架构正尝试为这些问题给出统一解答。

我认为，我们所说的「子问题」在现实中最直观的体现就是「试玩（play）」，可以把它看作是个体在尝试获取某种特征的过程。如果你回顾一下动物，甚至人类的一生，你会发现，我们的生活中充满了各种子问题。

试玩或者说玩耍可被看作是个体在尝试关注某种特征的过程。

这是一个人类的例子：婴儿在玩耍。它的行为并非随机。它与玩具互动，学到了一些东西，当发现无法再继续获得新信息时，它就会转向下一项学习机会。

我们通常称之为「好奇心（curiosity）」，但我们也可以用「特征达成的子问题」这一术语来理解它：某些体验包含颜色、触觉、声音等感受，婴儿试图再现这些体验，这就是它探索世界、表达好奇的方式。说到底，这就是在逐步获得对环境的控制力。

因此显而易见，一个智能体必须自行生成子问题。我们不可能预先内嵌所有潜在的子问题。

幸运的是，我们已经拥有许多可用的算法机制来支持这件事：我们拥有选项，拥有价值函数，拥有离策略学习和各种规划方法。

那么，我们该如何实现这一目标？什么样的任务才适合作为子问题？

我提出的解决方案是：与奖励一致的特征达成子问题。

这个方案的合理性来自我们不能使用其它东西。比如你无法直接使用「状态」—— 因为智能体根本没有对全局状态的访问能力；你也无法直接描述「物体」—— 因为我们并没有先验定义的物体结构。我们唯一拥有的，就是一系列特征与概念，而它们是智能体在理解世界过程中自我构建的内部结构。

下图展示了 OaK 根据特征创建子问题的方式：

构建子问题的目标是：将环境引导至一个该特征值较高的状态，同时又不能损失太多主任务的奖励。详见以下论文：

论文标题：Reward-Respecting Subtasks for Model-Based Reinforcement Learning
论文链接：https://arxiv.org/pdf/2202.03466

为子问题学习解法与状态转移模型

接下来，我们需要做两件事：

一是学习这些子问题的解（solution），二是学习这些解对应的转移模型。而这些「解」，就是我们所说的选项（options）。我认为这两步本身并不复杂，前提是我们能够可靠地进行持续深度学习。

现在进入 OaK 架构的核心部分。

我们将进行一系列学习过程，这些过程既会利用已有特征，也会推动新的候选特征的生成。

也就是说，我们将首先获得一组特征，然后基于这些特征构建子问题，每个子问题的目标就是实现对应特征的达成。接下来，我们会逐个解决这些子问题。

如果我们定义了 1000 个子问题，我们就会训练出 1000 个选项作为对应解法。

每个选项都将成为一个预测问题的基础单元：「如果我在当前状态下执行这个选项，会发生什么？」

这就是所谓的状态转移模型 —— 它用于预测特定行为方式的后果。

请注意，这种预测过程与「解决子问题」是不同的：「解决子问题」意味着找到一种高效的行为方式，用于达成目标特征；而状态转移模型则要求我们考虑行为方式的所有潜在后果。

比如，如果我走下楼去厨房，我可能确实抵达厨房了；但我也可能遇见我的伴侣，或者在楼梯上摔倒。

也就是说，可能发生的事情远不止一个，我们需要能够预测这些多样化的后果。

这就是状态转移模型。一旦我拥有这些模型，就必须用它们来进行规划，从而改进行为，并有望实现高度适应性的行为。

可以从上图中获取更直观地了解到：感知提供特征，得到了状态特征。为了解决这些子问题，与世界互动并获得选项。我预测这些选项的后果，于是得到一个转移模型。这个转移模型通过规划提供了改进的价值函数和值策略。接着，所有这些后续步骤会反馈回来，并影响感知。

执行规划

规划是一个很大的话题，但目前已经可以实现 —— 我就有一个具体实现规划的规划。

为什么我们要进行规划？因为世界变化，价值也会随之变化。换句话说，建立正确的模型比建立正确的价值函数更容易。

比如说，找到通往洗手间的路在某些时刻是非常重要的，但「在洗手间」的状态的价值是会变化的。

通俗来说，有时候我想去洗手间，有时候我不想去。但是「如何去洗手间」这个选项的模型 —— 我希望能够一直保留它，即便我当下是否想去的意愿发生了变化。为了应对这种情况，必须提前做好准备，而这具有深远的意义。

我设想的规划是通过价值迭代来完成的，通过这个过程你可以改进你的价值函数，从而知道哪些状态是好的、哪些状态是你想要的、哪些特征是你想要实现的、哪些是不想实现的。

这个公式是经典价值迭代的表达。经典价值迭代针对的是离散状态的情形，可以有一个表格来存储每个状态的价值。

价值迭代会持续不断地进行，你要做的是在空闲时间思考选择一个状态，而如何选择这个状态是一个重要的问题。然后你在该状态上执行一个备份（backup）操作。这个状态的备份会改变该状态的估计价值。然后，你要对所有你可能执行的所有行为取最大值。然后检查预期会得到的奖励。

从下图我们可以看到模型。这就是世界的模型，这个模型接收一个状态和一个动作，然后预测下一个状态的概率分布，并预测期望奖励。

这就是一个原始模型，但不是高级模型。

价值迭代是为原始模型、低层模型定义的。其中有期望奖励和下一个状态的期望值。模型会对所有可能下一个状态的概率和该状态的值进行加权求和，并进行一点折扣。

你现在处于状态 s，观察所有你可能采取的动作和由此导致的状态，然后你评估最有可能发生的情况，并将这些信息反向传播回来，更新当前状态的价值。

所有的规划方法本质上都与之类似。有些方法看起来和这个价值函数形式完全一样。

即使是 A* 方法、蒙特卡洛搜索和模型预测控制等方法，它们也都包含这个基本思想 —— 让模型向前看，预测后果，然后更新模型对不同状态或不同选择的价值的理解，最终据此做出选择。这就是价值迭代。

然后，当我们将其抽象化后，我们就能「跳跃」，也就是说，在世界中采取较大的步骤。这是下一个阶段。

生活是一步一步过的，但你对生活的规划却是在更高的层次上进行的。

所以转移模型（我称其为「知识」）是关于这些大尺度动态的，其中你的动作或选择（即选项）是有目的性的。我们的知识不是建立在单个动作上的，而是建立在更高层概念上，例如叫 Uber 去机场、去冰岛旅行、去洗手间或捡起一个物体。

我们的知识是关于选项的。所以选项模型就是我们上一页讲过的常规模型的泛化版本，我们把其中的 action（动作）替换为 option（选项），输入就是我可能做的所有事情，也就是一系列扩展的行为方式，而输出的不是下一个状态，而是当选项终止时我最终到达的状态。

并且我们不再关心一步的期望奖励，而是关心从开始到终止的总期望奖励。

除了这两个变化，价值函数的计算方式仍然是一样的。我们仍然会对所有可能的后续情况求和，获取奖励，以及在终止状态下的期望值。核心思想是相同的。

所以我们可以在抽象层级上使用价值迭代进行规划。接下来我还需要说明一下我们是如何将这一方法泛化以支持函数近似的。因为世界太大了，我们没有办法为每一个状态都定义一个 V (s)。我们并不拥有世界中每一个状态的具体价值函数，但我们拥有通过权重向量（参数）决定的状态价值函数。

因此，我们可以使用一种近似方法来表示世界状态。这个状态将通过观测、特征向量表示，并结合参数，生成一个估计值。

所以很自然地，模型也会变成参数化的。我们会预测整个过程中的奖励，并预测到终止状态的转移概率，这些也都将通过参数来表示。

所以我们不再使用传统的表格方式，而是通过梯度方法更新权重。

现在，我们的期望奖励是基于模型、转移模型以及其参数而得出的；转移概率也是基于参数而得的；接着有估算出的值。这个 b (s,a,w) 相当于括号中的那一部分，它就成了学习的目标值。

我们现在已经回到了使用单一动作原语来进行函数近似的阶段。这个方法也可泛化到完整的选项（option）情形。

维护关于整个系统中各项元素效用的元数据

最后一步，是我们必须为所有内容记录统计信息或元数据，特别是关于转移模型的质量信息。因为模型是近似的，我们需要学会识别模型在哪些地方能提供可靠的答案，在哪些地方不能。

我们还必须对特征本身记录统计信息，这样在生成新特征时，就能根据已有统计信息来指导特征生成过程，判断哪些特征是好的，哪些是不好的。

下面归总一下，图中勾的颜色代表了这八个步骤能否做到：蓝色表示如果能实现持续深度学习与元学习，这部分就可以完成；红色表示有很多想法，但没有具体方案；黄色表示看起来很容易，但必须等其他部分完成之后才能进行；绿色表示似乎已经能够做到。

总结

OaK 是开放式的，包含不断探索的新循环。

这正是 OaK 的新想法：它的抽象过程是开放的，唯一的限制是计算资源。

基本循环如下：我们从状态特征开始，基于这些状态特征构建子问题，然后解决这些子问题以产生选项，再基于这些选项构建选项模型，通过规划过程来改进选项和策略。

这一系列步骤都会使用状态特征。虽然箭头是单向的，但实际上存在反向影响：我们会告知状态特征哪些是有用的，哪些是无用的。

正是 OaK 得以开放演化的核心所在：通过这样一个循环，系统不断发现更优的抽象，而这一切最终都与「奖励」紧密相关。

请记住这个追求：我们追求的是泛化性、经验性和开放式的抽象能力。我想，也许你已经能看到这个愿景如何为你提供一条实现这些目标的道路，尽管它仍有一些前提条件尚未解决。

因此，OaK 提出了一种通过运行时经验发展超级智能的愿景。

#最新Agent框架

一、主流AI AGENT框架

当前主流的AI Agent框架种类繁多，各有侧重，适用于不同的应用场景。目前收集了几个主流并且典型Agent框架，先给出本文描述的有哪些框架图表。

框架	描述	适用场景
LangGraph	基于LangChain搭建的状态驱动的多步骤 Agent	复杂状态机、审批流
AutoGen	多 Agent 协作、对话式	研究报告生成、任务拆解
CrewAI	轻量级“角色扮演”多 Agent	内容团队、市场分析
Smolagents	Hugging Face 系、专注小模型	私有化、小模型场景
RagFlow	专注 RAG 的端到端流程	新增多模态文档解析节点

二、CrewAI

crewAI 是一个开源多智能体协调框架。这个基于 Python 的框架通过协调角色扮演的自主 AI 智能体，利用人工智能 (AI) 协作，作为一个内聚的集合体或“团队”共同完成任务。

CrewAI 是一款专注于多智能体自动化的先进框架，其核心特点可总结如下：

独立架构
完全自主研发，不依赖LangChain或其他现有框架，提供原生解决方案。
高性能设计
强调速度和资源效率优化，实现快速任务执行与低消耗。
深度可定制化
支持从宏观工作流到微观行为的全栈定制：
可调整系统架构与整体流程
能精细控制单个Agent的决策逻辑、内部提示词等底层细节
全场景适用
既适合简单任务，也能支撑企业级复杂自动化需求，通过两种模式实现：智能协作团队（Crews模式）、事件工作流（Flows模式）

CrewAI功能对比图

CrewAI 功能介绍

CrewsAI支持两个功能，分别为Crews与Flows，具体如下

Crews（智能协作团队）

由具备真实自主性与决策权的AI智能体组成的团队，通过角色化协作完成复杂任务。其核心特点包括：自主决策：智能体之间可自然、自主地做出决策

动态协作：支持任务灵活分配与实时协同

角色专精：每个智能体有明确目标、专业领域和职能

弹性问题解决：能自适应调整解决路径

Flows（事件工作流）

面向生产环境的自动化流程引擎，提供精准控制能力：精细化执行控制：满足现实场景的多路径执行需求

可靠状态管理：跨任务的安全、一致性数据维护

无缝代码集成：AI智能体与生产级Python代码的清洁对接

条件分支逻辑：支持复杂业务规则的动态路由

两者共同构成「自主协作+精准流程」的AI自动化体系，兼顾灵活性与生产可靠性。

活跃生态支持

拥有超过10万认证开发者组成的社区，提供强大的技术支持和资源库。

该框架通过平衡易用性、灵活性与性能，帮助开发者和企业高效构建智能自动化系统，尤其擅长处理需要多智能体协作的复杂场景。

Crews 智能协作模式示例

步骤1：创建CrewAI项目

首先，使用CLI创建一个新的CrewAI项目。该命令生成完整的项目结构及所需文件。

crewai create crew research_crew  
cd research_crew

步骤2：生成的项目结构

research_crew/  
├── .gitignore  
├── pyproject.toml  
├── README.md  
├── .env  
└── src/  
    └── research_crew/  
        ├── __init__.py  
        ├── main.py  
        ├── crew.py  
        ├── tools/  
        │   ├── custom_tool.py  
        │   └── __init__.py  
        └── config/  
            ├── agents.yaml  
            └── tasks.yaml

了解CLI生成的项目结构。CrewAI遵循Python项目最佳实践，便于维护和扩展：

crewAI会生成完成的项目结构，我们只需要在对应内容做修改调整，大大降低了操作的门槛。

配置文件（YAML）与实现代码（Python）分离，便于调整行为而无需修改底层代码。

步骤3：AI agent配置

定义具有特定角色、目标和背景的AI agent。例如：

研究员：擅长查找和组织信息

分析师：解读研究结果并生成报告

修改agents.yaml文件：

researcher:  
  role: "{topic}高级研究专家"  
  goal: "查找关于{topic}的全面准确信息，重点关注近期进展和关键见解"  
  backstory: "您是一位经验丰富的研究专家，擅长从多来源获取信息并清晰组织内容。"  
  llm: "model-id"   # e.g. openai/gpt-4o, google/gemini-2.0-flash, anthropic/claude

analyst:  
  role: "{topic}数据分析师兼报告撰写人"  
  goal: "分析研究发现并撰写结构清晰的综合报告"  
  backstory: "您是一位擅长数据解读和技术写作的分析师，能有效提炼见解并形成专业报告。"  
  llm: "model-id"   # e.g. openai/gpt-4o, google/gemini-2.0-flash, anthropic/claude

步骤4：个性化定义任务

为agent分配具体工作。

示例任务：

研究任务：收集信息

分析任务：生成报告

修改tasks.yaml文件：

research_task:  
  description: "深入研究{topic}，涵盖关键概念、趋势、挑战、案例和未来展望。"  
  expected_output: "结构化的研究文档，包含事实数据和案例。"  
  agent: researcher  

analysis_task:  
  description: "分析研究结果并生成专业报告，需包含摘要、趋势分析和建议。"  
  expected_output: "格式规范、易于阅读的最终报告。"  
  agent: analyst  
  context: [research_task]  # 分析师可访问研究员输出  
  output_file: "output/report.md"

步骤5：配置Crew

在crew.py中整合代理和任务，设置协作流程：

@CrewBase  
class ResearchCrew():  
    @agent  
    def researcher(self) -> Agent:  
        return Agent(cnotallow=self.agents_config['researcher'], tools=[SerperDevTool()])  

    @agent  
    def analyst(self) -> Agent:  
        return Agent(cnotallow=self.agents_config['analyst'])  

    @crew  
    def crew(self) -> Crew:  
        return Crew(agents=self.agents, tasks=self.tasks, process=Process.sequential)

通过几行代码实现agent的协同工作流程。

步骤6：设置main脚本

在main.py中指定研究主题并启动Crew：

inputs = {'topic': '医疗领域的人工智能'}  
result = ResearchCrew().crew().kickoff(inputs=inputs)  
print(result.raw)  # 打印报告

步骤7：配置环境变量

在项目根目录的.env文件中添加API密钥：

SERPER_API_KEY=您的密钥  
LLM_API_KEY=您的密钥

步骤8：安装依赖

运行以下命令自动安装依赖：

crewai install

步骤9：运行Crew

启动协作流程：

crewai run

实时观察代理的思考、行动和输出。

步骤10：查看输出

最终报告将保存至output/report.md，包含：执行摘要、详细分析、建议与展望

三、LangChain

LangGraph 由LangChain创建，是一个开源 AI 代理框架，旨在构建、部署和管理复杂的生成式 AI 代理工作流。其核心是利用基于图的架构的强大功能来建模和管理AI 代理工作流中各个组件之间的复杂关系。

LangChain 功能介绍

LangChain基于图的架构视为一个强大的可配置的“超级地图”。用户可以将AI 工作流程想象成这张“超级地图”的“导航员”。最后，在这个例子中，用户是“制图员”。从这个意义上讲，导航员绘制出“超级地图”上各点之间的最佳路线，而所有这些路线都是由“制图员”创建的。基于图的架构（“超级地图”）中的最佳路线是通过 AI 工作流（“导航器”）绘制和探索的。

LangChain 功能

LangGraph 阐明了 AI 工作流程中的流程，使代理的状态完全透明。在 LangGraph 中，“状态”功能充当存储库，记录并追踪 AI 系统处理的所有有价值的信息。它类似于一个数字笔记本，系统在工作流程或图形分析的各个阶段中捕获并更新数据。

LangGraph使用示例

前置条件

在开始本教程前，请确保满足以下条件：

拥有Anthropic API密钥

1.安装依赖
如果尚未安装，请先安装LangGraph和LangChain：

pip install -U langgraph "langchain[anthropic]"

2.创建agent
使用create_react_agent创建智能体：

from langgraph.prebuilt import create_react_agent
def get_weather(city: str) -> str:  
    """获取指定城市的天气"""
    return f"{city}的天气永远晴朗！"

agent = create_react_agent(
    model="anthropic:claude-3-7-sonnet-latest",  
    tools=[get_weather],  
    prompt="你是一个乐于助人的助手"  
)

# 运行智能体
agent.invoke(
    {"messages": [{"role": "user", "content": "旧金山的天气怎么样"}]}
)

3.配置大语言模型（LLM）
配置LLM参数（如模型、温度参数），使用init_chat_model：

from langchain.chat_models import init_chat_model
from langgraph.prebuilt import create_react_agent

model = init_chat_model(
    "anthropic:claude-3-7-sonnet-latest",
    temperature=0  # 控制随机性
)

agent = create_react_agent(
    model=model,
    tools=[get_weather],
)

4.添加自定义提示
提示词用于指导LLM的行为。可选择以下两种提示类型：
静态提示： 字符串形式，作为系统消息。
动态提示： 根据运行时输入或配置生成的消息列表。
4.1 静态提示
定义一个固定的prompt

from langgraph.prebuilt import create_react_agent

agent = create_react_agent(
    model="anthropic:claude-3-7-sonnet-latest",
    tools=[get_weather],
    # A static prompt that never changes
    prompt="Never answer questions about the weather."
)

agent.invoke(
    {"messages": [{"role": "user", "content": "what is the weather in sf"}]}
)

4.2 动态提示
定义函数，根据智能体状态和配置返回消息列表：

from langchain_core.messages import AnyMessage
from langchain_core.runnables import RunnableConfig
from langgraph.prebuilt.chat_agent_executor import AgentState
from langgraph.prebuilt import create_react_agent

def prompt(state: AgentState, config: RunnableConfig) -> list[AnyMessage]:  
    user_name = config["configurable"].get("user_name")
    system_msg = f"你是一个乐于助人的助手。请称呼用户为{user_name}。"
    return [{"role": "system", "content": system_msg}] + state["messages"]

agent = create_react_agent(
    model="anthropic:claude-3-7-sonnet-latest",
    tools=[get_weather],
    prompt=prompt
)

agent.invoke(
    {"messages": [{"role": "user", "content": "旧金山的天气怎么样"}]},
    cnotallow={"configurable": {"user_name": "张三"}}
)

5.添加记忆功能
为实现历史多轮对话记忆功能，需通过检查点（checkpointer）启用持久化。运行时需提供包含thread_id（会话唯一标识）的配置：

from langgraph.prebuilt import create_react_agent
from langgraph.checkpoint.memory import InMemorySaver

checkpointer = InMemorySaver()

agent = create_react_agent(
    model="anthropic:claude-3-7-sonnet-latest",
    tools=[get_weather],
    checkpointer=checkpointer  # 启用记忆存储
)

# 运行智能体
config = {"configurable": {"thread_id": "1"}}
sf_response = agent.invoke(
    {"messages": [{"role": "user", "content": "旧金山的天气怎么样"}]},
    config  
)
ny_response = agent.invoke(
    {"messages": [{"role": "user", "content": "纽约呢？"}]},
    config
)

启用检查点后，智能体的状态会存储到指定的数据库（若使用InMemorySaver则存储在内存中）。

6.配置结构化输出

如需生成符合模式的结构化响应，使用response_format参数。模式可通过Pydantic模型或TypedDict定义，结果将通过structured_response字段访问。

from pydantic import BaseModel
from langgraph.prebuilt import create_react_agent

class WeatherResponse(BaseModel):
    conditions: str  # 天气状况字段

agent = create_react_agent(
    model="anthropic:claude-3-7-sonnet-latest",
    tools=[get_weather],
    response_format=WeatherResponse  # 指定响应格式
)

response = agent.invoke(
    {"messages": [{"role": "user", "content": "旧金山的天气怎么样"}]}
)

response["structured_response"]  # 获取结构化响应

LangGraph 还推出了 LangGraph Studio，一个用于工作流开发的可视化界面。使用 LangGraph Studio，用户可以通过图形界面设计和构建工作流，而无需编写代码。可下载的桌面应用程序使 LangGraph Studio 更适合初学者使用。

四、AutoGen

AutoGen 是微软推出的一款开源框架，用于构建能够通过对话模式协作完成任务的代理。AutoGen 简化了 AI 开发和研究，支持使用多种大型语言模型 (LLM)、集成工具和高级多代理设计模式。

AutoGen 可作为通用基础架构，用于构建各种复杂程度和 LLM 功能的应用程序。实证研究证明了该框架在许多示例应用程序中的有效性，这些应用程序涵盖数学、编程、问答、运筹学、在线决策、娱乐等领域。您可以将此应用程序视为ChatGPT + 代码解释器 + 插件 + 完全可定制。

AutoGen 的设计模式采用统一的界面，展现了用于座席交互的标准化接口。它还具有自动回复机制，可实现持续的对话流程。此外，它还支持动态对话，支持静态和动态流程。它为自适应对话提供了可自定义的回复功能。

AutoGen 是一个开源的编程框架，用于构建AI智能体并促进多智能体协作完成任务。它旨在提供一个易用且灵活的开发框架，加速智能体AI（如PyTorch之于深度学习）的研发进程。其核心功能包括： 支持智能体间对话、大语言模型（LLM）与工具调用、自主工作流与人机协同流程，以及多智能体会话模式 。

AutoGen概览

核心特性

下一代LLM应用构建：通过多智能体对话轻松构建复杂LLM应用，简化工作流的编排、自动化与优化，最大化模型性能并弥补其缺陷。

多样化会话模式：支持自定义可对话智能体，开发者能构建不同自主性、智能体数量和拓扑结构的会话流程。

开箱即用案例系统：提供涵盖多领域、多复杂度的现成系统，展示框架对各种会话模式的广泛支持。

AutoGen使用方法

1.安装命令：

pip install autogen-agentchat~=0.2

2.执行模式：

2.1无代码执行

import os
from autogen import AssistantAgent, UserProxyAgent

llm_config = { "config_list": [{ "model": "gpt-4", "api_key": os.environ.get("OPENAI_API_KEY") }] }
assistant = AssistantAgent("assistant", llm_cnotallow=llm_config)
user_proxy = UserProxyAgent("user_proxy", code_execution_cnotallow=False)

# 发起对话
user_proxy.initiate_chat(
    assistant,
    message="给我讲个关于英伟达和特斯拉股价的笑话。",
)

2.2本地代码执行

在 AutoGen 中，代码执行器是一个组件，它接收输入消息，然后执行并输出包含结果的消息。命令行代码执行器，它在命令行环境（例如 UNIX shell）中运行代码。

下图显示了本地命令行代码执行器的架构

autogen.coding.LocalCommandLineCodeExecutor

当本地命令行代码执行器收到包含代码块的消息时，首先将代码块写入代码文件，然后启动一个新的子进程来执行该代码文件。执行器读取代码执行的控制台输出，并将其作为回复消息发送回去。

以下是使用代码执行器运行 Python 代码块并打印随机数的示例。

首先，我们使用代码执行器创建一个代理，该代理使用临时目录来存储代码文件。

import tempfile
from autogen import ConversableAgent
from autogen.coding import LocalCommandLineCodeExecutor

# Create a temporary directory to store the code files.
temp_dir = tempfile.TemporaryDirectory()

# Create a local command line code executor.
executor = LocalCommandLineCodeExecutor(
    timeout=10,  # Timeout for each code execution in seconds.
    work_dir=temp_dir.name,  # Use the temporary directory to store the code files.
)

# Create an agent with code executor configuration.
code_executor_agent = ConversableAgent(
    "code_executor_agent",
    llm_cnotallow=False,  # Turn off LLM for this agent.
    code_execution_cnotallow={"executor": executor},  # Use the local command line code executor.
    human_input_mode="ALWAYS",  # Always take human input for this agent for safety.
)

现在我们让代理根据带有 Python 代码块的消息生成回复。

message_with_code_block = """This is a message with code block.
The code block is below:
```python
import numpy as np
import matplotlib.pyplot as plt
x = np.random.randint(0, 100, 100)
y = np.random.randint(0, 100, 100)
plt.scatter(x, y)
plt.savefig('scatter.png')
print('Scatter plot saved to scatter.png')
```
This is the end of the message.
"""

# Generate a reply for the given code.
reply = code_executor_agent.generate_reply(messages=[{"role": "user", "content": message_with_code_block}])
print(reply)

agent执行之后，生成的内容如下

>>>>>>>> NO HUMAN INPUT RECEIVED.

>>>>>>>> USING AUTO REPLY...

>>>>>>>> EXECUTING CODE BLOCK (inferred language is python)...
exitcode: 0 (execution succeeded)
Code output: 
Scatter plot saved to scatter.png

在生成响应的过程中，需要人工输入，以便有机会拦截代码执行。在这种情况下，我们选择继续执行，代理的回复包含代码执行的输出。

import os
print(os.listdir(temp_dir.name))
# We can see the output scatter.png and the code file generated by the agent.

输出的结果，我们可以在临时目录中查看生成的图

['scatter.png', '6507ea07b63b45aabb027ade4e213de6.py']

五、SmolagentsSmolagents项目介绍

smolagents是HuggingFace官方推出的Agent开发库，HF出品的库，往往的设计理念是“低门槛，高天花板，可拓展”，所以知道HF出了Agent相关的框架后，也是很快体验了一下。smolagents是一个开源 Python 库，旨在仅使用几行代码即可极其轻松地构建和运行代理。

主要特点smolagents包括：

简洁：代理逻辑只需约千行代码即可实现。我们将抽象保持在原始代码之上，使其保持最小形式！

一流的代码代理支持：CodeAgent将其操作写入代码（而不是“使用代理编写代码”）以调用工具或执行计算，从而实现自然的可组合性（函数嵌套、循环、条件）。为了确保安全，我们支持通过E2B或 Docker在沙盒环境中执行。

通用工具调用代理支持：除了 CodeAgents 之外，ToolCallingAgent还支持通常的基于 JSON / 文本的工具调用，适用于优先使用这种范式的场景。

Hub 集成：无缝地与 Hub 共享和加载代理和工具，就像 Gradio Spaces 一样。

模型无关：轻松集成任何大型语言模型 (LLM)，无论它是通过推理提供程序托管在 Hub 上，还是通过 OpenAI、Anthropic 等 API 或 LiteLLM 集成访问，亦或使用 Transformers 或 Ollama 在本地运行。使用您首选的 LLM 为代理提供支持既简单又灵活。

支持多种模态：除了文本，代理还可以处理视觉、视频和音频输入，从而拓展其应用范围。查看视觉相关教程。

支持工具：您可以使用来自任何MCP 服务器、来自LangChain的工具，甚至可以使用Hub Space作为工具。

smolagents示例

安装pip包

pip install smolagents[toolkit]

定义agent，并执行结果

from smolagents import CodeAgent, WebSearchTool, InferenceClientModel

model = InferenceClientModel()
agent = CodeAgent(tools=[WebSearchTool()], model=model, stream_outputs=True)

agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")

六、RAGFlow

RAGFlow作为一款端到端的RAG解决方案，RAGFlow 旨在通过深度文档理解技术，解决现有RAG技术在数据处理和生成答案方面的挑战。它不仅能够处理多种格式的文档，还能够智能地识别文档中的结构和内容，从而确保数据的高质量输入。

RAGFLow框架图

深度文档理解 ："Quality in, quality out"，RAGFlow 基于深度文档理解，能够从各类复杂格式的非结构化数据中提取真知灼见。真正在无限上下文（token）的场景下快速完成大海捞针测试。对于用户上传的文档，它需要自动识别文档的布局，包括标题、段落、换行等，还包含难度很大的图片和表格。对于表格来说，不仅仅要识别出文档中存在表格，还会针对表格的布局做进一步识别，包括内部每一个单元格，多行文字是否需要合并成一个单元格等。并且表格的内容还会结合表头信息处理，确保以合适的形式送到数据库，从而完成 RAG 针对这些细节数字的“大海捞针”。

可控文本切片 ：RAGFlow 提供多种文本模板，用户可以根据需求选择合适的模板，确保结果的可控性和可解释性。因此 RAGFlow 在处理文档时，给了不少的选择：Q&A，Resume，Paper，Manual，Table，Book，Law，通用... 。当然，这些分类还在不断继续扩展中，处理过程还有待完善。后续还会抽象出更多共通的东西，使各种定制化的处理更加容易。

支持各类异构数据源 ：RAGFlow 支持支持丰富的文件类型，包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。对于无序文本数据，RAGFlow 可以自动提取其中的关键信息并转化为结构化表示；而对于结构化数据，它则能灵活切入，挖掘内在的语义联系。最终将这两种不同来源的数据统一进行索引和检索，为用户提供一站式的数据处理和问答体验。

七、总结

当前主流的AI Agent框架各具特色，适用于不同的应用场景和技术需求。以下是各框架的核心特点及适用场景的总结：

CrewAI

特点：专注于多智能体协作，提供独立架构、高性能设计和深度可定制化。支持智能协作团队（Crews模式）和事件工作流（Flows模式），适合复杂任务和企业级自动化需求。
适用场景 ：内容团队协作、市场分析、复杂任务自动化。

LangGraph

特点：基于图的架构，用于构建和管理复杂的生成式AI代理工作流。
适用场景 ：复杂状态机、审批流、多步骤任务编排。

AutoGen

特点：微软开源框架，强调多智能体对话协作，支持多种LLM和工具调用。提供动态对话和自适应工作流，适合研究型任务和交互式应用。
适用场景 ：研究报告生成、任务拆解、数学和编程问题求解。

Smolagents

特点：Hugging Face推出的轻量级库，设计简洁，支持代码代理和工具调用，模型无关且易于扩展。适合快速开发和私有化部署。
适用场景 ：小模型场景、私有化部署、快速原型开发。

RAGFlow

特点：端到端RAG解决方案，专注于深度文档理解和可控文本切片，支持多模态数据源和高质量信息检索。
适用场景 ：文档解析、知识问答、多模态数据处理。

框架对比与选择建议

协作需求 ：选择CrewAI（多智能体协作）或AutoGen（对话式协作）。
复杂流程 ：LangGraph适合状态驱动的多步骤任务，AutoGen适合动态对话流程。
轻量级开发 ：Smolagents适合快速构建和扩展。
文档处理 ：RAGFlow是处理多模态文档和高质量检索的首选。

这些框架共同推动了AI Agent技术的发展，开发者可根据具体需求选择最合适的工具。

#强化学习框架的演进与发展趋势

原文链接：

Robin's Home Page：
jianzhnie.github.io/llmtech/#/rlhf/infra/RL-Infra_overview

1. 从SFT到强化学习：模型训练范式的转变

在2024年OpenAI发布O1系列模型之前，主流的机器学习训练方式主要依赖于有监督微调（Supervised Fine-Tuning, SFT）。该方法通过让模型学习“标准答案”，并根据预测与真实标签之间的损失（loss）来更新模型参数。训练流程相对简单，PyTorch 和 TensorFlow 等深度学习框架也围绕这一范式构建了丰富的训练加速工具。

然而，随着O1系列模型的发布，模型训练的重心逐渐从SFT向强化学习（Reinforcement Learning, RL）转移。SFT逐渐被视为训练过程中的“预热”阶段，其作用被弱化为参数初始化或策略引导。取而代之的是，RL在模型能力提升中扮演了越来越关键的角色。

1.1. RL算法的演进与多样化

RL算法本身也在不断迭代与优化。从早期的DPO（Direct Preference Optimization），到经典的PPO（Proximal Policy Optimization），再到近年来涌现出的GRPO、RLOO、Reinforce++、DAPO等新方法，RL算法在策略更新方式、稳定性、样本效率等方面持续优化。

尽管DPO因其简洁性曾一度流行，但随着任务复杂度和模型规模的提升，其局限性逐渐显现，目前在实际工程中已较少被采用。尽管如此，主流RL框架的整体结构保持相对一致，核心流程主要包括以下几个阶段：

1.2. RL训练流程的三大模块

模块一：策略生成（Rollout）

对应“学生自己寻找答案”的过程。这是RL训练中的推演阶段（Rollout），模型基于当前策略生成响应（action），模拟与环境的交互过程。该阶段是模型推理过程的扩展，通常需要大量采样以获取多样化的行为轨迹。

模块二：奖励评估（Reward Evaluation）

对应“给学生答案打分”的过程。传统上，这一阶段依赖于奖励模型（Reward Model），用于评估生成结果的质量。在当前阶段，由于任务复杂度提升，奖励评估的实现方式也趋于多样化：

基于规则的评估（Rule-based）：在数学、物理、代码等领域，通过结果与规则的匹配度进行打分。
轻量级奖励模型：训练一个小型模型（如7B参数）进行打分，成本可控，且效果良好。

在许多研究项目中，这一模块甚至被简化为Rollout的一部分，未被单独重视。然而，随着Agent行为模拟的兴起，尤其是在商业应用场景（如电商、客服等）中，奖励评估的复杂性显著上升，未来该模块的重要性将不断提升。

模块三：策略更新（Policy Update）

对应“学生根据打分来学习”的过程。这是RL训练的核心阶段，基于传统训练框架（如PyTorch、DeepSpeed等），通过修改损失函数实现策略更新。不同算法（如PPO、DPO、RLOO等）在此阶段的实现逻辑有所不同，但整体结构保持一致。

1.3 总结

从SFT主导的训练范式到RL驱动的能力提升，大模型的训练流程正经历深刻的变革。RL框架的结构虽然保持稳定，但其各模块的功能、实现方式和重要性正在不断演化。

Rollout模块：面临长上下文、异构任务带来的性能挑战；
Reward Evaluation模块：从简单规则向复杂评估演进，未来可能成为RL训练中的关键瓶颈；
Policy Update模块：依赖于底层训练框架的性能优化与算法迭代。

随着Agent行为模拟、复杂任务建模、多模态交互等方向的发展，RL框架的设计将更加注重模块间的协同、资源调度的高效性以及算法与工程实现的统一性。

2. RL训练框架设计与性能优化挑战

当前，主流的强化学习（Reinforcement Learning, RL）训练框架通常被划分为两个核心模块：训练（Training） 和 Rollout（推演）。

在设计一个高效的RL训练系统时，开发者将面临一系列关键挑战。以下是我们在技术选型与框架设计过程中总结出的三大核心问题。

2.1 挑战一：Rollout与训练模块的协同与资源管理

目前，RL训练普遍采用On-policy策略，这意味着Rollout与训练过程必须顺序执行。然而，随着模型规模的持续增长，分布式多卡训练已成为必然趋势。

Rollout阶段：主要为内存密集型任务，尤其在处理长上下文（如Chain-of-Thought）时，需要维护大量的KV Cache（Key-Value Cache）。
训练阶段：则属于计算密集型任务，涉及大规模的参数更新和梯度计算。

这两个阶段各自已有大量优化手段（如内存复用、流水线并行等），但如何在统一框架中高效管理这两类异构资源？如何优化两者之间的参数同步机制？这是构建高效RL系统的关键挑战之一。

2.2 挑战二：底层训练与推理框架的多样性

当前存在多种主流的训练框架，例如：

Megatron-LM
DeepSpeed（FSDP）
PyTorch FSDP

同时，推理引擎也呈现多样化趋势：

vLLM
SGLang

不同训练框架与推理引擎的架构差异显著，导致在参数同步、推理调度等环节的实现逻辑差异较大。例如，仅在参数更新部分，不同组合就可能需要完全不同的实现逻辑，这对系统的可维护性与扩展性提出了较高要求。

2.3 挑战三：异构批次执行带来的不确定性

Rollout任务通常以批次形式执行，但批次内部任务的复杂度可能存在巨大差异。特别是在引入Agent行为模拟的场景下，这种异构性更加显著，可能导致整体调度效率下降、资源利用率不均衡等问题。

3. 性能优化分析3.1 初始实现与性能瓶颈

在RL训练的早期实现中，整个流程通常分为三个阶段：

推理阶段（Rollout）：模型根据当前策略生成响应。
评估阶段：通过奖励模型或其他机制对生成结果进行打分。
训练阶段：基于打分结果更新策略模型。

该流程本质上可以基于SFT（Supervised Fine-Tuning）框架实现，区别在于需要初始化多个模型实例（如策略模型、奖励模型等）。然而，这种实现方式在实际运行中往往存在显著的性能瓶颈。

3.2 内存优化策略

在大规模模型训练中，显存占用主要包括以下几个部分：

模型参数（Parameters）
梯度（Gradients）
优化器状态（Optimizer States）
激活值（Activations）

以一个7B参数模型为例，在FP32精度下，仅模型参数和梯度就需要约28GB显存，优化器状态则可能额外占用28GB×3=84GB，总计高达112GB。显然，单卡无法承载如此庞大的内存需求。

为此，业界提出了多种分布式训练策略：

数据并行（Data Parallelism, DP）：如 DeepSpeed ZeRO-1/2/3，通过All-Gather操作动态重建完整参数。
张量并行（Tensor Parallelism, TP）与流水线并行（Pipeline Parallelism, PP）：如 Megatron-LM，采用参数切分策略，适用于大规模模型。

根据NVIDIA相关论文的研究结论，在千卡以下规模，DP与TP/PP性能相近；但在更大规模下，TP/PP因避免了All-Gather操作的通信开销，性能优势更为明显。

特性	数据并行（DP）	张量并行（TP）	流水线并行（PP）
实现复杂度	简单	高	中等
内存冗余	高	低	低
通信开销	中等	高	低
模型大小限制	小	大	大
计算资源利用率	高	高	中等
调度复杂度	低	高	高
适用场景	数据量大、模型较小	模型超大、计算密集	模型深度大、长序列

这个表格比较了数据并行（DP）、张量并行（TP）和流水线并行（PP）三种并行策略在不同特性上的表现。

3.3 推理速度优化与引擎选型

当前主流推理引擎（如 vLLM 和 SGLang）在KV Cache复用、底层算子优化等方面已实现显著性能提升。尽管如此，训练与推理引擎之间的参数同步仍存在一定挑战：

推理引擎生成的输出与训练引擎在精度上存在差异；
当前主流做法是：在Rollout阶段使用推理引擎加速生成，训练阶段再由训练引擎重新计算logits（仅需prefill阶段，计算效率高）。

因此，将高性能推理引擎与训练框架进行集成，是提升整体RL训练效率的有效路径。但如何高效地实现训练与推理模块的拼接与协同，仍是值得深入研究的问题。

4. 训练框架与推理引擎的整合

4.1 SPMD和MPMD概念解析

在讨论训练框架与推理引擎如何结合之前，有必要先理解SPMD（Single Program, Multiple Data）和MPMD（Multiple Programs, Multiple Data）的概念。简而言之，SPMD指的是多个处理单元执行相同的程序但操作不同的数据集，而MPMD则涉及多个处理单元运行不同的程序并处理不同的数据集。前者通常不需要一个中央控制器来协调工作流程，而后者则可能需要以避免混乱。

在讨论训练框架和推理引擎的集成时，首先需要理解两种并行处理模式：SPMD（Single Program, Multiple Data） 和 MPMD（Multiple Programs, Multiple Data）。这两种模式也可以被描述为单一控制器与多控制器架构。

单一控制器（SPMD）：所有工作节点执行相同的程序逻辑，适用于数据量大但模型规模较小的场景。
多控制器（MPMD）：每个工作节点可以执行不同的程序，增加了实现复杂度，但无需集中控制，适合特定应用场景。

主流的深度学习训练框架如DeepSpeed和Megatron都采用了SPMD模式，保证所有进程遵循相同的代码逻辑进行运算。然而，对于推理引擎（例如SGlang和vLLM），情况则有所不同。尽管推理引擎（例如SGLang和vLLM）在计算过程中遵循SPMD原则，但在决定下一个token来源或如何处理KV缓存等方面，则不完全适用SPMD/MPMD分类。对于这些情况，Google Pathway等系统提供了更灵活的解决方案。

考虑到上述背景，我们更应关注的是训练框架与推理引擎之间关于训练数据和模型参数的通信机制，而非局限于是否采用单一控制器或多控制器架构。

4.2 SLIME的具体实现方法

训练框架与推理引擎之间的核心挑战在于训练数据与模型参数的通信机制。为了更好地理解这一点，我们可以通过分析slime和roll项目来探讨具体实现方案。

SLIME是一个专注于强化学习扩展的后训练框架，它定义了两个主要组件：RayTrainGroup用于训练框架，RolloutGroup用于推理引擎。

4.2.1 数据传输机制

SLIME通过定义一个中间件类——Buffer，实现了推理引擎与训练模块间的数据传输。所有的数据都会被存储在这个Buffer中（甚至可以写入磁盘），并通过rollout ID进行指定访问。此外，Buffer类中的数据处理函数以及rollout/eval函数均可以通过命令行参数灵活配置，极大地提高了系统的适应性。

self.generate_rollout = load_function(self.args.rollout_function_path)
self.eval_generate_rollout = load_function(self.args.eval_function_path)

这种设计使得应对业务需求时更加灵活高效，尤其是面对各种特殊需求和数据格式时尤为重要。

Rollout 的generate函数是通过Buffer。

def async_generate(self, rollout_id, evaluation=False):
     return self.data_buffer.generate.remote(rollout_id, evaluation=evaluation)

获取训练框架所需的数据同样依赖于这个Buffer：

def get_rollout_data(self, rollout_id):
    megatron_utils.process_rollout_data(rollout_id, self.args, self.data_buffer)

同步rollout的buffer给actor的过程如下所示：

def async_init_weight_update_connections(self, rollout):
        """
        Connect rollout engines and actors, e.g. initialize the process group between them
        to update weights after each training stage.
        """
        self.rollout = rollout
        ray.get([actor.set_data_buffer.remote(rollout.data_buffer) for actor in self._actor_handlers])

4.2.2 模型参数同步机制

为了让rollout引擎能够在适当的时候正确地同步参数，SLIME将actor的配置信息传递给rollout。这部分涉及到初始化过程组以便在每个训练阶段之后更新权重。

def async_init_weight_update_connections(self, rollout):
        """
        Connect rollout engines and actors, e.g. initialize the process group between them
        to update weights after each training stage.
        """
        self.rollout = rollout
        ray.get([actor.set_data_buffer.remote(rollout.data_buffer) for actor in self._actor_handlers])
        actor_parallel_configs = ray.get([actor.get_parallel_config.remote() for actor in self._actor_handlers])
        parallel_config = {}
        for rank, config in enumerate(actor_parallel_configs):
            assert config["rank"] == rank and config["world_size"] == len(self._actor_handlers)
            config.pop("rank")
            for key, value in config.items():
                if"size"in key and key:
                    if key not in parallel_config:
                        parallel_config[key] = value
                    else:
                        assert (
                            parallel_config[key] == value
                        ), f"mismatch {key} on rank {rank}: {parallel_config[key]} != {value}"
        parallel_config["actors"] = actor_parallel_configs
        ray.get(rollout.async_set_parallel_config(parallel_config))

        return [
            actor.connect_rollout_engines.remote(
                rollout.rollout_engines,
                rollout.rollout_engine_lock,
            )
            for actor in self._actor_handlers
        ]

上述过程不仅包括数据缓冲区的同步，还涵盖了actor间并行配置的协调，保证了参数更新的一致性和准确性。

4.3 ROLL的具体实现方法

ROLL通过集群（Cluster）的方式定义了多个角色，每个角色负责不同的任务。这种设计方式与算法层面的认知较为一致，因为从算法角度来看，训练框架和推理引擎之间的差异并不明显，而使用集群封装则很好地隐藏了这些复杂性。

self.actor_train = Cluster(
    name=self.pipeline_config.actor_train.name,
    worker_cls=self.pipeline_config.actor_train.worker_cls,
    resource_manager=self.resource_manager,
    worker_config=self.pipeline_config.actor_train,
)
self.actor_infer = Cluster(
    name=self.pipeline_config.actor_infer.name,
    worker_cls=self.pipeline_config.actor_infer.worker_cls,
    resource_manager=self.resource_manager,
    worker_config=self.pipeline_config.actor_infer,
)
self.reference = Cluster(
    name=self.pipeline_config.reference.name,
    worker_cls=self.pipeline_config.reference.worker_cls,
    resource_manager=self.resource_manager,
    worker_config=self.pipeline_config.reference,
)
if self.pipeline_config.adv_estimator == "gae":
    self.critic = Cluster(
        name=self.pipeline_config.critic.name,
        worker_cls=self.pipeline_config.critic.worker_cls,
        resource_manager=self.resource_manager,
        worker_config=self.pipeline_config.critic,
    )

4.3.1 数据传输机制

类似于Megatron，ROLL允许按照领域（domain）分开采样，并在pipeline.py文件中进行配置。这使得如果用户不想编写数据生成器，ROLL提供了一种更为便捷的解决方案。特别是对于奖励（reward）模型，理想的状况是有一个统一的模型，但由于训练难度大，目前更倾向于针对不同领域使用不同的奖励模型，并最终进行聚合处理。ROLL支持对不同领域、批次以及查询进行自定义配置，以适应多样的应用场景。

4.3.2 模型参数同步机制

ROLL中的模型更新逻辑结合了点对点通信和集体通信两种方式：

def model_update(self, tgt_workers, broadcast_tgt_devices, p2p_tgt_devices):
    # 更新逻辑代码...

点对点通信：用于同一设备上的参数更新，直接通过worker的node_rank和gpu_rank来判断是否在同一设备上，从而进行高效的数据交换。
集体通信：通过广播参数到目标集群，只在主进程（rank 0）执行广播操作，适用于跨设备间的参数同步。

这两种通信策略分别对应于colocate和非colocate场景，确保了参数同步的灵活性和效率。

4.3.4 跨机器部署时的考量

当所有组件位于同一台机器上时，硬编码实现参数同步相对简单，但当涉及到跨机器部署时，情况变得更加复杂。此时，不仅需要考虑如何有效地管理网络通信带来的延迟和带宽限制，还需要优化分布式环境下的资源分配和负载均衡。此外，单控制器（single controller）模式下，控制器的压力会随着集群规模的扩大而增加，尤其是在处理多媒体数据时，可能需要特别注意性能瓶颈的问题。因此，在跨机器部署的情况下，选择合适的通信策略和优化控制器的工作负载变得尤为重要。不过，从SLIME和ROLL的设计来看，参数同步的核心在于通知GPU进行同步操作，中间的通信过程不依赖于控制器，这为跨机器部署提供了一定的便利性和灵活性。

4.4 Colocation与Ray的应用

将Actor、Ref、Reward、Critic等模型放置在同一张GPU卡上被称为colocation。然而，正如前文所述，随着模型规模的增大（例如7B模型已难以在单张卡上训练），预计下半年会出现多个超过1000B参数量级的模型。这使得并行计算带来的开销变得极其显著。当前，Reward模型普遍较小，7-30B的规模即可满足需求，因此分开部署往往更具性价比。

为了应对这种复杂性，项目中引入了Ray——一个支持分布式计算的强大框架，它能够帮助开发者减轻底层逻辑管理的负担。有关基于Ray的分布式训练流程和Ray分布式计算框架的详细介绍，请参阅以下文章： - 图解OpenRLHF中基于Ray的分布式训练流程 - Ray分布式计算框架详解

接下来，我们将比较slime、verl、roll和openrlhf四个框架在colocation与非colocation实现上的差异。

4.4.1 SLIME

SLIME仅定义了两个主要worker：RayTrainGroup用于训练，RolloutGroup用于推理。对于colocate，训练和推理可以分开部署；而在非colocate的情况下，则需要处理分布式通信以同步参数。这种设计抽象层次高，易于理解，并且能够很好地适应训练和推理的不同需求。只需在配置中指定是否colocate，即可自动在所有关键环节执行相应操作。

4.4.2 ROLL

对于非colocate场景，ROLL允许细粒度地指定不同worker（例如actor、critic、reward等）部署在不同的显卡上，甚至可以根据轮次进行配置。若不手动指定，Ray会自动完成部署。鉴于RL任务对资源的高消耗，细粒度的GPU资源配置有助于提高资源利用效率，但这同时也对算法侧的资源调度能力提出了更高要求。显然，使用Ray来管理这些复杂性更为合适。

4.4.3 Verl

VERL采用了一种独特的方法来实现colocate和非colocate部署。在非colocation模式下，每个worker（如actor、critic、reward等）作为一个独立进程运行，依靠Ray来进行调度。而在colocation模式下，多个角色共享同一个Ray actor实例，在同一进程中实例化多个worker类。通过create_colocated_worker_cls或create_colocated_worker_cls_fused方法动态生成一个多角色类（例如WorkerDict/FusedWorker），该类内部持有多个worker实例。外部可通过统一接口调用不同角色worker的方法，内部则自动分发到对应的worker实例。这种方式使得同进程内的多角色共存成为可能，并在某些场景下能大幅提高性能，比如减少跨进程通信带来的延迟和内存碎片问题。

4.4.4 OpenRLHF

OpenRLHF提供了灵活的混合部署选项，既支持vLLM引擎、Actor、Reference、Reward和Critic模型节点的共置部署，也支持部分混合部署或完全分离部署，以适应异步训练的需求。这种灵活性使其能够应对多样化的应用场景，但也意味着更复杂的管理和优化需求。

4.4.5 结论

综上所述，在非colocation情况下，Ray确实可以帮助我们更加轻松地管理资源，尤其是在处理复杂的Agent和多轮交互场景时。然而，根据运维团队的反馈，Ray的设计理念与现有的Kubernetes云原生生产环境存在一定的冲突，导致在实际生产环境中部署时管理成本较高。不过，Ray团队也在针对这些问题进行优化，例如使Ray可以直接通过NCCL传输tensor数据，从而绕过对象存储，提高效率。未来，我们可以期待更多来自Ray的更新和改进。

4.5 不同训练框架与推理引擎的集成

在将不同的训练框架和推理引擎进行集成时，可能会遇到参数转换的问题。例如，如果vLLM使用4-维张量并行（TP），而DeepSpeed分布在8个GPU上，则需要进行适当的参数转换以确保数据传输的一致性。Megatron-LM也有类似的需求。当存在多个训练框架和推理引擎时，适配的工作量会成倍增加，这可能导致配置错误和性能问题。

4.6 代码解耦设计

以Slime为例，其架构分为三层：顶层RolloutGroup负责管理推理引擎的整体流程；中层RolloutRayActor处理具体的推理请求；底层SglangEngine实现具体的推理逻辑。这种分层设计使得替换后端推理引擎变得简单，只需更改底层实现即可，无需修改上层控制逻辑。同样，训练框架也采用了类似的分层结构，保证了系统的灵活性和可维护性。

5. 关于Agentic RL

目前，roll、verl和openrlhf等框架对Agentic RL提供了良好的支持。尽管这样做可能增加了代码复杂度，但随着技术成熟，预计会有更清晰的设计出现。未来，Agentic RL有望成为主流，现有的RL方法将成为其中的一部分。

6. 框架选择建议

6.1 框架难点分析

快速发展的技术环境意味着旧框架容易过时，因此保持框架简洁和高维护性是关键。新框架由于没有历史负担，可以更容易地适应新技术趋势。

6.2 推荐框架

OpenRLHF：一个高性能的开源RLHF框架，集成了Ray、vLLM、ZeRO-3和HuggingFace Transformers。
slime：新推出的框架，代码简洁，适合想要尝试大胆框架修改的研究者。
ROLL：强调数据处理和异步操作的支持，特别适用于深入探索Agentic RL的团队。
verl：稳定且优化良好，适合大规模集群部署，尤其适合资源丰富的团队。

根据团队的具体需求和技术背景，可以选择最适合的框架来开展工作。对于有特定需求或希望快速扩展的团队，verl可能是更好的选择，因为它已经被多个大厂验证过。而对于追求技术创新和敏捷开发的团队，slime或ROLL可能更具吸引力。

结尾

在过去半年中，我们深入探讨了RL训练框架、Agent框架以及推理引擎框架。总体而言，代码量方面，Agent框架最为庞大，其次是推理引擎和RL训练框架；而在代码难度上，推理引擎居首，随后是RL训练框架和Agent框架。值得注意的是，如果排除推理引擎底层算子的复杂性，RL训练框架的挑战主要在于集成各种系统和技术，这要求框架开发者对多种技术和业务逻辑有深刻的理解。

开源框架如verl、slime、roll及openRLHF各具特色，展现了作者们的追求与坚持，并且社区活跃度高。可以说，在开源RL框架领域，中国在技术实力和认知深度方面处于世界领先位置。虽然算法人才间的差异不大，但在硬件资源（如显卡）方面仍存在一定的差距。

#一文详解MoE模型

本文将深入探讨MoE技术如何实现万亿参数模型的高效训练与推理，揭示其在现代AI系统中的核心价值。

大模型时代，模型规模的持续扩张已成为提升性能的关键驱动力。 然而，传统的 "密集"（Dense）模型架构，即每次推理都需要动用模型全部参数，正面临着计算成本和能耗的巨大瓶颈。

在此背景下，混合专家模型（Mixture-of-Experts, MoE）作为一种革命性的稀疏架构，应运而生。2025年，MoE技术已成为构建万亿参数级别超大语言模型（LLM）以及高效多模态模型的首选技术路线之一。

MoE的核心思想是"条件计算"（Conditional Computation），它将一个庞大的神经网络分解为多个相对独立的"专家"子网络，并引入一个 "门控网络"（Gating Network）或"路由器"（Router）来动态地、有选择性地激活一部分专家处理当前输入。

简而言之，MoE将一个复杂的任务分解为多个子任务，每个子任务由一个专门的专家来处理。

在MoE摸型中，“专家”负责学习并处理不同的信息，而”路由器”则负责根据输入智能地选择最合适的专家进行处理，并将选定专家的输出作为最终输出。

这种机制使得模型总参数量可以极大增加，从而提升模型容量和知识存储能力，但每次前向传播的实际计算量（FLOPs）却能维持在较低水平，实现了模型规模与计算效率的"解耦"。

一、MoE模型简史

MoE模型的概念最早可以追溯到1991年的论文“Adaptive Mixture of Local Experts[1]”，由Michael Jordan和Geoffrey Hinton等人提出。这篇开创性的论文为MoE模型奠定了基础，其核心思想是通过"分而治之"的策略，将复杂问题分解为子问题并分配给专门的模型处理。MoE架构模拟了人类专家团队的协作模式，每个专家专注于特定任务或领域，而门控网络则负责根据输入特征动态分配计算资源。这一设计使得模型能够在保持高性能的同时，显著降低计算复杂度。

近年来具有代表性的混合专家（MoE）模型的编年史概述

在2010至2015年间，组件专家和条件计算两个领域推动了混合专家模型（MoE）的发展。组件专家将MoE嵌入深层网络，使其高效且规模更大；条件计算则通过动态激活网络组件提升计算效率。

2017年，谷歌的研究团队在论文“Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer[2]”中，将MoE模型与LSTM（长短期记忆网络）相结合，引入稀疏性，实现了大规模模型的快速推理，主要应用于翻译领域，但也面临高通信成本和训练不稳定等挑战。

此后，MoE模型的研究不断深入和拓展。2020年，谷歌的GShard[3]项目首次将MoE技术引入Transformer架构中，并提供了高效的分布式并行计算架构，使得MoE模型能够在分布式环境中进行大规模的训练和推理，进一步推动了MoE模型在自然语言处理领域的应用。2021年，谷歌的Switch Transformer[4]和GLaM[5]模型进一步挖掘了MoE技术在自然语言处理中的应用潜力，通过优化门控机制和专家设计，实现了更优秀的性能表现。

近年来， MoE模型的应用范围不断扩大，除了在自然语言处理领域继续取得突破外，还在计算机视觉、多模态学习等领域得到了广泛的研究和应用。

二、MoE模型的核心架构与工作原理

MoE架构并非单一固定的设计，但其核心组件和工作流程具有共通性。一个典型的MoE层通常嵌入在Transformer架构中，用于替代其中的前馈网络（Feed-Forward Network, FFN）层。

Outrageously Large Neural Network 论文中的 MoE layer

其结构如下：

输入： MoE层接收来自前一层（通常是自注意力层）的每个Token的表征向量（Token Representation）。

门控网络 (Gating Network) ：输入的Token表征首先被送入一个轻量级的门控网络。该网络负责为每个Token计算一组权重，这组权重决定了该Token应该被分配给哪些专家网络进行处理。

专家网络 (Expert Networks) ：模型包含一组（例如8个、64个或更多）并行的专家网络。每个专家本身通常就是一个标准的FFN（即两个线性层加一个非线性激活函数）。它们在结构上是相同的，但在训练后会学习到不同的参数，从而形成功能上的“专长”。

稀疏激活与加权组合：根据门控网络的输出，每个Token仅被发送给得分最高的k个专家（k通常为1或2）。在这些专家处理完Token后，它们的输出会根据门控网络计算出的权重进行加权求和，形成MoE层的最终输出。

残差连接：与标准Transformer一样，MoE层的输出会通过一个残差连接与该层的输入相加，然后进行层归一化。

这种设计的革命性在于，它实现了总参数量与激活参数量的分离。一个拥有8个专家的MoE模型，其总参数量约等于一个FFN层参数量乘以8，但对于任何一个Token的单次前向传播，其计算量（FLOPs）仅相当于激活了k个专家（例如k=2），远小于一个同等总参数量的稠密模型。这正是Mixtral 8x7B模型（总参数46.7B，激活参数约13B）能够以远低于Llama 2 70B的推理成本，却达到甚至超越其性能的根本原因。

MoE架构三大核心组件

工作原理：条件计算与稀疏激活

MoE的工作流程可以概括为“分发-计算-整合”三部曲：

分发 (Dispatch) ：输入批次中的每个令牌，都经过门控网络，门控网络为其选择Top-K个最合适的专家。
计算 (Compute) ：将令牌发送给各自被选中的专家进行并行计算。未被选中的专家则保持静默，不参与此次计算。
整合 (Combine) ：将每个令牌对应的K个专家的输出，根据门控网络给出的权重进行加权求和，形成最终的输出。

通过这种方式，MoE模型虽然总参数量巨大（例如， Mixtral 8x7B[6] 模型拥有8个专家，总参数约47B，但实际推理时每个令牌只激活2个专家，计算量仅相当于一个12.9B的密集模型），但其推理时的计算成本（FLOPs）仅与激活的专家数量成正比，远低于同等参数规模的密集模型。

三、MoE模型的训练挑战与关键优化技术

尽管MoE在扩展性上优势显著，但其训练过程远比密集模型复杂，需要一系列精巧的算法技术来保证训练的稳定性和效率。

核心挑战：负载不均衡

在训练过程中，一个常见的棘手问题是负载不均衡（Load Imbalance）：门控网络可能倾向于频繁选择少数几个“热门”专家，而其他专家则很少被激活，成为“冷门”专家。这会导致模型训练效率低下，部分参数得不到充分训练，最终损害模型性能。

关键优化技术详解

1. 辅助负载均衡损失 (Auxiliary Load Balancing Loss)

目的： 这是解决负载不均衡最经典和常用的方法。其核心思想是在主任务损失（如交叉熵损失）之外，额外增加一项损失函数，用于惩罚专家负载的不均匀分配，鼓励所有专家被均匀利用。
数学公式： 该损失函数有多种形式，一种常见的形式源自Switch Transformer，其定义如下：

2. 带噪声的Top-K门控 (Noisy Top-K Gating)

目的：为了增加路由过程的随机性，避免门控网络在训练早期就“固化”其选择偏好，研究者们提出了在门控网络的logit上添加高斯噪声的方法。
机制：在计算最终的Top-K选择之前，向门控网络的输出添加一个小的随机噪声。这有助于在训练初期进行更广泛的探索，让更多的专家有机会被激活和训练，从而提升模型的稳定性和最终性能。

3.专家容量因子 (ExpertCapacityFactor)

目的：为了从硬件层面强制避免单个专家过载，MoE系统会为每个专家设置一个“容量”上限，即在一个批次中最多能处理的令牌数量。
机制：容量通常按批次中令牌总数和专家数量的平均值来设定，再乘以一个“容量因子”（Capacity Factor, C）。例如，C=1.25意味着每个专家的容量是平均负载的125%。如果路由到某个专家的令牌数超过其容量，多余的令牌会被“丢弃”（dropped），其表示将直接通过残差连接传递到下一层，不经过专家计算。这是一种在计算效率和模型性能之间的权衡。

4. 新兴的无辅助损失均衡方法 (Auxiliary-Loss-Free Balancing Methods)

背景：尽管辅助损失很有效，但它会引入额外的超参数，且可能对主任务的梯度产生干扰。因此，自2023年以来，无辅助损失的均衡方法成为研究热点。
机制：这类方法不再依赖于一个独立的损失项，而是直接在路由机制本身进行调整。例如，DeepSeek-V2[7]模型采用了一种策略，通过动态调整每个专家的路由偏置（bias）来直接控制负载，如果一个专家过热，就降低其偏置，反之则提高，从而实现无需额外损失项的自适应负载均衡。

分布式训练与并行策略

由于MoE模型参数量巨大，单张GPU无法承载，必须进行分布式训练。除了常见的数据并行和张量并行，MoE引入了独特的专家并行（EP）：将不同的专家分布到不同的GPU（或节点）上。

混合并行：现代MoE训练框架（如Megatron-LM、DeepSpeed）通常采用数据并行、张量并行和专家并行相结合的混合并行策略，以最大化利用集群资源。
通信优化：专家并行会引入密集的All-to-All通信模式，即每个GPU都需要将令牌发送给其他GPU上的专家，并接收计算结果。这是训练的主要瓶颈。优化手段包括使用高性能网络互联（如NVLink、Infiniband）、优化通信库（如NCCL）以及设计网络拓扑感知的并行策略。

面向边缘设备的部署与推理优化

将庞大的MoE模型部署到手机、智能汽车等边缘设备上是一个新兴且充满挑战的研究方向。核心挑战：边缘设备内存和算力极其有限，而MoE模型的总参数量巨大。其优化技术如下：

专家卸载 (Expert Offloading) ：只在GPU/NPU上保留少量活跃专家或一个专家缓存，其余大量不常用的专家权重存储在相对较慢的CPU内存或闪存中，按需加载。
缓存感知路由 (Cache-Aware Routing) ：设计一种路由策略，使其在选择专家时，倾向于选择那些已经被加载到缓存中的专家，从而最大化缓存命中率，减少从慢速存储中加载专家所带来的延迟。
模型蒸馏与压缩 (Model Distillation & Compression) ：将一个大型MoE模型的知识蒸馏到一个更小的密集模型或更小规模的MoE模型中，使其适合边缘部署。

EdgeMoE[8]和SiDA-MoE[9]等研究项目已经验证了这些技术的可行性，能够在移动设备上实现显著的推理延迟降低（高达2-3倍）和内存占用减少。

开源框架与推理引擎

一系列开源工具极大地推动了MoE的普及和发展：

DeepSpeed-MoE[10] ：微软推出的DeepSpeed[11]库提供了成熟的MoE实现，集成了高效的CUDA内核、负载均衡策略和内存优化技术，支持万亿级别模型的训练与推理。
Tutel[12] ：同样来自微软，Tutel是一个专注于MoE层本身计算优化的库。它提供了高度优化的稀疏计算内核，可以作为插件集成到PyTorch等框架中，显著提升MoE层的计算效率。
FastMoE[13] ：一个由学术界主导的轻量级、易于使用的MoE训练系统，也基于PyTorch构建。
Megablocks[14] ：https://github.com/stanford-futuredata/megablocks
Fairseq[15] ：https://github.com/facebookresearch/fairseq/tree/main/examples/moe_lm
OpenMoE[16] ：https://github.com/XueFuzhao/OpenMoE

四、性能基准：MoE模型 vs. 稠密模型

MoE模型的核心价值是在相似甚至更低的计算成本下，达到或超越更大规模的密集模型的性能。

大量研究和实践表明，MoE模型在性能和计算成本之间取得了更优的平衡。在相同的计算预算（FLOPs）下，MoE模型通常能展现出更低的困惑度（Perplexity）和更高的下游任务准确率。

SwitchTransformer：Google的研究显示，一个与T5-Base（220M参数）计算量相当的Switch Transformer模型，其性能可以媲美T5-Large（770M参数）。在TPUv3硬件上，其推理速度比计算量匹配的密集模型快了高达7倍。

GLaM：同样来自Google的GLaM模型，虽然总参数量高达1.2T，但其推理成本仅为GPT-3 (175B)的三分之一，却在多项零样本（Zero-shot）NLP任务上取得了更优异的成绩。

Mixtral 8x7B ：由Mistral AI发布的开源模型，其以约13B的激活参数，在众多基准测试中击败了拥有70B参数的Llama 2 70B模型，成为开源社区的标杆。

性能对比：MoEvs.稠密模型

挑战与权衡

尽管推理高效，但MoE模型也存在固有挑战：

巨大的内存占用：需要存储所有专家的参数，对GPU显存要求极高。
复杂的训练系统：需要专门的并行策略（如专家并行）和通信优化，训练基础设施复杂。
通信开销：专家并行中的All-to-All通信是主要瓶颈，尤其是在大规模集群中。

五、MoE的应用领域扩展：从NLP到视觉与多模态

MoE技术最初在自然语言处理（NLP）领域大放异彩，但其成功已迅速扩展到计算机视觉和多模态等更广泛的领域。

在视觉领域，研究者们将MoE层集成到Vision Transformer (ViT)中，用以替代标准MLP模块，诞生了如 V-MoE (Vision MoE) 等模型。V-MoE能够根据图像块（patches）的内容， 将其路由到专门处理不同视觉模式（如纹理、边缘、对象部分）的专家。

MoE在处理融合文本、图像、音频等多种数据类型的多模态任务中展现出巨大潜力。通过MoE，模型可以为不同模态或不同任务动态分配专家：一些专家可能专门处理文本信息，另一些专家处理视觉信息，还有一些专家则负责跨模态的对齐与融合。

自2023年以来，涌现了大量多模态MoE模型，如 LIMoE[17]、MoE-LLaVA[18]、Ming-Lite-Omni[19]等。例如， MoE-LLaVA 在多个视觉问答（VQA）基准上，其性能显著优于其对应的非MoE密集模型基线。

写在最后

MoE技术不仅是一项成熟且强大的技术，更是一个充满活力的研究领域。展望未来，它将驱动着更大、更强、更高效的AI模型的诞生。

参考资料：

[1] Adaptive Mixture of Local Experts: https://www.cs.toronto.edu/~hinton/absps/jjnh91.pdf

[2] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer: https://arxiv.org/abs/1701.06538

[3] GShard: https://arxiv.org/abs/2006.16668

[4] Switch Transformer: https://arxiv.org/abs/2101.03961

[5] GLaM: https://arxiv.org/abs/2112.06905

[6] Mixtral 8x7B: https://arxiv.org/pdf/2401.04088

[7] DeepSeek-V2: https://arxiv.org/abs/2405.04434

[8] EdgeMoE: https://arxiv.org/abs/2308.14352

[9] SiDA-MoE: https://arxiv.org/abs/2310.18859

[10] DeepSpeed-MoE: https://arxiv.org/abs/2201.05596

[11] DeepSpeed: https://github.com/deepspeedai/DeepSpeed

[12] Tutel: https://github.com/microsoft/Tutel

[13] FastMoE: https://github.com/laekov/fastmoe

[14] Megablocks: https://github.com/stanford-futuredata/megablocks

[15] Fairseq: https://github.com/facebookresearch/fairseq/tree/main/examples/moe_lm

[16] OpenMoE: https://github.com/XueFuzhao/OpenMoE

[17] LIMoE: https://arxiv.org/abs/2501.04004

[18] MoE-LLaVA: https://arxiv.org/abs/2401.15947

[19] Ming-Lite-Omni: https://arxiv.org/abs/2506.09344

#NVIDIA Nemotron Nano 2

Meta没做的，英伟达做了！全新架构吞吐量狂飙6倍，20万亿Token训练

英伟达发布全新架构9B模型，以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍，对标Qwen3-8B并在数学、代码、推理与长上下文任务中表现持平或更优。

万万没想到，现在还紧跟我们的开源模型竟然是英伟达。

刚刚，英伟达发布了一个只有9B大小的NVIDIA Nemotron Nano 2模型。

对标的是业界标杆，千问的Qwen3-8B，但这个模型是一个完全不同的混合架构。

用英伟达的说法，这是一款革命性的Mamba-Transformer混合架构语言模型。

在复杂推理基准测试中实现了和Qwen3-8B相当或更优的准确率，并且吞吐量最高可达其6倍。

它的诞生只有一个目标：在复杂的推理任务中，实现无与伦比的吞吐量，同时保持同级别模型中顶尖的精度！

在官网简单测试一下，一些经典问题，都能答对。

英伟达还做了3个小工具，可以实时查天气、描述哈利波特里的角色和帮你想颜色。

不过9B模型还是小了点，当你问「SamAltman、马斯克和黄仁勋谁更值得信任」时，模型会犯蠢把马斯克翻译成麻克，哈哈哈。

而且，也不愧是亲儿子，模型认为黄仁勋最值得信任。

速度的奥秘

Mamba-2架构加持！

Nemotron-Nano-9B-v2的强大，源于其创新的Nemotron-H架构。

用闪电般快速的Mamba-2层，替换了传统Transformer架构中绝大多数的自注意力层。

当模型需要进行长篇大论的思考、生成复杂的长思维链时，它的推理速度得到了史诗级的提升！

简单介绍下Mamba架构

我们都知道Transformer架构，但是这么年过去，有没有新架构出现？

有的。

比如Meta公开推进JEPA（联合嵌入预测架构）和大概念模型（LCMs）、状态空间模型（就是Mamba）、记忆模型或扩散语言模型等。

谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了约50%研究力量。

OpenAI虽然嘴上说着有信心训练到GPT-8，但很可能也在储备新架构。

而根据Reddit社区的讨论，Ilya的SSI最可能就是用全新的架构，但是什么，还没人知道。

Mamba是一种完全无注意力机制的序列建模架构，基于结构化状态空间模型（SSMs）。

通过「选择性机制」根据当前输入动态调整参数，从而专注于保留相关信息并忽略无关信息。

在处理超长序列时，Mamba的推理速度据称可比Transformer快3–5倍，且其复杂度为线性级别，支持极长的上下文（甚至达到百万级token）。

为什么要混合Mamba与Transformer？

Transformer虽然效果出众，但在处理长序列时存在显著的计算和内存瓶颈（自注意力机制导致的O(n^2)规模）。

而Mamba擅长在长上下文中高效建模，但在「记忆复制（copying）」或「上下文学习（in‑contextlearning）」等任务上可能稍显不足。

从120亿到90亿的极限淬炼

NemotronNanov2的训练按照下面几个步骤：

· 「暴力」预训练

首先在一个拥有20万亿Token的海量数据集上，利用先进的FP8训练方案，锻造出一个120亿参数基础模型——Nemotron-Nano-12B-v2-Base。

这听着就非常像DeepSeek-R1：DeepSeek‑R1-Zero是直接基于DeepSeek‑V3-Base进行纯强化学习训练的初始模型。

而DeepSeek‑R1则在此基础上加入了监督微调作为冷启动，再用强化学习精炼，从而获得更好的可读性与性能。

Nemotron-Nano-12B-v2-Base的预训练，涵盖高质量网页、多语言、数学、代码、学术等数据，重点构建了高保真的数学和代码数据集。

· 极限压缩与蒸馏

结合SFT、DPO、GRPO、RLHF等多阶段对齐方法，提升了推理、对话、工具调用与安全性。

完成对齐后，祭出Minitron策略，对这个120B参数的模型进行极限压缩与蒸馏。

Minitron策略是一种由NVIDIA提出的模型压缩方法，主要通过结构化剪枝（pruning）与知识蒸馏（distillation）来实现对大型语言模型的高效压缩与性能保持。

· 最终目标

通过Minitron剪枝与蒸馏，将12B基础模型压缩为9B参数，确保单张A10GGPU（22GiB）即可支持128k上下文。

性能碾压，精度与速度全都要！

是骡子是马，拉出来遛遛！

与Qwen3-8B等同级别强手相比，Nemotron-Nano-9B-v2在各大推理基准测试中，精度平起平坐，甚至更胜一筹！

在数学（GSM8K、MATH）、代码（HumanEval+、MBPP+）、通用推理（MMLU-Pro）、长上下文（RULER128k）等基准测试中表现优于或持平同类开源模型（如Qwen3-8B、Gemma3-12B）.

并在8k输入/16k输出场景下实现6.3×吞吐量提升。

全面开源

英伟达宣布在HuggingFace平台上，全面开放以下资源：

正在HuggingFace上发布以下三个模型，它们均支持128K的上下文长度：

NVIDIA-Nemotron-Nano-9B-v2：对齐并剪枝的推理模型
NVIDIA-Nemotron-Nano-9B-v2-Base：一个经过剪枝的基础模型
NVIDIA-Nemotron-Nano-12B-v2-Base：对齐或剪枝之前的基模型

除了模型，英伟达表示我们的数据集也很强，并开源了用于预训练的大部分数据。

Nemotron-Pre-Training-Dataset-v1数据集集合包含6.6万亿个高质量网页爬取、数学、代码、SFT和多语言问答数据的token，该数据集被组织为四个类别：

Nemotron-CC-v2：Nemotron-CC（Su等，2025）的后续版本，新增了八组CommonCrawl快照（2024–2025）。该数据经过全局去重，并使用Qwen3-30B-A3B进行了合成改写。此外，它还包含以15种语言翻译的合成多样化问答对，支持强大的多语言推理和通用知识预训练。
Nemotron-CC-Math-v1：一个专注于数学的1330亿Tokens数据集，源自NVIDIA的Lynx+LLM流水线对CommonCrawl的处理结果，该方法在将数学内容标准化为LaTeX的同时保留了公式和代码格式。这确保了关键的数学内容和代码片段保持完整，从而生成出在基准测试中优于以往数学数据集的高质量预训练数据。
Nemotron-Pretraining-Code-v1：一个大规模的精选代码数据集，来源为GitHub，经过多阶段去重、许可证执行和启发式质量检查筛选。该数据集还包含11种编程语言的LLM生成代码问答对。
Nemotron-Pretraining-SFT-v1：一个合成生成的数据集，涵盖STEM（科学、技术、工程和数学）、学术、推理及多语言领域。其中包括从高质量的数学和科学原始数据中生成的复杂选择题和分析型问题、研究生水平的学术文本，以及涵盖数学、编程、通用问答和推理任务的指令调优SFT数据。
Nemotron-Pretraining-Dataset-sample：数据集的一个小规模采样版本提供了10个具有代表性的子集，展示了高质量的问答数据、面向数学的抽取内容、代码元数据以及SFT风格的指令数据。

最后是感慨下，Meta作为一开始的开源旗帜，现在也逐渐开始转向闭源，或者起码是在Llama上的策略已经被调整。

目前真正在开源领域努力还是以国内的模型为主，虽然OpenAI前不久也开源了两个，不过雷声大雨点小。

英伟达虽然一直卖铲子，但也静悄悄的发布了不少开源。

感兴趣可以在如下网址体验，除了英伟达自家的，很多开源模型都能找到。

模型体验网址：

https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2

参考资料：

https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/

#DeepSeek-V3.1-Base

DeepSeek开源新基础模型，但不是V4，而是V3.1-Base

昨晚，深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1，上下文长度拓展至 128k」并更新了 UI （去掉了 DeepThink 旁的 R1 标示）之后，在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base。

模型地址：https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

从名字也能看出来，该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1，而不是像之前以前命名为 V3 带四位日期数字的形式（如 V3-0324），尽管社区有诸多猜测，但深度求索官方尚未给出明确说明 —— 和该公司之前的操作一样，这一次同样是模型先行，说明和宣传还在后面。

该模型一发布就吸引了 AI 社区的广泛关注，短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位！

具体技术指标上，DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大，同样的参数量，采用了混合专家（MoE）架构，拥有 128k 上下文长度。

整体来看，社交网络上对深度求索的这次更新看法不一。有人表示非常振奋，认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫，但也有人认为这次更新不够亮眼，没有达到该公司之前的一贯水准。

对此，你怎么看？

#Meta超级智能实验室重组为四个部门

某些高管将离开

据《彭博社》报道，Meta 将重组其超级智能实验室（Meta Superintelligence Labs，MSL）。

具体来说，MSL 以及 Meta 之前的 FAIR 等 AI 部门将被重组为四个专注于 AI 的新部门：

TBD Lab，负责人是 Alexandr Wang

FAIR (Fundamental AI Research)，基础 AI 研究

Products and Applied Research, 产品和应用研究，由 GitHub 前 CEO Nat Friedman 领导

MSL Infra，负责 Meta 的 AI 基础设施

Meta 首席 AI 官 Alexandr Wang 在一份内部备忘录中表示，超级智能实验室将被划分为更小的部门，分别专注于 AI 研究、基础设施、硬件、产品集成以及公司的长期超级智能目标。

他写到：「超级智能即将到来，为了认真对待它，我们需要围绕实现它的关键领域进行组织构建。」

值得注意的是，Meta 首席 AI 科学家、FAIR 的创始负责人 Yann LeCun 的名字并未出现在这些报道中。

Meta 已经向其它一些媒体证实了该消息，但尚未透露更多细节。

此次重组之前，Meta 曾大举招聘，从 OpenAI、Anthropic、GitHub 和 Google DeepMind 等公司挖走了许多顶尖人才。事实上，这场挖人大戏目前仍未有止步的迹象 —— 前些天我们才刚报道了 ChatGPT Agent 核心开发者 Zhiqing Sun（孙之清）被 Meta 挖走的新闻，参阅《扎克伯格看 OpenAI 直播挖人，北大校友孙之清加入 Meta》。

今年 6 月，Meta 向 Scale AI 投资 140 亿美元，任命 Scale CEO Alexandr Wang 为 Meta 的新任首席 AI 官。同月，OpenAI 首席执行官 Sam Altman 指责 Meta 以 1 亿美元的薪酬待遇来挖角其员工。

这种大力挖角和组织变动也给 Meta 内部造成了一定的混乱，参阅我们之前的报道《是的，LeCun 要向 28 岁的 Alexandr Wang 汇报！这是 Meta 新 AI 团队的一些独家内部消息》。

据《纽约时报》另一篇援引知情人士的报道，预计一些高管将在此次重组后离职。据报道，Meta 还在考虑将第三方 AI 模型集成到其产品中，这标志着其将从过去依赖内部 AI 开发的模式转变。

Meta CEO 马克・扎克伯格已将 AI（以及近期的超级智能）作为 Meta 长期愿景的核心。在公司第二季度财报电话会议上，该公司首席财务官 Susan Li 表示，到今年年底，资本支出可能达到 720 亿美元，并主要由 AI 相关的基础设施推动。

扎克伯格在最近的一篇文章中更是加倍强调了 Meta 对超级智能的大力推动。

他写到：「我非常乐观地认为超级智能将帮助人类加快进步的步伐，但或许更重要的是，超级智能有可能开启一个个人赋能的新时代，在这个时代，人们将拥有更大的自主权，按照自己选择的方向改善世界。」

参考链接

https://www.bloomberg.com/news/articles/2025-08-19/meta-restructures-ai-group-again-in-pursuit-of-superintelligence

https://www.nytimes.com/2025/08/19/technology/mark-zuckerberg-meta-a

https://techcrunch.com/2025/08/19/meta-is-shaking-up-its-ai-org-again/

#INP-CC

跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测

本文的第一作者为北京大学王选计算机研究所博士生雷廷，通讯作者为博士生导师刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表，多次荣获多模态感知和生成竞赛冠军，和国内外知名高校、科研机构广泛开展合作。

目前的 HOI 检测方法普遍依赖视觉语言模型（VLM），但受限于图像编码器的表现，难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互（HOI）检测方法——交互感知提示与概念校准（INP-CC）。

为了解决这些问题，INP-CC 提出了一种动态生成交互感知提示的策略，并通过优化语言模型引导的概念校准，提升了模型对开放世界中的交互关系理解，本方法在 HICO-DET 和 SWIG-HOI 等主流数据集上取得了当前最佳性能。

论文标题： Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration
论文链接：https://arxiv.org/pdf/2508.03207
代码链接：https://github.com/ltttpku/INP-CC
项目主页：https://sites.google.com/view/inp-cc/%E9%A6%96%E9%A1%B5

目前该研究已被 ICCV 2025 正式接收，相关代码与模型已全部开源。

HOI 检测进入「开放词汇」时代

在我们的日常生活中，人与物体之间的互动无处不在。然而，目前大多数研究主要集中在封闭环境下的人物交互检测，这些方法通常无法识别新的交互类型，因此在实际应用中受到限制。

近年来，多模态大模型得到了快速发展，并在开放环境中展现出巨大的应用潜力。如何将这些模型应用于开放场景中的人物交互检测，已经成为一个备受关注的研究方向。

传统的 HOI（人体-物体交互）检测方法通常依赖于固定类别的训练数据，难以应对现实中不断变化的交互组合。尽管像 CLIP 这样的视觉语言模型（VLM）为开放词汇的建模提供了新机会，但由于这些模型通常是基于图像级别的预训练，它们在捕捉人物与物体之间细微的局部交互语义时存在困难。另外，如何更有效地编码交互的文本描述，也限制了模型对复杂 HOI 关系的理解。

为了解决这些问题，研究团队提出了 INP-CC 模型，并在其中提出了两项核心创新：交互感知式提示生成（Interaction-aware Prompting）和概念校准（Concept Calibration）。

下图 1 中，展示了交互感知提示词融合机制。该机制使得模型可以在具有相似语义或功能模式的交互之间，选择性地共享提示。例如，「骑摩托车」和「骑马」这两种交互在人体和物体接触动态上非常相似，因此共享提示有助于更高效地学习这些交互的表示。

图 2 则展示了现有基于 CLIP 的方法在处理细粒度、多样化的交互类型时的局限性。例如，图中展示了「hurling」（猛掷）对应的视觉编码（用三角形表示）和「pitching」（抛投）的文本编码（用橙色圆圈表示）。可以看出，如左图所示，CLIP 模型的视觉编码和文本编码在这两者之间过于接近，导致模型难以区分它们。而与此对比，如右图所示，我们的方法通过调整语义编码空间，帮助模型有效区分视觉上相似的概念，从而更加高效地建模模态内和模态间的关系。

图 1 交互感知提示词融合

图 2 在 CLIP 原始空间（左侧）和我们修正后的空间（右侧）中模态内和模态间相似度。

模型架构：从「看图说话」到「聚焦交互」

图 3 INP-CC 方法框架

INP-CC 模型首先通过一个交互适应式提示生成器（图 3 灰色区域），结合输入图片特性，动态构造与场景相关的提示集合。这些提示被分为通用提示和可共享的交互提示，使得像「抱猫」和「抚摸猫」这样的相似动作可以共享同一个提示，从而提升模型对局部区域的感知能力。

在语言建模方面（图 3 浅蓝色区域），INP-CC 利用 GPT 生成各种交互的详细视觉描述，同时结合 T5 构建的 Instructor Embedding（指导嵌入）对交互语义进行嵌入和聚类，从而形成一个更细粒度的概念结构空间。这种方式帮助模型更好地理解复杂的交互语义，并将其映射到合适的语义空间中。

此外，INP-CC 在训练过程中引入了「困难负样本采样」策略，这一策略使得模型能够学会区分那些视觉上相似但语义不同的动作，例如「猛掷」和「抛投」。这一方法有效提升了模型在细粒度交互类型上的识别能力，帮助其更准确地理解和处理复杂的人物交互场景。

交互感知提示生成（Interaction-aware Prompt Generation）

为了弥合图像级预训练和细粒度区域交互检测之间的差距，INP-CC 提出了交互感知提示生成机制，通过动态生成适应不同交互模式的提示，指导视觉编码器更好地聚焦于关键的交互区域。具体来说，模型通过以下两个核心组成部分来实现这一目标：

通用提示：该提示捕获所有交互类别共享的基本知识，适用于所有交互类型。
交互特定提示：这些提示专门针对某些交互类型，采用低秩分解技术高效编码交互特征，从而在不增加计算负担的前提下增强模型的泛化能力。

通过将这些交互提示与通用提示结合，INP-CC 能够有效捕捉多种交互的共同特征，并通过自适应选择机制动态调整每张输入图像所需的提示，优化交互区域的聚焦能力。

交互概念校准（HOI Concept Calibration）

面对现有视觉-语言模型（VLM）在处理多样交互概念时的局限性，INP-CC 进一步引入了交互概念校准机制。该机制通过结合大规模语言模型对视觉描述进行生成与校准，提升了模型对语义细节的捕捉能力。

内模关系建模（Intra-modal Relation Modeling）： INP-CC 首先为每种交互类型生成细粒度的视觉描述，并利用 T5 语言模型将这些描述转化为嵌入向量。通过这一过程，模型能够精确区分视觉上相似但语义不同的动作类别。
负类别采样（Negative Category Sampling）：为了解决视觉上相似但概念上不同的动作难以区分的问题，INP-CC 引入了基于语义相似度的负样本采样策略，在训练过程中从视觉描述相似的类别中采样负样本，帮助模型更好地分辨细粒度的动作差异。

实验表现：全面超越 SOTA

在 HICO-DET 和 SWIG-HOI 两大开放词汇 HOI 数据集上，INP-CC 在所有指标上均优于现有主流方法。其中，在 SWIG-HOI 全量测试集上取得了 16.74% 的 mAP，相较前一方法 CMD-SE 相对提升了近 10%，在「阅读」、「浏览」等细粒度交互中亦展现出较强的识别能力。

图 4 HICO-DET 实验结果

图 5 SWIG-HOI 实验结果

此外，可视化分析结果表明我们的模型表现出了强大的注意力集中能力，能够聚焦于关键的交互区域，以下是几个例子。例如，在图 6(a) 中，它准确地突出了阅读时的眼部区域。同样，在图 6(b) 中，模型强调了冲浪时人伸展的双臂。此外，我们的模型还能够检测到与相对较小物体的交互，比如在图 6(d) 中的相机和在图 6(a) 中部分遮挡的书籍。