自己的原文哦~ https://blog.51cto.com/whaosoft/11767585
#Macro-from-Micro Planning(MMPL)
突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
你是否曾被 AI 生成视频的惊艳开场所吸引,却在几秒后失望于色彩漂移、画面模糊、节奏断裂? 当前 AI 长视频生成普遍面临“高开低走”的困境:前几秒惊艳夺目,之后却质量骤降、细节崩坏;更别提帧间串行生成导致的低效问题——动辄数小时的等待,实时预览几乎难以企及。
这一行业难题,如今迎来突破性解法!
南京大学联合 TeleAI 推出长视频自回归生成新范式 —— Macro-from-Micro Planning(MMPL),重新定义 AI 视频创作流程。
灵感源自电影工业的“分镜脚本 + 多组并行拍摄”机制,MMPL 首创“宏观规划、微观执行”的双层生成架构:
先谋全局:在宏观层面统一规划整段视频的叙事脉络与视觉一致性,确保剧情连贯、风格统一;
再精细节:将长视频拆解为多个短片段,并通过并行化生成管线高效填充每一帧细节,大幅提升速度与稳定性。
成果令人振奋:
✅ 实现分钟级高质量长视频稳定生成,告别“虎头蛇尾”;
✅ 生成效率显著提升,结合蒸馏加速技术,预览帧率最高可达约 32 FPS,接近实时交互体验;
✅ 在色彩一致性、内容连贯性上全面超越传统串行生成方案。
MMPL 不仅是一项技术升级,更是向“AI 导演”迈进的重要一步——让机器不仅会“拍镜头”,更能“讲好一个故事”。
作者团队
- 论文标题:Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
- 作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
- 机构:南京大学;中国电信人工智能研究院;上海交通大学;香港中文大学(深圳);中国科学院大学
- 论文地址:https://arxiv.org/abs/2508.03334
- 项目主页:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/
图1:传统方法 vs MMPL
传统困境:逐帧生成的两大瓶颈
在长视频生成领域,随着时长从几秒扩展到数十秒甚至一分钟以上,主流自回归模型面临两个根本性挑战:
1. 时域漂移(Temporal Drift)
由于每一帧都依赖前一帧生成,微小误差会随时间不断累积,导致画面逐渐“跑偏”:人物变形、场景错乱、色彩失真等问题频发,严重影响视觉质量。
2. 串行瓶颈(Serial Bottleneck)
视频必须逐帧生成,无法并行处理。生成 60 秒视频可能需要数分钟乃至数小时,难以支持实时预览或交互式创作。
,时长00:27
,时长00:27
,时长00:27
这些问题使得当前 AI 视频仍停留在“片段级表达”,难以胜任需要长时连贯性的叙事任务。
创新突破:导演式双层生成框架 MMPL
为解决上述问题,我们提出 Macro-from-Micro Planning(MMPL) —— 一种“先规划、后填充”的两阶段生成范式,其核心思想是:
先全局规划,再并行执行。
这一理念借鉴了电影工业中“导演制定分镜脚本 + 多摄制组并行拍摄”的协作模式,将长视频生成从“接龙式绘画”转变为“系统性制片”。
MMPL 的核心优势在于实现了三大突破:
✅ 长时一致性:通过宏观规划抑制跨片段漂移;
✅ 高效并行性:各片段可独立填充细节,支持多 GPU 并行;
✅ 灵活调度性:采用流水线机制,进一步提升资源利用率。
最终,系统可在保证高质量的前提下,实现分钟级、节奏可控的稳定生成,结合蒸馏加速方案,预览速度可达 ≥32 FPS,接近实时交互体验。
效果呈现:更稳、更长、更快
在统一测试集上,MMPL 显著优于现有方法(如 MAGI、SkyReels、CausVid、Self Foricng 等),在视觉质量、时间一致性和稳定性方面均取得领先。
- 更稳:无明显色彩漂移、闪烁或结构崩坏,长时间生成仍保持高保真;
- 更长:支持 20 秒、30 秒乃至 1 分钟 的连贯叙事,片段衔接自然;
- 更快:得益于并行填充与自适应调度,长视频生成整体吞吐量大幅提升。
,时长00:28
,时长00:28
,时长00:28
技术解析:两阶段协同工作机制
MMPL 的成功源于其精心设计的“规划—填充”双阶段架构。整个流程分为两个层次:微观规划(Micro Planning) 和 宏观规划(Macro Planning),随后进行 并行内容填充(Content Populating)。
第一阶段:双层规划,构建稳定骨架
图2:MMPL 整体架构
1. Micro Planning:片段内关键帧联合预测
我们将长视频划分为多个固定长度的片段(例如每段 81 帧)。对每个片段,模型不直接生成所有帧,而是基于首帧 ,联合预测一组稀疏的关键未来锚点帧,包括:
早期邻近帧
中部关键帧
末端结束帧
记锚点集合为 ,其生成过程建模为:
这些锚点在同一去噪过程中联合生成,彼此之间语义协调、运动连贯;且均以首帧为条件单步预测,避免了多步累积误差。它们共同构成了该片段的“视觉骨架”,为后续填充提供强约束。
2. Macro Planning:跨片段叙事一致性建模
为了确保整个视频的连贯性,我们将各片段的 Micro 计划串联成一个自回归链:第 段的末端锚点作为第 段的起始条件。设第 段的锚点集合为 ,首帧为 ,则全局规划可表示为:
其中或者
这种“分段稀疏连接”的设计,将误差累积从 帧级别降低至 段级别(),从根本上缓解了长程漂移问题。
第二阶段:并行填充,释放计算潜能
1. Content Populating:基于锚点的并行细节生成
在所有片段的锚点 就绪后,即可并行填充各片段内的中间帧。
以第 个片段为例,其内容被划分为两个子区间:
从 到 :补全
从 到 :补全
条件概率分解如下:
由于每个片段的填充仅依赖本片段的锚点 ,与其他片段无关,因此所有片段的内容填充可完全独立:
✅ 这意味着:多个片段可以同时在不同 GPU 上并行生成,极大提升效率。
2. Adaptive Workload Scheduling:动态调度,实现流水线加速
为进一步提升资源利用率,我们引入自适应工作负载调度机制,实现“规划”与“填充”的重叠执行:
当片段 的锚点生成后,即可:
立即启动下一片段 的 Micro 计划;
同时,片段 自身可提前开始中间帧填充,无需等待全局规划完成。
该机制的形式化表达为:
其中,下一片段的起始帧 可选择为 或 ,由此衍生出两种运行模式:
- 最小内存峰值模式
选用 作为 ,跳过当前片段末尾部分()的填充。
👉 优势:降低峰值内存占用与单段延迟;
👉 缺点:引入帧重用,影响吞吐量。 - 最大吞吐量模式
选用 作为 ,完整生成当前片段所有中间帧。
👉 优势:消除冗余,最大化流水线效率;
👉 缺点:每段计算负载更高。
这两种策略可在内存、延迟与吞吐量之间灵活权衡,适配不同部署场景。
结语:从“会画”到“会拍”,AI 开始有了导演思维
当 AI 不再局限于逐帧生成,而是具备了从整体出发的规划能力——理解情节的推进、协调画面的连贯性、控制运动的节奏,长视频生成便迈出了从“片段拼接”走向“统一表达”的关键一步。我们希望,MMPL 能为视频创作提供一种更稳定、更高效的技术路径。借助其近实时的生成能力,创作者可以在快速反馈中不断调整与完善自己的构想,让创意更自由地流动。
也许真正的“所见即所得”尚在远方,但至少,我们正朝着那个方向,稳步前行。
.
#ControlNeXt
即插即用,效率远超ControlNet!贾佳亚团队重磅开源ControlNeXt:超强图像视频生成方法
本文提出了 ControlNeXt,一种先进且高效的可控图像和视频生成方法。ControlNeXt 采用简化和精简的架构,消除了重型辅助组件,以最小化延迟开销并减少可训练参数。
文章链接:https://arxiv.org/pdf/2408.06070
git链接:https://github.com/dvlab-research/ControlNeXt
亮点直击
- 提出了ControlNeXt,这是一种强大且高效的图像和视频生成方法,大幅减少了延迟开销和参数量。
- 引入了交叉归一化(Cross Normalization)用于微调预训练的大型模型,从而促进高效且稳定的训练收敛。
- ControlNeXt可以作为一个轻量级的即插即用模块,可以与其他LoRA权重集成,以无需额外训练的方式改变生成样式。
扩散模型在图像和视频生成方面展示了显著且稳定的能力。为了实现对生成结果的更大控制,研究人员引入了额外的架构,如ControlNet、Adapters和ReferenceNet,以整合条件控制。然而,当前可控生成方法通常需要大量额外的计算资源,尤其是在视频生成方面,并且在训练中面临挑战或控制效果较弱。本文提出了ControlNeXt:一种强大且高效的可控图像和视频生成方法。
首先设计了一个更简单且高效的架构,取代了沉重的额外分支,只需在基础模型上增加极少的成本。这种简洁的结构还使本文的方法能够无缝集成其他LoRA权重,实现样式更改而无需额外训练。在训练方面,减少了多达90%的可学习参数,相较于其他方法。此外,还提出了称为交叉归一化(Cross Normalization, CN)的方法,以替代“零卷积”实现快速且稳定的训练收敛。多项实验,使用不同的基础模型在图像和视频领域,证明了本文方法的稳健性。
方法
深入分析架构设计并对其进行剪枝,以构建一个简洁明了的结构。随后介绍交叉归一化(Cross Normalization),该方法用于通过引入额外的参数对大型预训练模型进行微调。
架构剪枝
动机。ControlNet的关键创新在于增加了一个控制分支,该分支提取条件控制并将其整合到主网络中。这个分支共享了可训练参数,这些参数初始化为原始分支一半的副本,并行运行,使用零卷积作为桥梁来整合条件控制。具体来说:
其中, 表示具有可学习参数 的神经模型, 表示零卷积层, 和 分别表示二维特征图和条件控制, 表示控制参数。预训练的大型生成模型 及其预训练参数 完全冻结,而ControlNet分支 则通过从主分支复制进行初始化。
然而,这样的设计虽然引入了控制能力,但也带来了显著的成本。额外的分支会使延迟最多增加50%,这一点在视频生成中尤为显著,因为每一帧都需要处理。此外,这些可训练参数量庞大且固定,几乎等同于所有预训练参数的一半。除了冗余之外,仅优化ControlNet也限制了整个模型的上限,因为它不会影响预训练的生成模型。为提高效率和简洁性,首先通过移除额外的分支简化了ControlNet的原始设计。接着,对预训练模型中选定的子集进行训练,从而得到一个更有效且高效的架构。
架构剪枝。 需要注意的是,预训练模型通常是在大规模数据集(例如LAION-5B)上进行训练的,而微调则始终在规模小得多的数据集上进行,往往小上千倍。基于此,认为预训练的大型生成模型已经足够强大,且无需引入如此大量的额外参数来实现控制生成的能力。
具体来说,移除了控制分支,并用一个轻量级的卷积模块代替,该模块仅由多个ResNet块组成。这个模块的规模远小于预训练模型,旨在从条件控制中提取指导信息,并将其与去噪特征对齐。由于其小巧的体积,更多地依赖生成模型本身来处理控制信号。在训练过程中,冻结了大部分预训练模块,并选择性地优化预训练生成模型中一小部分可训练参数。这种方法将可能由训练过程引起的遗忘风险降到最低。它还可以与参数高效的微调方法(如LoRA)结合使用。研究者们努力通过避免对原始架构进行重大修改来保持模型结构的一致性。直接训练这些模型还能带来更大的有效性和效率,并能自适应地调整可学习参数的规模以适应不同的任务。表达为:
其中, 表示预训练参数中的一个可训练子集, 而 是用于提取条件控制的轻量级卷积模块。基于上述流程, 力求在尽可能减少额外开销和延迟的同时, 保持模型的一致性。
关于条件控制的注入,观察到对于大多数可控生成任务,控制信号通常具有简单的形式或与去噪特征保持高度一致,因此无需在多个阶段插入控制信号。在单个选定的中间块中将控制信号与去噪分支集成,通过交叉归一化进行归一化后,直接将其添加到去噪特征中。该模块可以作为一个即插即用的模块,由轻量级卷积模块和可学习参数构成,这些参数是预训练模型的一个子集,其表示如下:
其中, , 且 。
交叉归一化
动机。 在对预训练大型模型进行持续训练时,通常面临的一个问题是如何适当地引入额外的参数和模块。由于直接组合新的参数通常会导致训练崩溃和收敛性差,最近的工作广泛采用了零初始化,即将连接预训练模型和新增模块的桥接层初始化为零。这种操作确保了在训练开始时新引入的模块不会产生影响,从而实现稳定的热身阶段。然而,零初始化可能导致收敛缓慢并增加训练挑战,因为它阻止了模块从损失函数中获得准确的梯度。这会导致一种称为“突发收敛”的现象,即模型在经过一段较长的训练时间后并没有逐渐学习条件,而是突然开始遵循这些条件。
本节分析了在添加新参数时训练崩溃的原因,并提出了交叉归一化作为零卷积的替代方案,以确保稳定和高效的训练。
交叉归一化。 研究者们发现训练崩溃的关键原因是引入的模块和预训练模型之间的数据分布不对齐和不兼容。经过大规模数据训练后,预训练生成模型通常表现出稳定的特征和数据分布,其特征是均值和标准差的一致性。然而,新引入的神经模块通常仅使用随机方法(例如高斯初始化)进行初始化。这导致新引入的神经模块产生具有显著不同均值和标准差的特征输出。直接添加或组合这些特征会导致模型不稳定。
归一化方法(如bn和层归一化)通过标准化层输入来提高训练稳定性和速度。它们通过将输入标准化为零均值和单位方差来实现这一点,这在神经网络训练中被广泛使用。受到这些方法的启发,本文提出了交叉归一化,以对齐处理过的条件控制和主分支特征,从而确保训练的稳定性和速度。
将来自主去噪分支和控制转移分支的特征图分别表示为 和 , 其中 。交叉归一化的关键是使用从主分支 计算的均值和方差来对条件特征 进行归一化, 以确保它们的对齐。首先, 计算去噪特征的均值和方差:
然后,使用去噪特征的均值和方差对控制特征进行归一化:
其中, 是为数值稳定性而添加的小常数, 是允许模型缩放归一化值的参数。
交叉归一化对齐了去噪特征和控制特征的分布,充当了连接扩散和控制分支的桥梁。它加速了训练过程,确保即使在训练开始时控制对生成的有效性,并减少对网络权重初始化的敏感性。
实验
本节展示了在各种任务和基础模型上进行的系列实验。本文的方法在图像和视频生成方面表现出卓越的效率和通用性。
通用性
为了展示本文方法的鲁棒性和通用性,首先在多个基于扩散的基础模型上实现了本文的方法,如Stable Diffusion 1.5、Stable Diffusion XL、Stable Diffusion 3 和 Stable Video Diffusion。这些实验涵盖了图像生成、高分辨率生成和视频生成等广泛任务,并使用了各种类型的条件控制。定性结果如下图1所示。结果表明,本文的方法具有鲁棒性和广泛的适应性,能够有效适应各种架构,并满足不同任务的要求。
各种条件控制。 ControlNeXt 还支持各种类型的条件控制。在这一小节中,选择了“mask”、“depth”(深度)、“canny”(边缘)和“pose”(姿态)作为条件控制,分别展示在下图5的从上到下的位置。
所有实验均基于Stable Diffusion 1.5架构进行构建。更多稳定视频生成的结果(利用姿态序列作为角色动画的指导)展示在图6中。SDXL的结果展示在图7中,通过提取输入图像中的Canny边缘并使用SDXL模型生成输出,实现了风格迁移。
训练收敛性
可控生成中的一个典型问题是训练收敛困难,这意味着需要数千步或更多步骤的训练才能学习条件控制。这种现象被称为“突发收敛问题”,发生在模型最初无法学习控制能力,然后突然获得这一技能。这主要由以下两个方面造成:
- 零卷积抑制了损失函数的影响,导致模型在学习初期难以有效开始学习,从而延长了热身阶段。
- 预训练生成模型完全冻结,而ControlNet作为一个适配器,无法立即影响模型。
在ControlNeXt中,消除了这两个限制,从而显著加快了训练收敛速度。使用了两种类型的控制进行了实验,结果和比较如下图3所示。可以看出,ControlNeXt在仅经过几百步训练后就开始收敛,而ControlNet则需要数千步。这显著缓解了突发收敛问题。
效率
本文的方法仅向原始预训练模型添加了一个轻量级模块,确保其保持高效,并且不会引入显著的延迟。本节提供了更多细节,并进行了额外的实验以展示本文方法的效率。
参数。 首先,提供了关于参数的统计信息,包括总参数和可学习参数,这些统计仅计算了UNet模型(不包括VAE和编码器部分)。结果显示在下表1中。可以看出,本文的方法仅添加了一个轻量级模块,额外参数非常少,保持了与原始预训练模型的一致性。至于训练,本文的方法最多仅需不到10%的可学习参数,使其成为一个非常轻量且即插即用的模块。您还可以根据不同的任务和性能要求自适应调整可学习参数的数量。关于参数数量对模型影响的更多细节将在后文讨论。
推理时间。 研究者们比较了不同方法在各种基础模型上的推理时间。结果显示在下表2中,该表呈现了一个推理步骤的计算时间,仅考虑了UNet和ControlNet部分,排除了编码和解码过程。可以看出,由于本文的方法仅添加了一个轻量级模块,与预训练基础生成模型相比,其延迟增加极小。这确保了本文方法在效率上的显著优势。
即插即用
ControlNeXt 的设计旨在保持生成模型原始架构的一致性,确保其兼容性和有效性。它可以作为一个即插即用、无需训练的模块,与各种基础模型和开源 LoRA 无缝集成,实现生成风格的变化。
无需训练的集成。 研究者们首先收集了从 Civitai 下载的各种 LoRA 权重,涵盖了不同的生成风格。然后,在基于 SD1.5 架构的各种基础模型上进行了实验,包括 SD1.5、AnythingV3 和 DreamShaper。结果显示在下图8中。可以观察到,ControlNeXt 可以以无需训练的方式与各种基础模型和 LoRA 权重集成,有效地改变生成图像的质量和风格。这主要归因于本文方法的轻量级设计,该设计主要保持了预训练基础模型的一致性,并且仅添加了极少的附加模块。这些优势使其能够作为一个具有通用兼容性的即插即用模块。
稳定生成。 为了生成令人满意的结果,生成模型通常需要迭代调整提示。ControlNeXt 作为一个插件单元,能够以最小的努力和成本实现稳定生成。提供了一个简单的提示,“一个女人”,生成结果的比较(有无本文的方法)如下图9所示。
结论
本文提出了 ControlNeXt,一种先进且高效的可控图像和视频生成方法。ControlNeXt 采用简化和精简的架构,消除了重型辅助组件,以最小化延迟开销并减少可训练参数。这种轻量级设计使其能够作为一个即插即用模块,具有强大的鲁棒性和兼容性,并进一步支持与其他 LoRA 权重的集成,从而在无需额外训练的情况下改变生成风格。提出了交叉归一化,用于对预训练大型模型进行微调,处理新引入的参数,从而促进更快和更稳定的训练收敛。通过在各种图像和视频生成基础模型上的广泛实验,展示了本文方法的有效性和鲁棒性。
.
#POA
蚂蚁集团提出同时预训练多种尺寸网络的自监督范式
论文提出一种新颖的POA自监督学习范式,通过弹性分支设计允许同时对多种尺寸的模型进行预训练。POA可以直接从预训练teacher生成不同尺寸的模型,并且这些模型可以直接用于下游任务而无需额外的预训练。这个优势显著提高了部署灵活性,并有助于预训练的模型在各种视觉任务中取得SOTA结果。
论文地址:https://arxiv.org/abs/2408.01031
论文代码:https://github.com/Qichuzyy/POA
Abstract
大规模自监督预训练为一个基础模型处理多种不同的视觉任务铺平了道路。大多数预训练方法在一次训练中训练一个特定大小的单一模型。然而,在现实世界的场景中,由于各种计算或存储限制,需要大量的工作来开发一系列不同大小的模型进行部署。因此,在这项研究中,我们提出了一种新颖的三分支自监督训练框架,称为POA
(Pre-training Once for All
),来解决上述问题。我们的方法在现代自蒸馏范式中引入了一种创新的弹性student
分支。在每个预训练步骤中,我们随机从原始student
中抽样一个子网络来形成弹性student
,并以自蒸馏的方式训练所有分支。一旦预训练完成,POA
允许提取不同大小的预训练模型用于下游任务。值得注意的是,弹性student
促进了多个不同大小模型的同时预训练,同时也作为各种大小模型的额外集合,增强了表示学习。大量实验证明了我们的POA
的有效性和优势,包括k最近邻、线性探测评估以及多个下游任务的评估。它使用ViT
、Swin Transformer
和ResNet
骨干网络实现了最先进的性能,并通过一次预训练会话生成了大约一百个不同大小的模型。代码可在以下链接找到:https://github.com/Qichuzyy/POA。
Introduction
通过自监督学习在大型模型中学习可泛化的视觉表示,近年来在各种视觉任务上取得了卓越的性能。然而,当部署到现实世界的应用程序时,大型模型必须根据计算、存储、功耗等各种资源限制进行调整。例如,一个良好设计的人工智能产品通常包括一套为不同场景量身定制的模型,比如Gemini Nano
、Pro
和Ultra
。对于一个大型预训练模型,将其部署到具有不同资源约束的多个应用场景的常见解决方案包括额外的权重修剪、知识蒸馏,甚至从头开始重新训练一个小网络,这些都需要大量的开发工作。因此,这个问题引发了一个关键问题:是否可能进行一次预训练以同时生成多个具有不同大小的模型,每个模型都提供足够好的表示。
为了解决这一挑战,论文引入了一种名为POA
(Pre-training Once for All
)的新型自监督学习范式。POA
建立在流行的teacher-student
自蒸馏框架之上,具有一个额外的创新性弹性student
分支。弹性student
分支通过参数共享嵌入了一系列子网络,这是基于观察到对于现代网络结构来说,较小尺寸的模型是较大尺寸模型的子网络。此外,该分支的参数与原始的或完整的studennt
共享。在每个预训练步骤中,从完整student
中随机抽样一部分参数,形成相应的弹性studennt
。原始完整student
和弹性student
都被训练以模拟teacher
网络的输出。teacher
本身通过对student
参数的指数移动平均(EMA
)不断优化,包括采样的弹性student
。弹性student
有助于在不同参数子集上进行有效和高效的预训练,从而成功地从预训练teacher
中提取出高性能子网络,用于后续的下游场景。它还作为一种训练正则化形式,通过强制teacher
和各种子网络之间的输出匹配来促进稳定的训练过程。
POA
代表了第一个能够同时训练多个不同尺寸模型的自监督学习方法,每个模型在不需要进一步预训练的情况下,都能获得适用于不同资源约束的高质量表示。图1
显示了通过POA
预训练的ViT-L
模型提取的143
个子网络的k
最近邻(k-NN
)评估结果。通过选择不同的弹性宽度和深度,预训练teacher
模型可以根据可用计算资源定制的适用于下游应用的合适模型,生成足够数量的候选子网络以供选择。值得注意的是,由于在同视图蒸馏上进行了精心设计,每个子网络都经过了良好训练,并表现出优越性能。特别是,ViT-S
、ViT-B
和ViT-L
模型创造了新的基准,与那些由现有方法预训练的模型相比取得了SOTA
结果。
为了严格评估方法的有效性,使用三种广泛使用的骨干架构,即ViT
、Swin Transformer
和ResNet
,进行了大量实验。每个骨干架构都在ImageNet-1K
数据集上进行了预训练,并使用k-NN
和线性探测分类评估,以及在下游密集预测任务进行评估,如目标检测和语义分割。POA
在单次预训练会话中跨多种模型尺寸实现了最先进的准确性。
本文的技术贡献总结如下:
-
POA
是第一个将无监督表示学习和一次性模型生成集成到单个预训练会话中的预训练范式,解决了社区很少探讨的一次性预训练挑战。这对实际部署非常重要,因为实际部署通常需要一套模型。 - 提出了一个新颖而优雅的组件,称为弹性
student
(Elastic Student
),具有一系列弹性算子,可以使POA
与包括ViT
、Swin Transformer
和ResNet
在内的流行骨干结构兼容,具备生成各种大小模型的能力。此外,还作为模型集成来平滑训练过程并改善学到的表示。 - 通过对
k-NN
、线性探测和下游密集任务评估的彻底评估,在多个指标上展现出优于现有最先进预训练方法的性能。此外,将POA
与自监督蒸馏(SEED
)进行了比较,SEED
是一种专为自监督学习设计的知识蒸馏方法,进一步验证了POA
的有效性。
POA Self-supervised Learning Framework
论文的主要目标是通过单次自监督预训练会话来预训练多种规模的模型,受到自蒸馏技术最新进展的启发,提出了一个名为POA
的新型SSL
(Self-supervised Learning
)框架。POA
架构如图2
所示,包括一个teacher
模型、一个完整的student
模型、一个弹性student
模型以及对应的头部。teacher
模型使用student
模型的指数移动平均(EMA
)进行更新。弹性student
模型是完整student
模型的派生版本,其主干网络和头部参数是共享的。
在两个方面利用蒸馏技术:完整student
和弹性student
都是通过使用同一图像不同视图的teacher
模型进行蒸馏,而弹性student
还通过使用相同视图的完整student
进行学习。交叉视图蒸馏作为一种表示学习形式,如所介绍的那样。值得注意的是,除了仅使用完整student
进行常规EMA
更新外,弹性student
在每个预训练步骤中还提供一个随机抽样的子网络,参与teacher
模型的EMA
优化。这个过程实际上模拟了多个子网络的集成,这在监督学习领域也被证明是有益的。同视图蒸馏是完整student
和弹性student
之间的标准知识蒸馏,提升了弹性student
的质量。
Design of Elastic Student
弹性student
是一个子网络,其参数是从完整student
中提取的。在transformer
主干网络的背景下,宽度指的是标记的维度,而在卷积主干网络中,宽度表示通道数。深度则定义为transformer
或卷积网络中基本块的数量。给定宽度和深度的值,会产生一定的网络结构。为简单起见,论文将重点放介绍ViT
的弹性设计。
ViT
的基本块主要由多头自注意力(MSA
)模块和多层感知器(MLP
)模块组成。在每个模块之前应用层归一化(LN
),并在每个模块后使用残差连接。如图3
的左侧所示,弹性块是指在ViT
原始基本块中调整宽度后堆叠的弹性MSA
、MLP
和LN
。在论文的方法中,弹性student
分支是通过在每个训练迭代中组装特定数量的这些弹性块来构建的。
- Elastic MSA
一个原始或完整的 MSA 模块由三个主要组件组成, 即输入投影层, 包含注意力和连接的操作符, 以及输出投影层。将投影层定义为 , 其中 表示线性转换权重, 表示相应的偏置, 表示层的名称。如图 3 的右侧所示, 给定一个标记维度 , 其中 是注意力头的数量, 是头部维度, 具有长度 的输入序列 最初被投影以形成查询 、键 和值 。为了生成弹性 MSA, 定义了 M+1 个弹性宽度, 包括 , 间隔为 :
对于每个弹性宽度 , 从完整 MSA 中的相应输入投影层 中提取生成每个头部的 、 和 的权重 和偏置 ,如 和 。这里, 表示用于应对输入维度减少的缩放因子, 计算公式为 。随着宽度的减小, 弹性 MSA 中的注意力头数量自然减少到 。类似地, 对于输出投影层 , 权重 和偏置 被提取为:
- Elastic MLP
ViT 块中的原始或完整 MLP 模块包含两个投影层。第一层 )将嵌入维度扩展了 倍, 通常在 ViT 结构中设置为 4 。然后, 第二层 ) 将其投影回原始维度。弹性 MLP 的两个层的参数以类似于公式 2 描述的方式提取, 如下所示:
- Elastic LN
对于弹性LN
,直接使用原始LN
内部参数的前个元素,类似于公式2
中的偏置提取。
- Elastic depth
要从包含 个块的完整 ViT 中创建一个包含 个弹性块的子网络, 引入了一组 N+1 个弹性深度,定义为 $L_i=L_{\max }-i, \forall i \in\{0,1, \ldots, N\}, N<l_{\max }$="" 。对于特定深度="" $l_i$="" ,根据块="" id="" 在等间隔上选择相应的块。激活深度="" 的每个块="" $b="" i="" d_j^{l_i}$="" 可以表示为:<="" p="">
因此,通过结合弹性宽度和深度,可以生成总共个不同的子网络。例如,通过将弹性宽度设置为384
,弹性深度设置为12
,可以直接从如ViT-L
的完整网络中提取一个ViT-S
。在预训练的每次迭代中,随机选择其中一个子网络作为弹性student
分支。
Distillation between Views
POA 根据其三个分支执行蒸馏。给定输入图像 的一对全局增强视图, 表示为 和 , teacher 编码器 使用 作为输入提取特征 。同时, 被输入到完整 stu dent 编码器 和弹性 student 编码器 中, 分别产生特征 和 。从 teacher 编码器输出的特征 经过 teacher 头部 处理, 然后使用 Sinkhorn-Knopp (SK)算法进行居中处理, 并使用温度缩放 softmax 进行归一化, 生成概率 , 如下所示:
其中 是原型(logits ?)的数量, 是温度参数。类似地, 通过使用 student 头部 和 处理输出来计算完整和弹性 student 编码器的概率 和 。然后, 这些输出通过一个针对 student 量身定制的温度参数 的温度缩放 softmax 函数进行处理。值得注意的是, 和 共享相同的参数, 只是 的第一个投影层进行公式 2 的相应调整,以便对齐相应的维度。为简单起见, 省略了 和 的显式表达式, 因为它们遵循与公式 5 类似的计算方式。对于完整 student 分支, 使用跨视图数据从 teacher 进行蒸馏如下:
弹性student
分支在POA
框架中发挥着至关重要的作用。为了确保这一分支的充分训练,采用了从teacher
和完整student
分支进行的双重蒸馏。第一次蒸馏涉及到teacher
模型,利用跨视图数据来引导表示学习。第二次是与完整student
模型进行的蒸馏过程,使用同视图数据。这种同视图蒸馏负责将完整student
学到的表示转移到弹性student
分支。这种双重蒸馏过程的损失函数制定如下
请注意,在这两个损失函数中,对所有原型求和,以计算相应概率分布之间的交叉熵损失。
Overall Loss of POA
根据SSL
方法,采用多裁剪策略从单个图像中创建各种失真视图。除了之前提到的两个全局视图外,还生成 个分辨率较低的局部视图 。这些局部视图由两个student
共同处理,以促进局部到全局的对应关系。完整和弹性student
的局部蒸馏损失计算如下:
其中, 和 分别是完整和弹性 student 分支对于局部视图 产生的概率。完整和弹性 student 的总蒸馏损失通过将它们与因子 相加来计算:
为了确保弹性 student 的每个子网络都得到充分的训练, 在主干网络之后引入了多个投影头 (MPH)。每个投影头具有完全相同的结构,只是原型数量不同。对于每个投影头,根据公式 1 0 计算完整和弹性 student 的蒸馏损失 。最终, 在具有 个投影头的 POA 框架中, 整体损失函数被表述为: 。
Experiments
.
#HyperSOR
显著性程度预测新SOTA!基于上下文感知的超图网络框架
本文瞄准图像中物体显著程度预测问题,提出了一种新颖的上下文感知超图神经网络框架。通过深入分析大规模的显著物体数据集,揭示了场景上下文对于物体显著程度预测的重要性,并据此构建了一个能够捕捉场景语义关系并预测物体显著程度的深度模型HyperSOR。
1.论文简介
本文介绍发表于IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2024)上的工作“HyperSOR: Context-aware Graph Hypernetwork for Salient Object Ranking”。该工作瞄准图像中物体显著程度预测问题,提出了一种新颖的上下文感知超图神经网络框架。通过深入分析大规模的显著物体数据集,揭示了场景上下文对于物体显著程度预测的重要性,并据此构建了一个能够捕捉场景语义关系并预测物体显著程度的深度模型HyperSOR。该模型在显著性程度预测和场景图生成等任务上均展现出了SOTA性能。本文的主要贡献如下:
1.建立了一个大规模的显著物体排序(Salient Object Ranking,SOR)数据集,并提供了物体分割掩模、显著值和场景图的标注。
2.深入挖掘了显著物体排序的任务特点,并获得了关于场景上下文与物体显著程度之间相关性的一些发现。
3.提出了一个新颖的基于上下文感知的超图网络框架HyperSOR,通过显式学习场景图来利用场景上下文引导显著物体排序。
论文地址:https://ieeexplore.ieee.org/document/10443257
数据集地址:https://github.com/MinglangQiao/SalSOD
2. 数据库构建与分析
本文构建了一个新的数据库SalSOD,包含24,373张图像,以及图像内显著物体的多重标注:1) 语义分割掩膜和物体框,2) 物体显著值和显著程度排序,3) 场景图。下图展示了数据集的构建过程:(I)通过结合SALICON中的眼动标注数据和COCO的分割掩膜进行物体显著程度标注,(II)通过手动筛除不良样本进行标注细化,(III)通过清洗和对齐Visual Genome中的场景图获取场景图标注。图2展示了构建数据集的部分样例。
图1 数据库构建示意图
图2 数据库图像和标注示例
基于构建的数据集,我们分析发现,图像中物体的显著值与场景上下文信息密切相关。比如,当图像的场景图标注中,物体与其他对象具有较多的语义关联时,物体越容易具有较高的显著值,如图3所示。其原因可能在于,场景图标注人员在标注过程中,倾向于对显著/主体的物体进行更多的标注[1]。这个现象在场景图数据库和部分图像描述数据库中均有所体现。受此启发,我们提出利用场景图中的物体语义关联引导物体显著程度的预测。
图3 物体显著值与物体语义关联数目间的关系
- 方法① HyperSOR的总体框架
图4是本文所提HyperSOR方法的框架图,HyperSOR方法由初始图(Initial Graph,IG)模块、场景感知图(scene perception graph,SPG)模块和排序预测图模块(ranking prediction graph,RPG)模块三个部分组成。其中,IG模块主要用于检测和分割物体,提取物体特征并构建融合物体语义与几何特征的初始图表征,供后续的SPG模块和RPG模块使用。SPG模块包含多层图注意力网络,用于学习物体间的语义关联并生成场景图。与SPG模块并行,IG模块的初始图表征也被输入到RPG模块以预测物体的显著性分数。RPG模块包含多层图注意力网络和超图引导网络(Graph hypernetwork),后者可将SPG模块捕获的场景上下文转移到RPG模块以指导物体显著分数的推理。最后,预测的显著分数与相应的分割掩模结合生成显著图。
图4 网络框图
接下来我们将详细介绍IG、SPG和RPG模块。
② 初始图(IG)模块
在HyperSOR方法中,初始图(IG)模块被用于物体分割和图初始化。
物体分割。 本文应用 Mask R-CNN 进行物体分割, 得到物体区域以及相应的特征图 , 其中 n 是物体的数量。最终, 这些特征图被送入边界框、类别和掩膜头, 以推断出边界框图 、对象类别 和分割掩膜图 。
图初始化。 根据分割结果,构建包含物体表征和物体间关系的初始图。初始图中除了物体节点外,还包含关联节点,以更好地学习场景上下文信息。每个节点由一个初始特征向量表示, 设 表示第 i 个对象节点的初始向量, 而 是第 i 个和第 j 个对象节点之间谓词节点的初始向量,则物体节点和关联节点表示为
在上述方程中, 和 是第 i 个和第 j 个对象的特征图, 而 和 是它们的边界框。此外, 是卷积块, 用于将特征图投影到高维特征向量中, 而 是联合函数, 用于获得两个边界框的联合区域。
与物体检测中的对象提议类似, IG 模块为输入图像中的物体提供关联提议。为此, IG 模块估计物体间存在关联的置信度分数, 然后过滤掉不必要的关联, 并保留重要的关联。具体地, 设 表示三元组 的两条边的置信度分数, 则可通过考虑对象的语义和几何分数来计算, 如下所示:
其中 和 分别为物体 i 和 j 的类别概率。 表示映射函数, 将边界框 和 映射为高维向量。在获得所有关联的置信度分数 后, 保留得分最高的 条边作为初始关联。最后, 使用初始节点特征和保留的关联构建初始图, 然后将其输入到 SPG 模块和 RPG 模块进行场景图生成和显著分数预测。
③ 场景感知图(SPG)模块
基于前文的数据分析, 物体的显著值与场景上下文高度相关, 因此本节设计了一个场景感知图模块来生成输入图像的场景图, 并捕捉场景上下文信息用于引导显著分数预测。SPG 模块包括 N 层多路径图注意力 (multi-path graph attention, MGA) 模块, 这些模块被用于更新初始图中每个节点的特征。SPG 模块的最后一层生成场景图, 包括每个对象的预测类别 和谓词 。
MGA模块。 初始图中包括了物体节点和谓词节点,前者包含三种连接方式,即物体→谓词、谓词→物体和物体→物体;而后者包含两种连接方式,即物体→谓词,谓词→物体。
对应地,我们在MGA块中为更新物体和谓词节点的特征设计了两条独立的路径。如下图所示,两种类型的节点通过两条路径分别进行节点特征的聚合与更新。
图5 MGA模块示意图
在物体节点更新路径中,三种类型的邻居节点分别被聚合以更新每个物体节点的特征。
具体来说,以第i个对象节点作为目标节点,邻居节点包括:
(1)在三元组⟨主语→谓词→宾语⟩中,目标节点为主语时的邻居谓词节点。对于这些节点,我们将特征集记为,目标节点是主语}。
(2)在三元组⟨主语→谓词→宾语⟩中,目标节点作为宾语的邻近谓词节点。对于这些节点,我们将特征集记为,目标节点是宾语}。
(3)其他物体节点。对于这些节点,我们将特征集记为 。这里我们参照[3]在聚合时连接所有物体节点的方式,以捕捉物体节点之间的潜在关系。
于是,第i个物体节点的特征可以按照以下方式进行更新:
其中, 和 表示三个不同参数的图注意力网络[3](graph attention network,GAT)。这里选择GAT作为聚合函数主要基于以下两点考虑:1) GAT可以学习不同邻居节点的重要性并以注意力的方式进行聚合,因此对于场景图生成和物体显著分数预测的任务十分有效。(2) GAT在特征聚合方面具有较好的计算效率,因为它可以通过自注意力和参数共享的方式在不同的节点上并行计算。
在谓词节点的更新路径中, 按照类似的方式进行谓词节点特征的聚合与更新。在节点的关系三元组 $中v_{i, j}^p 、 v_i^o和v_j^o是相应节点的特征则谓词节点v_{i, j}^p$ 的特征更新过程可以表述为:
其中, 和 是两个不同的 GAT 网络, 而 表述 更新后的特征。
④ 排序预测图(RPG)模块
本节设计了RPG模块预测每个物体的显著值,进而得到物体的显著程度排名。与SPG模块类似,RPG模块也是建立在N层网络结构上,其中每层包含一个MGA块和一个超网络引导(hypernetwork guidance, HG)模块。其中,MGA模块用于更新图中的节点特征,而HG模块用于传递SPG模块学到的场景上下文信息。如下图所示,RPG模块的最后一层输出 个物体的显著值 ,它们与相应物体的分割掩模结合,生成SOR的最终显著性图。下面介绍HG模块的详细结构。
图6 RPG模块和HG模块示意图
HG模块。 即使对于同一类型的物体,其显著值也会随着场景上下文的变化而变化。因此,在RPG模块中,推断物体显著值的方式应根据场景上下文动态变化。对此,我们设计了HG模块,将SPG模块中的特征所包含的场景上下文信息转化为RGP模块中的模型参数,从而动态引导RGP中的特征更新过程。如图6(b)所示,HG模块结合了多头和超网络机制。以输入初始图中的第 个物体节点为例, 和 分别表示第 个物体节点的输入和输出的特征, 表示 SPG 模块中更新后的物体特征, 则 HG 模块的输出特征 可以在 条件下通过一个动态全连接层 获得:
在上述方程中, 是一个可学习的矩阵, 用于降低输入特征的维度, 以减少计算复杂度。此外, 和 是全连接层 的可学习权重和偏置, 由两个多层感知机 (MLP) 生成, 即 ) 和 。如图 所示, MLP 的输入由 和 组成, 其中 为二者相加时的超参数。
为提高模型的学习能力,我们进一步设计了多头结构的HG模块,通过多个并行的超网络头来共同引导特征更新过程。假设HG块中有M个头,则M头HG块的结构图6 (b)右侧的子图所示,该结构可以表述如下:
其中, 是一个可学习的矩阵, 它通过线性变换恢复输出特征的维度。在 HG 块中, 每个谓词节点的特征 也更新为 , 其更新方式与物体节点 相同。
- 实验与结果① 评价指标
为了评估显著物体排序的性能,本文采用了3个现有的评价指标,即 siris显著物体排序指标(siris’ salient object ranking,SSOR)、分割感知显著物体排序指标(segmentation-aware SOR,SA-SOR)和平均绝对误差(mean absolute error,MAE)。此外,本文还提出了一个新的评价指标 — 对称显著物体排序指标(symmetrical salient object ranking,SYSOR),其综合考虑了模型输出中物体过度预测和预测不足的情形。如图7所示,当预测显著图中存在冗余物体时,SSOR和SA-SOR可能无法准确地评估结果。
图7 不同评价指标的结果示例
为了解决该问题,本文提出了一种新的指标SYSOR, 通过正向和反向两次匹配分别计算预测结果和标注结果的相关系数,然后取二者的平均值作为评估结果。因此,SYSOR既能够处罚预测结果中缺失物体的情况,也能处罚存在冗余物体的情况。具体而言,给定标注的显著物体,首先计算标注的分割掩膜与预测的分割掩膜之间的IoU,并根据计算结果匹配标注物体在预测物体中对应的对象。对于没有匹配上的物体, 将其对应的预测物体的显著等级设置为 0 作为处罚。设 表示标注物体的显著性等级, 表示经过匹配后的预测物体的显著等级。另一方面, 基于预测物体在标注物体中进行匹配, 并获得 和 。通过这种方式, 当预测物体中存在缺失物体或者冗余物体时, 都会导致 SYSOR 的结果下降。最终, SYSOR 的计算过程可以表述为
其中,为计算相关系数的操作。数学上,上式的第一项能够处罚预测结果中的缺失物体,第二项能够处罚预测结果中的冗余物体。如图7所示,SYSOR指标给出的结果更加合理。
② 显著物体排序任务评估
针对显著物体排序任务,我们在SalSOD、Siris和PASCAL-S数据库上均进行了实验。
从表格1可以看出,在SalSOD数据库上,本文的HyperSOR方法在4个指标上都显著超过了11个对比方法。特别地,相比于第二好的方法,HyperSOR在SYSOR和SA-SOR指标上分别获得了0.028和0.061的提升,提升幅度分别为4%和9.3%。此外,相比于RSDNet[120]、Liu[124]和Fang[127], 本文方法将SYSOR指标分别提升了0.188、0.047和0.028。在其他数据库上,本文方法在大部分指标上依然超过了对比方法。此外,从图8可以看出,本文HyperSOR方法的显著图结果更加接标注结果。上述结果表明,HyperSOR能够在各种场景下更准确地分割物体,并对物体显著程度进行更准确地排序。
③ 消融实验
IG模块作用分析。 为了分析IG模块的作用,将初始图的关联提议作为二分类任务。
表1 本文方法和对比方法在不同数据库上的显著物体排序结果
图8 不同方法的显著图对比
具体地,对比了IG模块与三种同期领先的方法在VG150[219]测试集上的性能,包括IMP[219]方法(Iterative Message Passing IMP)、 MSDN[227]方法(Multi-level Scene Description Network)和Graph RCNN[217]方法。图9画出了本文方法的SPG模块和三种基准方法的ROC曲线。
图9 不同方法在初始图关联提议任务上的ROC曲线
从实验结果可以看出,IG模块的效果要好于基准方法,这验证了IG模块的有效性。
HG模块作用分析。 首先,将RPG模块中的HG模块移除掉,记为“w/o HG”。然后,将HG模块中的超网络分别替换为经典的特征操作,包括特征拼接、特征求和、特征相乘。在表格2中,这几种模型分别记为“HG-CONCAT”、“HG-SUM”、“HG-MULTI”。从表2中可以看出移除HG模块后模型性能显著下降。此外,可以看出与“w/o HG”相比,特征拼接、特征求和、特征相乘等操作可以提高显著物体排序的性能,但仍旧低于使用超网络的HG模块。上述结果表明:在HG模块中使用超网络能够更有效地利用与显著物体排序相关的上下文信息,适用于不同的视觉场景。
表2 不同HG模块配置下的显著物体排序结果
④ 场景图生成任务评估
为了验证了HyperSOR方法生成场景图的效果,对SPG模块在VG150上进行场景图生成评估,并与IMP[219]、 Unbiased[230]、 MSDN[227]和Graph RCNN[217]方法进行比较。生成的场景图在两个子任务上进行评估:场景图检测(scene graph detection, SGDet)和场景图分类(scene graph classification, SGCls)。如表3所示 ,SPG模块的SGDet和SGCls指标均高于基准方法。这表明SPG模块能够有效捕捉图像中的上下文信息并生成场景图。
表3 不同方法的场景图生成结果
总结与展望
本文提出了一种场景上下文感知的显著物体排序方法。具体地,本文构建了一个包含24,373张图像的显著物体排序数据库,并在显著物体及其显著程度标注的基础上,引入了场景图标注数据。基于该数据库进行分析,发现物体的显著值与场景上下文信息密切相关。受此启发,设计了一种场景上下文感知的超图网络模型用于显著物体排序。在本文方法中,构建了一个初始图模块检测物体并构建基于语义和几何特征的初始图表征。此外,设计了一个基于图神经网络的多层场景图感知模块捕捉上下文信息并生成场景图。同时,设计了一个基于超网络的排序预测图模块,动态地传递场景上下文信息并引导显著物体排序。充分的实验表明:本文所提的HyperSOR方法在三个显著物体排序数据库上均超过了十一种领先的对比方法。开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用whaosoft aiot
在未来的工作中,探索HyperSOR方法的实际应用将是一个有趣的研究方向。比如,模型预测的显著图可以被用在多种计算机视觉和多媒体任务中,包括定位感兴趣区域、图像压缩、物体追踪和图像质量评价等。此外,将本文方法扩展到视频领域也是一个有意义的方向,比如设计动态的图神经网络学习物体在不同帧上的时序关联。
.
#SCNet
北大、哈工大、清华联合提出无需GT的自监督图像重建网络学习方法,代码已开源!
一、论文信息
- 论文标题:Self-Supervised Scalable Deep Compressed Sensing(自监督可变采样率的深度压缩感知)
- 论文作者:Bin Chen(陈斌), Xuanyu Zhang(张轩宇), Shuai Liu(刘帅), Yongbing Zhang†(张永兵), and Jian Zhang†(张健)(†通讯作者)
- 作者单位:北京大学深圳研究生院、清华大学深圳国际研究生院、哈尔滨工业大学(深圳)
- 发表刊物:International Journal of Computer Vision (IJCV)
- 发表时间:2024年8月13日
- 正式版本:https://link.springer.com/article/10.1007/s11263-024-02209-1
- ArXiv版本:https://arxiv.org/abs/2308.13777
- 开源代码:https://github.com/Guaishou74851/SCNet
二、任务背景
作为一种典型的图像降采样技术,自然图像压缩感知(Compressed Sensing,CS)的数学模型可以表示为,其中是原始图像真值(Ground Truth,GT),是采样矩阵,是观测值,是噪声。定义压缩采样率为。
图像CS重建问题的目标是仅通过观测值和采样矩阵来复原出GT 。基于有监督学习的方法需要搜集成对的观测值和GT数据,以训练一个重建网络。然而,在许多现实应用中,获得高质量的GT数据需要付出高昂的代价。
本工作研究的问题是自监督图像CS重建,即在仅给定一批压缩观测值和采样矩阵的情况下,训练一个图像重建网络。现有方法对训练数据的利用不充分,设计的重建网络表征能力有限,导致其重建精度和效率仍然不足。
三、主要贡献
- 技术创新点1:一套无需GT的自监督图像重建网络学习方法。
如图1(a)所示,在训练过程中,我们将每组观测数据随机划分为两个部分和,并输入重建网络,得到两个重建结果和。我们使用以下观测值域损失函数约束网络产生符合“交叉观测一致性”的结果:
进一步地,如图1(b)所示,为了增强网络的灵活性和泛化能力,使其能够处理任意采样率和任意采样矩阵的重建任务,我们对和进行随机几何变换(如旋转、翻转等),得到数据增广后的和,然后使用以下图像域损失函数约束网络,使其符合“降采样—重建一致性”:
其中和、和,以及和分别是随机生成的采样矩阵、噪声和采样率。
最终,结合以上两个损失函数,我们定义双域自监督损失函数为。
图1:提出的损失函数。
在训练阶段,我们使用以无需GT的自监督方式,学习一个支持任意采样率和采样矩阵的重建网络;在测试阶段,除了可以直接使用训练好的网络重建图像外,也可以使用在单个或多个测试样本上微调网络,以进一步提升重建精度。
- 技术创新点2:一个基于协同表示的图像重建网络。
如图2所示,我们设计的重建网络首先通过一个卷积层从观测值、采样矩阵与采样率中提取浅层特征,并依次注入可学习的图像编码和位置编码。接着,使用多个连续的深度展开网络模块对特征进行增强,每个模块对应于近端梯度下降算法的一个迭代步骤。最后,重建结果由一个卷积层和一个梯度下降步骤产生。
图2:提出的图像重建网络。
我们设计的重建网络结合了迭代优化算法的显式结构设计启发与神经网络模块的隐式正则化约束,能够自适应地学习待重建图像的深度协同表示,展现出强大的表征能力,在重建精度、效率、参数量、灵活性和可解释性等方面取得了良好的平衡。
四、实验结果
得益于提出的双域自监督损失函数与基于协同表示的重建网络,我们的方法在多个测试集(Set11、CBSD68、Urban100、DIV2K、我们构建的数据集)、多种数据类型(模拟/真实数据、1D/2D/3D数据)以及多个任务(稀疏信号恢复、自然图像压缩感知、单像素显微荧光计算成像)上均表现出优异的重建效果。同时,我们的方法展现出了对训练时未见过的采样矩阵与采样率的出色泛化能力。
图3:我们的方法与现有其他方法的对比结果。
更多方法细节、实验结果与原理分析可参考我们的论文。
五、实验室简介
视觉信息智能学习实验室(VILLA)由张健助理教授于2019年创立并负责,专注于AI计算成像与底层视觉、可控内容生成与安全、三维场景理解等研究领域,已在Nature系列子刊Communications Engineering、SPM、TPAMI、IJCV、TIP、NeurIPS、ICLR、CVPR、ICCV和ECCV等高水平国际期刊和会议上发表了50余篇论文。
在计算成像与底层视觉方面,张健助理教授团队的代表性成果包括优化启发式深度展开重建网络ISTA-Net、COAST、ISTA-Net++,联合学习采样矩阵压缩计算成像方法OPINE-Net、PUERT、CASNet、HerosNet、PCA-CASSI,以及基于信息流增强机制的高通量广义优化启发式深度展开重建网络HiTDUN、SODAS-Net、MAPUN、DGUNet、SCI3D、PRL、OCTUF、D3C2-Net。团队还提出了基于自适应路径选择机制的动态重建网络DPC-DUN和用于单像素显微荧光计算成像的深度压缩共聚焦显微镜DCCM,以及生成式图像复原方法Panini-Net、PDN、DEAR-GAN、DDNM,受邀在信号处理领域旗舰期刊SPM发表专题综述论文。本工作提出的自监督重建网络学习方法SCNet进一步减少了训练重建网络对高质量GT数据的依赖。
#Turbo-VAED
华科大提出:为Sora级模型登陆手机铺路,首次实现移动端实时720p视频解码
随着文生视频模型的爆发,距离在手机上随时随地创作高质量视频的未来越来越近。然而,将这些庞大的AI模型部署到资源受限的移动设备上,是一个巨大的挑战。其中,变分自编码器(Variational AutoEncoder, VAE)作为将抽象的特征数据还原成绚丽视频画面的关键组件,是主要的性能瓶颈之一。
今天介绍的这篇论文 Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
,就针对这一痛点提出了一个巧妙的解决方案。研究者们开发了一种名为 Turbo-VAED 的通用移动端视频VAE解码器,它就像一个“涡轮增压引擎”,能够对现有的大型视频VAE进行低成本、高性能的移动端适配。
Turbo-VAED首次在移动设备上实现了对720p高清视频的实时解码,在iPhone 16 Pro上相比其他移动优化方案实现了 2.9倍 的帧率提升,而在GPU上更是带来了高达 84.5倍 的惊人加速。这项工作为大型视频生成模型在移动端的普及扫清了一大障碍。
- 论文标题: Turbo-VAED: Fast and Stable Transfer of Video-VAEs to Mobile Devices
- 作者: Ya Zou, Jingfeng Yao, Siyuan Yu, Shuai Zhang, Wenyu Liu, Xinggang Wang
- 机构: 华中科技大学
- 论文地址: https://arxiv.org/pdf/2508.09136v1
- 项目地址: https://github.com/hustvl/Turbo-VAED
研究背景
在潜在扩散模型(Latent Diffusion Models)驱动的视频生成流程中,VAE扮演着“编码”与“解码”的角色。它先将训练视频压缩到紧凑的潜在空间中,让扩散模型能高效学习;生成时,再由VAE的解码器将AI在潜在空间中创造的特征“解码”成最终的视频像素。由于推理部署时主要使用解码器,因此其性能至关重要。
然而,为了追求更高的视频重建质量,主流的视频VAE(如LTX-VAE, Video DC-AE等)参数量巨大,并且其内部的算子(如3D卷积、上采样等)在移动端GPU上没有高效的实现,导致在手机上运行时要么因内存溢出(OOM)而崩溃,要么推理速度慢到无法接受。
虽然可以从头训练一个轻量化的VAE,但这不仅需要巨大的计算资源,而且小模型学习到的特征表示质量通常远不如大模型。因此,如何低成本地将现有高质量视频VAE的能力“迁移”到移动端,是亟待解决的问题。
Turbo-VAED的核心创新
Turbo-VAED通过移动端友好的架构设计和高效的训练策略两大创新,成功解决了上述难题。
架构优化:更少参数,更快速度
研究者首先对现有VAE解码器进行分析,发现了两个关键问题:
参数冗余:通过实验发现,解码器中处理低分辨率特征的深层网络存在大量冗余参数。如下图所示,对这些深层网络进行轻量化改造(mid, up.0),可以在性能损失极小的情况下,大幅减少参数量。
基于此发现,Turbo-VAED采用了一种混合架构:在低分辨率层使用参数效率极高的3D深度可分离卷积(3D depthwise separable convolutions),在高分辨率层保留标准的3D卷积,实现了性能与效率的平衡。
上采样瓶颈:分析发现,解码器中的3D像素Shuffle(3D pixel shuffle)上采样操作是移动端延迟的主要瓶颈。如下图所示,在GPU上该操作耗时占比很小,但在iPhone上却占据了绝大部分解码时间。
为此,作者提出了一种移动端友好的解耦式3D像素Shuffle(decoupled 3D pixel shuffle)方案。它将原始操作分解为通道到维度的变换和2D像素Shuffle,这些都是移动端硬件支持得更好的算子,从而极大地降低了延迟。
最终的Turbo-VAED整体架构如下图所示,它是一个专为移动端优化的、参数高效且速度极快的解码器。
高效的训练方法:解码器蒸馏
拥有了高效的架构后,如何低成本地训练它,让它能媲美原始大型解码器的效果呢?Turbo-VAED采用了解码器-唯一蒸馏(Decoder-only Distillation)的策略。
如下图所示,在训练时,原始的、预训练好的大型VAE(包括编码器和解码器)被完全“冻结”,其参数不作任何改变。训练的目标是让小巧的Turbo-VAED解码器去“模仿”原始的大型解码器。这种模仿不仅是匹配最终的输出视频,更关键的是对齐两者中间层的特征图(Feature Alignment)。
这种方法带来了三大好处:
- 成本极低:由于只训练一个小解码器,整个适配过程的训练成本可低至95美元。
- 数据高效:实验表明,仅用1万个视频样本进行蒸馏训练,就能达到和100万样本相当的性能,大大降低了对数据的要求。
- 性能卓越:通过对齐中间特征,Turbo-VAED能够更好地学习到大型解码器的精髓,重建质量远超从头训练的小模型。
实验结果:性能与速度齐飞
研究者将Turbo-VAED应用于四种主流的视频VAE模型(Hunyuan-VAE, CogVideoX-VAE, Video DC-AE, LTX-VAE),进行了全面的评估。
结果显示,Turbo-VAED在各项指标上都取得了巨大成功:
- 大幅降低计算成本:参数量最多可降低至原始模型的 17.5%,有效解决了移动端的内存溢出问题。
- 惊人的加速效果:在GPU上,720p分辨率下的解码速度最高提升了 84.5倍。在iPhone 16 Pro上,相比之前的移动优化方案H3AE,实现了 2.9倍 的FPS提升。
- 高质量的重建与生成:在大幅加速的同时,视频的重建质量保留了原始模型的 96.9%,几乎没有视觉损失。如下图所示,由Turbo-VAED解码生成的视频(下图)与原始大型VAE生成的视频(上图)在视觉上几乎没有差异。
下表清晰地展示了Turbo-VAED版本与原始VAE在参数量、速度和性能上的对比,优势一目了然。
可视化结果
消融研究
总结与价值
Turbo-VAED的提出,为大型视频生成模型在移动设备上的部署提供了一个通用、高效且低成本的解决方案。它的核心价值在于:
- 提出了一套专为移动端优化的视频VAE解码器架构,通过3D深度可分离卷积和解耦式3D像素Shuffle等技术,有效解决了参数和延迟瓶颈。
- 验证了一种高效的解码器蒸馏训练方法,使得将现有高质量VAE迁移到移动端的成本变得极低,具有很高的实用价值。
- 首次实现了移动端720p视频的实时解码,这是一个里程碑式的成果,极大地推动了端侧AIGC视频应用的发展。
CV君认为,这项工作精准地抓住了当前AIGC领域从云端走向端侧的关键痛点。它没有试图重新发明轮子,而是通过巧妙的“涡轮增压”改造,让现有的强大模型能够在手机上“飞驰”,这种务实的工程思想和出色的优化效果,无疑将加速Sora级别模型在未来进入人类日常生活的进程。
#Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation
华盛顿大学新工作,医学图像分割的统一语义域适应
在医学图像分割领域,无监督域适应(Unsupervised Domain Adaptation, UDA)技术一直存在一个“路线之争”。研究者们通常兵分两路:一派是“源域可访问”(source-accessible)设定,在适配时同时利用源域和目标域数据进行对齐;另一派是“源域无访问”(source-free)设定,在只有预训练模型、没有源域数据的情况下,依靠伪标签等技巧进行适配。这两派方法的设计理念和技术管线差异巨大,仿佛在解决两个完全不同的问题。
今天要介绍的这篇论文 Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation
,就对这一长期存在的分歧发起了挑战。它提出了一个统一的、基于语义的框架,巧妙地弥合了上述鸿沟。其最核心的创新在于:模型的自适应能力不再依赖于任何手工设计的复杂策略,而是作为模型架构本身的“涌现”属性自然产生。
该框架通过学习一个“领域无关的概率流形”来构建通用的解剖学知识,并用一种解耦、可解释的方式来理解每张医学影像。实验结果令人振奋:该框架在两种设定下均取得了SOTA性能,并且 “源域无访问”设定的性能表现竟能紧密追近“源域可访问”设定,这种一致性在以往的研究中极为罕见,充分证明了其设计的优越性和泛化能力。
- 论文标题: Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation
- 作者: Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan
- 机构: 华盛顿大学、犹他大学
- 论文地址: https://arxiv.org/pdf/2508.08660v1
研究背景:域适应的“分裂”与“隔阂”
深度学习模型在医学图像分割上取得了巨大成功,但其性能高度依赖于与训练数据特征相似的测试数据。当遇到来自不同医院、不同设备或不同扫描协议的图像时(即发生“域偏移”),模型性能会急剧下降。UDA技术旨在解决这一问题,让模型能适应新的、无标注的目标域数据。
如前所述,UDA研究一直存在两大阵营:
- 源域可访问 (Source-Accessible, SA) :在适配阶段,可以同时访问有标签的源域数据和无标签的目标域数据。主流方法是通过对抗训练、统计对齐等方式,在特征空间或输出空间将两个域“拉近”。
- 源域无访问 (Source-Free, SF) :由于隐私或政策限制,适配阶段无法访问源域数据,只有一个在源域上预训练好的模型。主流方法依赖自训练,如利用模型的预测生成伪标签,或通过熵最小化等方式进行自我监督。
这两种设定催生了截然不同的方法论,彼此之间难以兼容。作者认为,这种“分裂”本身就揭示了一个深层缺陷:现有方法都缺乏一个显式的、结构化的解剖学知识构建过程。它们更多依赖于“数据驱动”的对齐策略,而不是像人类医生那样,基于对解剖学结构的先验知识来理解和适应新的图像。本文的目标正是要打破这种隔阂,建立一个统一且更符合人类认知机理的框架。
统一的语义化框架:从“设计策略”到“构建知识”
作者提出的新框架,其核心思想是模仿人类的视觉理解过程:首先建立一个关于解剖结构的通用知识体系,然后用这个体系去解释和适应新遇到的事物。这一思想通过一个精巧的概率图模型和网络架构得以实现。
核心思想:领域无关的解剖学概率流形
框架的核心是学习一个领域无关的概率流形(domain-agnostic probabilistic manifold)。可以将其通俗地理解为一个“全局解剖知识空间”。这个空间由一组可学习的、共享的“解剖学基元”(anatomical bases)构成,每个基元代表一种典型的、标准的器官形态或结构模式。整个流形(知识空间)就包含了这些基元所能组合出的所有可能的、符合解剖学规律的器官形态。
由于这个知识空间是在所有数据上共享学习的,它本身不依赖于任何特定的域(如特定的扫描仪或医院),因此是“领域无关”的。
解耦表示:标准解剖与个体几何
有了这个全局知识空间,模型在分析一张新的医学影像时,会将其结构内容解耦(disentangle)为两个部分:
- 标准解剖(Canonical Anatomy):从全局流形中“检索”出的一组标准解剖学基元的加权组合。这个组合出的形态代表了该影像最接近的“标准”解剖结构。
- 空间变换(Spatial Transformation):一个捕捉个体化几何特征的形变场。它负责将上述“标准”解剖形态进行扭曲、缩放、平移,以精确匹配当前影像中病人的真实、独特的解剖结构。
如下图所示,模型能清晰地将图像(Image x)分解为标准的解剖模板(Template z)和对应的形变场(Deformation φ⁻¹),最终得到精准的分割结果(Segmentation ŷ)。
这种解耦表示使得模型的预测具有了清晰的语义,并且因为其内在的解剖学先验,使得分割结果在结构上更加连贯、合理。
统一性的实现
为什么这个框架能统一SA和SF两种设定?关键在于,模型的适应性来源于其内在的、已经学习好的“解剖知识空间”(流形)。
- 在SA设定下,模型利用源域和目标域数据共同丰富和构建这个流形。
- 在SF设定下,模型首先在源域上构建好这个流形。当遇到目标域数据时,即使没有源域数据,模型依然可以利用这个已经内化的知识空间去理解和解释目标域图像,通过调整“标准解剖”的组合权重和“空间变换”来完成适配。
适配过程不再需要外部的对齐、伪标签等“策略”,而是变成了模型利用自身知识进行推理的自然结果。下图展示了该框架的整体网络架构。
实验结果:性能与可解释性双丰收
研究者在挑战性的心脏(MS-CMRSeg)和腹部(AMOS22)数据集上进行了广泛实验。
定量分析
如下表所示,无论是在SA还是SF设定下,该统一框架的性能在平均Dice和ASSD指标上都达到了SOTA水平。最引人注目的是,在SF设定下的性能与SA设定下的性能差距非常小。例如,在AMOS22数据集上,SA的Dice为89.7%,而SF的Dice高达87.0%,这证明了模型在没有源数据的情况下,依然能凭借其内在的解剖知识实现强大的自适应能力。
MS-CMRSEG数据集与最新方法的比较
AMOS22数据集与最新方法的比较
定性与可解释性分析
除了性能强大,该框架还具有出色的可解释性。研究者通过“流形遍历”(manifold traversal)来展示模型学到的知识。
- 图像间遍历:通过在两个不同图像(甚至来自不同域)的解剖表示之间进行平滑插值,模型可以生成一系列形态上连续、解剖学上合理的过渡分割结果。这证明了流形空间是平滑且有意义的。
-
- 基元间遍历:通过在两个“解剖学基元”之间进行插值,可以探索模型学到的基础形态。下图显示,这些基元之间的过渡同样是平滑且符合解剖学逻辑的。
-
这些可视化结果有力地证明,模型不仅仅是在“拟合数据”,而是在真正地“学习知识”。
消融研究
总结与价值
本文提出了一种统一且基于语义的UDA框架,为医学图像分割领域带来了重要的范式转变。其核心贡献在于:
- 统一了长期分裂的研究范式:首次提出了一个无需任何手工适配策略的统一框架,无缝支持源域可访问和源域无访问两种设定,并取得了SOTA性能。
- 引入了语义化的解剖学建模:通过学习领域无关的概率流形,并将解剖结构解耦为标准形态和个体几何,使模型的预测更鲁棒、更具可解释性。
- 实现了“架构即自适应”:将自适应能力内化为模型架构的固有属性,而不是依赖外部的、复杂的、不稳定的适配技巧,为UDA研究提供了全新的思路。
CV君认为,这项工作从一个更根本的视角审视了域适应问题,其“构建通用知识体系”的思想,相比于单纯的“对齐数据分布”,无疑是向着更通用、更鲁棒的人工智能迈出的重要一步。这种兼具高性能和强可解释性的方法,在临床应用中具有巨大的潜力。
#AI数钢筋
在社会智能化的发展趋势之下,越来越多的传统行业开始向着数字化的方向转型,而建筑行业也正经历着通过人工智能技术实现的改革。
钢筋是建筑业的重要材料,庞大的数量、工地现场环境复杂以及人工点验错漏等现实因素为钢筋点验工作制造了难度,那么如何才能快速且准确地完成对于整个建筑施工过程极为重要的钢筋点验工作环节呢?今天就带大家了解一下“AI数钢筋”——通过人工智能技术实现钢筋数量统计。
1 问题背景
钢筋数量统计是钢材生产、销售过程及建筑施工过程中的重要环节。目前,工地现场是采用人工计数的方式对进场的车辆装载的钢筋进行计数,验收人员需要对车上的钢筋进行现场人工点根,在对钢筋进行打捆后,通过不同颜色的标记来区分钢筋是否计数,在确认数量后钢筋车才能完成进场卸货,如图中所示:
这种人工计数的方式不仅浪费大量的时间和精力、效率低下,并且工人长时间高强度的工作使其视觉和大脑很容易出现疲劳,导致计数误差大大增加,人工计数已经不能满足钢筋生产厂家自动化生产和工地现场物料盘点精准性的需求,这种现状促使钢筋数量统计向着智能化方向发展。
所谓“AI数钢筋”就是,通过多目标检测机器视觉方法以实现钢筋数量智能统计,达到提高劳动效率和钢筋数量统计精确性的效果。目标检测算法通过与摄像头结合,可以实现自动钢筋计数,再结合人工修改少量误检的方式,可以智能、高效地完成钢筋计数任务。
2 算法介绍
2.1 目标检测介绍
首先,让我们一起了解一下什么是“目标检测”。
目标检测是对图像分类任务的进一步加深,目标检测不仅要识别出图片中各种类别的目标,还要将目标的位置找出来用矩形框框住。
目标检测结果如上图所示,将需要检测的目标检测出来并用边界框框出来,同时在框子上面显示出该目标属于该分类的一个得分情况。
2.2 目标检测算法的基本流程
目标检测实际上是要同时解决定位和识别两个问题。传统目标检测算法的基本流程是,首先给定待检测图片,对其进行候选框提取,候选框的提取是通过滑动窗口的方式进行的;再对每个窗口的局部信息进行特征提取;然后对候选区域提取出的特征进行分类判定,判断当前窗口中的对象是目标还是背景;最后采用非极大值抑制(Non-Maximum Suppression,NMS)方法进行筛选,去除重复窗口,找出最佳目标检测位置。
2.3 算法选择
本次钢筋计数任务,将选择单阶段目标检测YOLO系列算法来完成。YOLO系列算法是目前使用最多的目标检测算法,它最大的特点就是检测速度快,并且现在检测精度(即mAP)也逐步提高,因而成为时下最热门的目标检测算法之一。YOLO系列算法一共有5个版本,其中YOLO v1到v3是由同一个作者Joseph设计的,YOLO v4到v5则由其他作者设计,目前YOLO v1到YOLO v4已有相关论文和算法结构设计,而YOLO v5仅有算法结构设计,尚无论文发表,为此我们选择这一较新的YOLO v5算法作为本次钢筋计数算法研究的对象。
YOLO算法是将目标检测问题转化为回归问题,使用回归的思想,对给定输入图像,直接在图像的多个位置上回归出这个位置的目标边框以及目标类别。给定一个输入图像,将其划分为S*S的网格,如果某目标的中心落于网格中,则该网格负责预测该目标,对于每一个网格,预测B个边界框及边界框的置信度,包含边界框含有目标的可能性大小和边界框的准确性,此外对于每个网格还需预测在多个类别上的概率。在完成目标窗口的预测之后,根据阈值去除可能性比较低的目标窗口,最后NMS去除冗余窗口即可,整个过程非常简单,不需要中间的候选框生成网络,直接回归便完成了位置和类别的判定。下图是YOLO v5算法基本框架:
由上图可知,YOLO v5主要由输入端、Backbone、Neck以及Prediction四部分组成。其中各部分含义分别为:
Backbone:在不同图像细粒度上聚合并形成图像特征的卷积神经网络。
Neck:一系列混合和组合图像特征的网络层,并将图像特征传递到预测层。
Prediction(输出端):对图像特征进行预测,生成边界框和并预测类别。
YOLO v5各组成部分包括的基础组件有:
CBL:由Conv+BN+Leaky_relu激活函数组成
Res unit:借鉴ResNet网络中的残差结构,用来构建深层网络
CSP1_X:借鉴CSPNet网络结构,该模块由CBL模块、Res unint模块以及卷积层、Concate组成
CSP2_X:借鉴CSPNet网络结构,该模块由卷积层和X个Res unint模块Concate组成而成
Focus:首先将多个slice结果Concat起来,然后将其送入CBL模块中
SPP:采用1×1、5×5、9×9和13×13的最大池化方式,进行多尺度特征融合
YOLO v5各组成部分详细介绍
(1)输入端
YOLO v5使用Mosaic数据增强操作提升模型的训练速度和网络的精度;并提出了一种自适应锚框计算与自适应图片缩放方法。
1Mosaic数据增强
Mosaic数据增强利用四张图片,并且按照随机缩放、随机裁剪和随机排布的方式对四张图片进行拼接,每一张图片都有其对应的框,将四张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的框,然后我们将这样一张新的图片传入到神经网络当中去学习,相当于一下子传入四张图片进行学习了。该方法极大地丰富了检测物体的背景,且在标准化BN计算的时候一下子计算四张图片的数据,所以本身对batch size不是很依赖。
2自适应锚框计算
在YOLO系列算法中,针对不同的数据集,都需要设定特定长宽的锚点框。在网络训练阶段,模型在初始阶段,模型在初始锚点框的基础上输出对应的预测框,计算其与GT框之间的差距,并执行反向更新操作,从而更新整个网络的参数,因此设定初始锚点框是比较关键的一环。
在YOLO v3和YOLO v4中,训练不同的数据集,都是通过单独的程序运行来获得初始锚点框。而在YOLO v5中将此功能嵌入到代码中,每次训练时,根据数据集的名称自适应的计算出最佳的锚点框,用户可以根据自己的需求将功能关闭或者打开,指令为:
3自适应图片缩放
在目标检测算法中,不同的图片长宽都不相同,因此常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中。而原始的缩放方法存在着一些问题,由于在实际的使用中的很多图片的长宽比不同,因此缩放填充之后,两端的黑边大小都不相同,然而如果填充的过多,则会存在大量的信息冗余,从而影响整个算法的推理速度。为了进一步提升YOLO v5的推理速度,该算法提出一种方法能够自适应的添加最少的黑边到缩放之后的图片中。具体的实现步骤如下所述:
① 根据原始图片大小以及输入到网络的图片大小计算缩放比例
②根据原始图片大小与缩放比例计算缩放后的图片大小
③计算黑边填充数值
其中,416表示YOLO v5网络所要求的图片宽度,312表示缩放后图片的宽度。首先执行相减操作来获得需要填充的黑边长度104;然后对该数值执行取余操作,即104%32=8,使用32是因为整个YOLOv5网络执行了5次下采样操作。最后对该数值除以2,也就是将填充的区域分散到两边。这样将416*416大小的图片缩小到416*320大小,因而极大地提升了算法的推理速度。
(2)Backone 网络
1Focus结构
Focus对图片进行切片操作,具体操作是在一张图片中每隔一个像素拿到一个值,类似于邻近下采样,这样就拿到了四张图片,四张图片互补,长的差不多,但是没有信息丢失,因此将W、H信息就集中到通道空间,输入通道扩充了4倍,即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道,最后将得到的新图片再经过卷积操作,最终得到了没有信息丢失情况下的二倍下采样特征图。如下图所示,原始输入图片大小为608*608*3,经过Slice与Concat操作之后输出一个304*304*12的特征映射;接着经过一个通道个数为32的Conv层,输出一个304*304*32大小的特征映射。
2CSP结构
CSPNet主要是将feature map拆成两个部分,一部分进行卷积操作,另一部分和上一部分卷积操作的结果进行concate。在分类问题中,使用CSPNet可以降低计算量,但是准确率提升很小;在目标检测问题中,使用CSPNet作为Backbone带来的提升比较大,可以有效增强CNN的学习能力,同时也降低了计算量。YOLO v5设计了两种CSP结构,CSP1_X结构应用于Backbone网络中,CSP2_X结构应用于Neck网络中。
(3)Neck网络
在YOLO v4中开始使用FPN-PAN。其结构如下图所示,FPN层自顶向下传达强语义特征,而PAN塔自底向上传达定位特征。
YOLO v5的Neck仍采用了FPN+PAN结构,但是在它的基础上做了一些改进操作,YOLO v4的Neck结构中,采用的都是普通的卷积操作,而YOLO v5的Neck中,采用CSPNet设计的CSP2结构,从而加强了网络特征融合能力。
(4)输出端
YOLO v5采用CIOU_LOSS 作为bounding box 的损失函数,分类分支采用的loss是BCE,conf分支也是BCE。
YOLO v5中最有亮点的改变是对正样本的定义。在YOLO v3中,其正样本区域也就是anchor匹配策略非常粗暴:保证每个gt bbox一定有一个唯一的anchor进行对应,匹配规则就是IOU最大,并且某个gt一定不可能在三个预测层的某几层上同时进行匹配。然而,我们从FCOS等论文中了解到,增加高质量的正样本anchor能够加速模型收敛并提高召回。因此,YOLO v5对此做出了改进,提出匹配规则:
采用shape匹配规则,分别将ground truth的宽高与anchor的宽高求比值,如果宽高比例小于设定阈值,则说明该GT和anchor匹配,将该anchor认定为正样本。否则,该anchor被滤掉,不参与bbox与分类计算。
将GT的中心最邻近网格也作为正样本anchor的参考点。因此,bbox的xy回归分支的取值范围不再是0-1,而是-0.5-1.5(0.5是网格中心偏移),因为跨网格预测了
YOLO v5算法目前根据网络大小分为5n、5s、5m、5l、5x,具体参数量大小、单帧、检测速度和mAP如下图所示。
3训练模型
3.1 数据集选择
我们选择公开钢筋计数数据集进行模型训练,可以从以下网址中获取数据集进行测试。
在上述数据集中,钢筋数据来自现场手机采集。钢筋车辆进库时,使用手机拍摄成捆钢筋的截面(一般保证较小倾角,尽量垂直于钢筋截面拍摄)。数据会包含直径从12mm-32mm等不同规格的钢筋图片。数据集中用于训练的图像集合共250张,用于测试的图像集合共200张。
由于选择的数据集规模较小且仅有一类检测目标(钢筋),为降低模型训练难度,防止模型出现过拟合,所以算法模型选择较小的yolov5s模型。如果选择不同的数据集,也可根据所选数据集的实际情况来选择算法模型。
3.2 模型训练
首先在以下网址获取YOLO v5算法的源码:
https://github.com/ultralytics/yolov5
其中所包含的项目文件有:
data:主要是存放一些超参数的配置文件以及官方提供测试的图片。
models:里面主要是一些网络构建的配置文件和函数,其中包含了该项目的五个不同的版本,分别为是5n、5s、5m、5l、5x。
utils:存放的是工具类的函数,里面有loss函数,metrics函数,plots函数等等。
weights:放置训练好的权重参数。
detect.py:利用训练好的权重参数进行目标检测,可以进行图像、视频和摄像头的检测。
train.py:训练自己的数据集的函数。
test.py:测试训练的结果的函数。
requirements.txt:yolov5项目的环境依赖包
YOLO v5各组成部分详细介绍
接下来就要进行模型训练的具体操作,训练主要包括环境搭建、数据集准备及修改数据集配置、修改模型配置参数、下载预训练模型、开始训练以及模型测试这几个步骤。接下来依次对上述步骤展开介绍。
(1)环境搭建
我们需要创建一个虚拟环境,打开conda powershell prompt创建一个用于训练的虚拟环境:
conda create -n yolov5 pythnotallow==3.8
然后激活虚拟环境安装所需模块(注意安装之前需要切换工作路径至yolov5文件夹)
python -m pip install -r requirements.txt -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple
如果没有安装cuda默认安装pytorch-cpu版,如果有gpu可以安装pytorch-gpu版。
(2)数据集准备及修改数据集配置
首先将下载好的数据集分类并按如下方式存储:
然后对数据集配置进行修改,修改data目录下的相应的yaml文件。找到目录下的coco.yaml文件,将该文件复制一份,将复制的文件重命名。
打开这个文件夹修改其中的参数,修改结果如下图所示:
其中第一个框的位置填写训练集测试集和验证集的目录地址,第二个框的位置填写检测目标类别数,第三个框填写待检测类别。
(3)修改模型配置参数
由于我们最后选择yolov5s这个模型训练,并且使用官方yolov5s.pt预训练权重参数进行训练,所以需要修改模型配置文件。和上述修改data目录下的yaml文件一样,最好将yolov5s.yaml文件复制一份,然后将其重命名。
然后对重命名文件进行修改,修改第一行检测目标类别数。
(4)下载预训练模型
我们需要在官网下载所需预训练模型,即在预训练模型地址(https://github.com/ultralytics/)中选择所需要的模型下载即可,这里我们选择下载yolov5s.pt。
模型下载完成后,将模型文件xx.pt复制到yolov5文件夹下。
(5)开始训练
在Yolov5文件夹下打开终端输入以下命令:
Python train.py --weights yolov5s.pt --data data/gangjin.yaml --workers 1 --batch-size 8
至此,模型训练正式开始。
(6)模型测试
在模型训练完成后,将runs/exp/weights下的模型(best.pt)复制到yolov5文件夹下。
然后开始进行模型测试:
python detect.py --weights best.pt --source ../datasets/gangjin/images/val --save-txt
其中,--weights best.pt是训练好的模型路径,--source:是测试的数据路径。测试结果保存在runs/detect/exp文件夹下。
4测试结果及问题分析
4.1 测试结果
本算法的输入为较为清晰的成捆钢筋图片,例如输入以下图片:
算法的输出结果为result.txt文件与预测结果图,其中result.txt文件中会显示图片中每个检测框的位置、类别及置信度,并给出检测框的总个数,从而实现了钢筋自动计数。预测结果图如下:
从以上测试结果可以看出,YOLO v5算法对于该场景中的钢筋计数具有很好的准确性,并且有较大的置信度。
对更多的图片场景进行钢筋计数,并将输入的实际位置与识别出的效果图进行对比,观察YOLO v5算法对于该场景的计数效果。
上图中,左图为输入成捆钢筋,右图为数识别出的效果图,方框上数字为置信度。从以上测试结果可以看出,YOLO v5算法对于该场景中的钢筋计数同样具有很好的准确性以及较大的置信度。
4.2 问题分析
当然YOLO v5算法并非十全十美,它在钢筋检测中也存在一定的问题:
算法存在误判,将其他物体误判为钢筋头:
重复检测,一个钢筋头被多个检测框标注:
5总结
以上就是对于数钢筋问题的介绍,主要从问题背景、算法介绍和训练模型三部分展开。首先简述了数钢筋问题的基本背景,然后介绍了目标检测算法的算法流程和选取的YOLO v5算法的基本知识,最后介绍了模型训练步骤,并选取一定的数据集,采用YOLO v5算法对输入的图像进行目标检测及计数。
#Stable Diffusion Models are Secretly Good at Visual In-Context Learning
无需微调,Stable Diffusion解锁视觉上下文学习新范式
近日,来自苹果公司和马里兰大学的研究团队发表了一篇引人注目的论文,题为《Stable Diffusion Models are Secretly Good at Visual In-Context Learning》。该研究发现,所熟知的预训练文本到图像生成模型——Stable Diffusion,无需任何额外的微调,就“秘密”地具备了强大的视觉上下文学习(Visual In-Context Learning, V-ICL)能力。
研究团队提出了一种创新的“就地注意力重新计算”方法,直接在Stable Diffusion的U-Net架构内部修改注意力机制,从而使其能够理解并执行基于少数几个示例(few-shot examples)的复杂视觉任务。实验结果惊人,该方法在前景分割、目标检测、边缘检测、上色等六种不同的视觉任务上都表现出色,在部分任务上的性能甚至超越了需要专门训练的现有方法。例如,在Pascal-5i数据集的前景分割任务上,其mIoU指标比Visual Prompting和IMProv等近期成果分别高出 8.9% 和 3.2% 。这一发现揭示了扩散模型尚未被充分挖掘的“涌现能力”,为计算机视觉领域的少样本学习开辟了新的道路。
- 论文标题:Stable Diffusion Models are Secretly Good at Visual In-Context Learning
- 作者:Trevine Oorloff, Vishwanath Sindagi, Wele Gedara Chaminda Bandara, Ali Shafahi, Amin Ghiasi, Charan Prakash, Reza Ardekani
- 机构:苹果公司、马里兰大学
- 论文地址:https://arxiv.org/pdf/2508.09949v1
- 会议录用:Accepted to ICCV 2025
研究背景与意义
上下文学习(In-Context Learning, ICL)是大型语言模型(LLM)的核心能力之一,它允许模型通过几个输入示例(“in-context” examples)来快速适应新任务,而无需更新模型参数。这一能力极大地提升了LLM的通用性和易用性。
研究者们一直希望将这种强大的学习范式迁移到计算机视觉领域,即视觉上下文学习(V-ICL)。然而,现有的V-ICL方法通常面临两大挑战:
- 需要专门训练:大多数方法需要在大规模、精心组织的“上下文-目标”图像对数据集上进行专门的预训练,这增加了实现的复杂性。
- 泛化性受限:专门的训练可能导致模型在训练数据分布之外的任务上泛化能力不足。
现有V-ICL方法(上)通常需要专门的训练,而本文方法(下)直接利用“开箱即用”的Stable Diffusion模型,无需额外训练。
本文的突破之处在于,它证明了像Stable Diffusion这样的预训练生成模型,其内部已经蕴含了执行V-ICL的潜在能力。研究者要做的不是从头训练一个新模型,而是设计一种巧妙的方法来“解锁”并引导这种能力。这不仅大大简化了V-ICL的实现流程,也为利用现有的大规模预训练模型解决新问题提供了全新的视角。
核心方法:就地注意力重新计算
为了在不微调模型的前提下实现V-ICL,作者提出了一种名为 就地注意力重新计算(in-place attention re-computation) 的核心机制。该机制直接作用于Stable Diffusion U-Net去噪网络中的自注意力层。
自注意力机制通过计算查询(Query)、键(Key)和值(Value)之间的关系来更新特征表示。本文方法巧妙地重新定义了这三者的来源:
- 查询 (Query) :来自需要处理的 查询图像C 的特征。
- 键 (Key) :来自示例 提示图像A 的特征。
- 值 (Value) :来自示例 提示图像的真值B (例如,分割掩码)的特征。
通过这种方式,模型在处理查询图像C的每个部分时,都会去参考提示图像A与真值B之间的“映射关系”。例如,在分割任务中,模型会学习“在A中这个样子的像素,在B中对应的是前景”,然后将这个“知识”应用到C上,从而预测出最终的分割结果D。
方法流程图:在去噪过程的每一步,通过修改自注意力层的计算,将示例提示(A和B)中的上下文信息注入到查询图像(C)的处理过程中,最终生成预测结果(D)。
整个过程在标准的DDIM逆向和去噪采样流程中进行,无需对模型权重进行任何修改。这种“即插即用”的特性是该方法最大的亮点之一。
实验设计与结果分析
为了验证方法的有效性和通用性,研究团队在六个差异巨大的视觉任务上进行了广泛的实验,包括:
- 前景分割
- 单目标检测
- 语义分割
- 关键点检测
- 边缘检测
- 上色
定性结果
从可视化的结果来看,该方法生成的预测图在各种任务上都展现了很高的质量,其结果在视觉上通常优于需要专门训练的Visual Prompting和IMProv等基线模型。
在六种不同任务上的定性比较,本文方法(最右列)的结果在视觉上更优越。
定量结果
在定量评估中,该方法同样表现出色。下表展示了与多个基线模型的性能对比。特别是在前景分割和单目标检测任务上,本文方法取得了目前最优的性能。
在六大任务上的定量比较,本文方法在多项指标上领先。
此外,研究还发现,通过集成多个提示(prompt-ensembling),可以进一步稳定和提升模型的性能。如下图所示,使用5个提示示例通常能比单个提示带来更显著的性能增益,尽管这会牺牲一些推理速度。
增加提示数量(左图)和去噪步数(右图)对模型性能和推理速度的影响。
论文贡献与价值
CV君认为,这篇论文的核心贡献在于:
- 新发现:首次系统性地证明了“开箱即用”的预训练扩散模型(Stable Diffusion)内部就存在强大的视觉上下文学习(V-ICL)能力,打破了V-ICL必须依赖专门训练的传统认知。
- 新方法:提出了一种简单而有效的“就地注意力重新计算”机制,作为一种“即插即用”的模块,无需微调即可解锁和引导扩散模型的V-ICL能力,极大地降低了技术门槛。
- 卓越的性能:在多个基准测试中取得了SOTA或具有竞争力的结果,展示了该方法在多种视觉任务上的通用性和有效性。
- 新的研究方向:该工作为计算机视觉领域开辟了一个激动人心的新方向——探索和利用大规模预训练生成模型中尚未被发现的“涌现能力”,而不是仅仅将其用作数据生成器。这启发社区重新思考如何利用现有的基础模型来解决更广泛的视觉问题。
总而言之,这项研究不仅为视觉上下文学习提供了一个简洁、高效且强大的新范式,也深刻地揭示了大规模生成模型背后隐藏的巨大潜力。
#DINOv3
震撼发布:Meta AI的视觉巨兽,重新定义自监督学习
今天要介绍的论文是刚刚发布的 DINOv3 ,这不仅是DINO系列(DINO, DINOv2)的最新力作,更是一份宣告自监督学习(Self-supervised learning, SSL)迈向新高度的技术报告。DINOv3旨在打造一个通用的视觉基础模型,它无需任何人工标注,就能从海量、多源(从自然图像到卫星航拍图)的原始图像中学习,其生成的特征在各类视觉任务上,无需微调即可达到甚至超越专门领域的SOTA模型。
- 论文标题:DINOv3
- 作者:Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, 等26位研究者
- 机构:Meta AI Research; WRI;Inria
- 论文地址:https://arxiv.org/pdf/2508.10104v1
- 代码及模型:https://github.com/facebookresearch/dinov3
DINOv3:迈向通用视觉基础模型的又一里程碑
自监督学习(SSL)的终极愿景是摆脱对人工标注的依赖,让模型能从无尽的非结构化数据中自我学习,从而轻松扩展到更大的模型和数据集。DINOv3正是朝着这个宏伟目标迈出的坚实一步。
如下图所示,SSL方法在ImageNet分类任务上的性能已迅速追平甚至超越了传统的监督学习(SL)和弱监督学习(WSL)。更重要的是,DINOv3证明了SSL在密集特征(dense features)上的独特潜力,在分割、深度估计等任务上,其性能显著优于之前的SOTA模型。
DINOv3的成功主要建立在三大支柱之上:
- 精心策划的规模化:通过细致的数据准备、模型设计和训练优化,充分释放了数据和模型规模扩张带来的红利。
- 核心技术创新Gram Anchoring:提出了一种名为“格拉姆锚定”(Gram anchoring)的新方法,有效解决了困扰大模型长时间训练的密集特征图退化问题。
- 强大的后处理策略:应用多种后处理技术,进一步增强了模型在分辨率、模型尺寸和文本对齐方面的灵活性。
最终,DINOv3不仅是一个模型,而是一个强大的视觉模型家族,为不同资源和部署场景提供了可扩展的SOTA解决方案。
DINOv3的三大支柱1. 规模的力量:精心策划的数据与模型扩展
- 数据:DINOv3的训练没有简单地堆砌数据,而是采用了精细的策略。研究团队从一个包含约170亿张图片的原始池中,通过聚类和检索等方法,精心构建了一个包含16.89亿张高质量图片的LVD-1689M数据集,并混合了ImageNet等公开数据集,以平衡通用性与下游任务性能。
- 模型架构:研究团队将模型规模推向了新的高度,构建了一个包含 70亿(7B) 参数的ViT模型。与DINOv2相比,DINOv3的教师模型不仅参数量大幅增加,还采用了RoPE位置编码等新技术,以更好地处理不同分辨率和长宽比的图像。
2. 核心创新:Gram Anchoring解决特征退化难题
这是DINOv3最核心的技术贡献。研究者发现,在对大模型进行长时间训练时,虽然分类等全局任务的性能会持续提升,但分割等密集预测任务的性能在训练初期达到顶峰后会开始下降。
这种性能退化源于补丁级别(patch-level)特征一致性的丧失。随着训练的进行,特征图变得越来越“嘈杂”,失去了清晰的局部结构。
为了解决这个问题,DINOv3引入了 Gram Anchoring 。其思想是:将模型在训练早期的检查点(checkpoint)作为“Gram教师”,这个时期的模型具有优良的密集特征。然后,在后续的训练中,引入一个新的损失项——Gram损失,该损失项强制当前模型(学生)的特征图的格拉姆矩阵(Gram matrix)与“Gram教师”的格拉姆矩阵保持一致。
格拉姆矩阵捕捉了特征通道之间的二阶统计量,即特征的相关性结构。通过锚定这个结构,DINOv3可以在不直接限制特征值本身的情况下,有效保持特征图的局部一致性,从而“修复”退化的密集特征,并大幅提升相关任务的性能。
3. 灵活多变:强大的后处理适应策略
预训练完成后,DINOv3还采用了一系列后处理策略来打造一个灵活易用的模型家族:
- 高分辨率适应:通过一个简短的、使用混合分辨率输入的训练阶段,使模型能够无缝处理各种尺寸的输入图像,并生成极其清晰、语义丰富的高分辨率特征图。
- 模型蒸馏:为了让强大的7B模型能够在资源受限的设备上使用,团队设计了一种高效的“多学生并行蒸馏”流程,将7B教师模型的知识压缩到ViT-S/B/L/H+以及ConvNeXt等一系列更小的学生模型中,极大地降低了部署成本。
- 文本对齐:通过LiT(Locked-image Text tuning)范式,将DINOv3的视觉编码器与文本编码器对齐,使其具备强大的零样本图文理解能力。
全面领先的性能表现
DINOv3在极其广泛的视觉任务上都展现出了卓越的性能,这里仅列举几例:
惊艳的高分辨率密集特征
DINOv3能够生成前所未有的高质量密集特征。无论是普通的物体,还是结构复杂的场景,甚至是卫星图像,DINOv3都能在极高的分辨率下(如4096x4096)捕捉到清晰的语义边界和细节。
密集预测任务新王者
在语义分割、深度估计等密集预测任务上,DINOv3(7B模型)以冻结骨干网络的方式,仅通过训练一个线性分类器,就在ADE20k、NYUv2等多个基准上大幅超越了包括DINOv2、SigLIP 2在内的所有先前模型。
广泛的下游任务验证
从3D关键点匹配、无监督物体发现,到视频中的分割追踪,再到目标检测和地理空间数据分析,DINOv3几乎在所有评估过的任务上都设立了新的SOTA,展示了其作为通用视觉基础模型的强大潜力。
总结与展望
DINOv3 是自监督学习领域的一个重要里程碑。它通过精心设计的数据和模型扩展策略,特别是创新的 Gram Anchoring 方法,成功地将自监督视觉模型推向了前所未有的规模和性能高度。
DINOv3的发布,不仅为社区提供了一套性能卓越、灵活多样的视觉模型,更重要的是,它证明了自监督学习有潜力彻底改变视觉表示学习的方式,真正实现“一个模型,通用万物”的愿景。CV君相信,DINOv3将极大地推动计算机视觉在科研和工业应用中的发展。
#ConverseNet
当卷积可以“反向”时,图像恢复会发生什么?
在神经网络的世界里,卷积(Convolution)和转置卷积(Transposed Convolution)是构建模型的基石。然而,一个长期存在的事实是:常用于上采样的转置卷积,并非卷积在数学意义上的“真逆”。这导致在需要精确反转卷积操作的场景下,现有工具存在固有局限性。
近日,来自南京大学、香港理工大学和OPPO研究院的研究者们,向这一基础性问题发起了挑战。他们在一篇名为《Reverse Convolution and Its Applications to Image Restoration》的论文中,首次提出了一种新颖的 深度可分离反向卷积(depthwise reverse convolution) 算子,并基于此构建了名为 ConverseNet 的新型网络架构,在多个图像恢复任务中展现了其有效性。该工作已被计算机视觉顶级会议 ICCV 2025接收。
- 论文标题: Reverse Convolution and Its Applications to Image Restoration
- 作者: Xuhong Huang, Shiqi Liu, Kai Zhang, Ying Tai, Jian Yang, Hui Zeng, Lei Zhang
- 机构: 南京大学、香港理工大学、OPPO研究院
- 论文地址: https://arxiv.org/pdf/2508.09824v1
- 项目地址: https://github.com/cszn/ConverseNet
研究背景:为何需要“真正的”反向卷积?
在深度学习中,卷积通常用于特征提取和下采样,而转置卷积则用于上采样。尽管功能上看似互补,但转置卷积的数学形式决定了它并非卷积的严格逆运算。如下图所示,标准卷积和转置卷积将卷积核作用于输入,而论文提出的反向卷积则是将卷积核作用于输出以重构输入,这在概念上更接近“逆”操作。
虽然图像去模糊任务中的“解卷积”(Deconvolution)与反向卷积思想相近,但它们通常需要迭代优化,且主要针对特定的模糊核,难以作为通用算子集成到神经网络中。此外,可逆卷积(Invertible Convolution)虽然能实现精确可逆,但其严格的约束限制了其在通用网络架构中的应用。因此,开发一种数学上严谨且灵活通用的反向卷积算子,仍然是一个开放且有价值的研究方向。
方法详解:从反向卷积算子到ConverseNet
深度可分离反向卷积算子 (Converse2D)
本文的核心贡献是提出了一个深度可分离反向卷积算子,研究者将其命名为 Converse2D。其基本思想是将反向卷积问题构建为一个带正则化的最小二乘优化问题。给定一个经过深度可分离卷积和下采样后的输出特征图Y和卷积核K,目标是求解出最能重构出Y的原始输入特征图X。
该优化问题被巧妙地推导出了一个闭式解(closed-form solution),这意味着反向卷积的计算无需迭代,可以在单一步骤内高效完成。这使其有潜力成为一个像标准卷积一样即插即用的基础模块。作者还对该算子的关键实现细节,如卷积核初始化、填充策略、正则化参数等进行了深入研究,确保了其稳定性和有效性。反向卷积模块 (Reverse Convolution Block)
单个的Converse2D算子只处理空间维度的依赖,缺乏通道间的交互能力。为了构建一个功能完备的模块,研究者借鉴了Transformer的设计思想,将Converse2D算子与层归一化(Layer Normalization)、1x1卷积和GELU激活函数结合,构建了一个反向卷积模块。
如下图所示,该模块清晰地分离了空间处理(由Converse2D负责)和通道处理(由1x1卷积负责),结构简洁而高效。
ConverseNet:即插即用的新架构
有了反向卷积模块这个强大的“积木”,构建新的网络架构——ConverseNet——就变得水到渠成。研究者们通过直接替换现有经典图像恢复模型(如DnCNN, SRResNet, USRNet)中的卷积或转置卷积层,构建了三个ConverseNet变体,分别用于图像去噪、超分辨率和去模糊任务。
实验与结果
研究者在多项图像恢复任务上对ConverseNet进行了全面评估。
高斯去噪:在去噪任务中,Converse-DnCNN相比于使用标准卷积和转置卷积的同等变体,在Set12和BSD68数据集上均取得了更高的PSNR值,证明了反向卷积算子的有效性。
从下图的视觉效果对比可以看出,Converse-DnCNN能够有效去除噪声,并且不会像传统解卷积方法那样容易产生边界伪影。
超分辨率:在超分辨率任务中,Converse-SRResNet的性能与经典的SRResNet以及其他变体相当。这表明Converse2D作为一个上采样模块,其性能不亚于现有的成熟方案(如PixelShuffle),具备了作为标准上采样模块的潜力。
图像去模糊:在非盲去模糊任务中,Converse-USRNet的表现优于其直接对标的Conv-USRNet。这主要得益于Converse2D算子能够将模糊核信息作为条件直接整合到特征级别的计算中,提供了更强的灵活性和学习能力。
论文贡献与价值
CV君认为,这篇论文的核心价值在于其开创性和基础性。
- 提出首个反向卷积算子:论文首次尝试并成功实现了一个可作为深度可分离卷积逆运算的算子,并给出了高效的闭式解,填补了神经网络基础算子库中的一个理论空白。
- 提供新的网络设计思路:基于该算子构建的ConverseNet证明了直接替换现有网络组件的可行性,为设计新型、高效的神经网络架构提供了新的思路和基础模块。
- 潜力广泛:尽管本文主要在图像恢复任务上进行验证,但作为一个通用的基础算子,反向卷积未来有望被扩展到更大规模的视觉模型和更复杂的生成任务中,如图像合成等。
总而言之,这项工作为深度学习领域引入了一个数学上更严谨、功能上更灵活的基础构建模块,有望为未来的模型设计与应用开辟新的道路。
#Meta Dino-V3
我关注 DINO 系列模型已经有一段时间了。主要是因为它们得到了许多视觉模型甚至没有尝试过的事情:在没有监督的情况下为您提供密集的特征。
DINOv1 很酷。DINOv2 掀起了波澜。DINOv3 呢?
这是 Meta 试图构建一个视觉基础模型,该模型可以学习它需要了解的有关图像的所有信息......没有单一标签。它确实有效。
没有标签。没有微调。仍然是 SOTA。
让我们从它最擅长的事情开始。DINOv3 不仅仅学习全局内容,例如“这是一只猫”与“这是一台烤面包机”。
它学习密集的特征。含义:图像中的每个补丁、每个区域都带有语义上有意义的东西。
这对于分割、对象跟踪、深度估计、3D 匹配等内容来说是巨大的。所有这些都无需微调。您只需冻结模型并使用输出即可。
这是我见过的第一个在密集任务上真正击败 CLIP 或 SAM 等模型的 SSL 模型,尽管这些模型是通过监督或文本标签进行训练的。
大规模构建:7B 参数,从头开始
核心模型是 70 亿参数的 Vision Transformer (ViT-7B)。这不是你在笔记本电脑上随意运行的东西,但 Meta 做到了。他们没有使用 JFT-300M 或 LAION、标签或 Web 元数据。只是原始图像,其中 170 亿张,是从 Instagram 上抓取的。
而且也不是随机扔在一起的。他们使用以下方法整理数据:
分层 k 均值聚类,确保视觉多样性
基于检索的抽样,以获得概念上相关的样本
加入一点 ImageNet 以实现平衡
因此,这不是“将所有东西都倾倒到训练箱中”的方法。它经过调整、平衡且大。
致密特征无塌陷,革兰氏锚定
这是具有密集特征的东西。训练模型的时间过长,尤其是大型模型,您的补丁特征就会开始变得奇怪。噪声过多。过于光滑。有时他们只是崩溃了。
为了阻止这种情况,Meta 引入了一种叫做 Gram Anchoring 的东西。
什么是Gram Anchoring?
这是一种新型的损失函数,它迫使补丁特征之间的相似性结构在长时间训练期间保持稳定。基本上,该模型将其当前的补丁相似性与早期、更一致的检查点的补丁相似性进行比较。它不在乎特征是否稍微漂移,只要补丁之间的关系保持干净即可。
这个技巧修复了影响 DINOv2 和其他 SSL 模型的功能降级。它可以解锁长时间训练,即使是在 7B 参数庞然大物上也是如此。
适用于高分辨率输入
大多数模型都以 224x224 或 256x256 分辨率进行训练。但随后人们向他们投掷 1024 像素的图像,并期望清晰的分割。除非你调整模型,否则不会发生。
DINOv3 获得训练后高分辨率调优阶段。它们以 512、768 甚至更高的速度喂入作物,并使用 Gram 锚定调整模型。这使得模型在分辨率上向上泛化。
所以现在你可以向它投掷 4K 分辨率的卫星图像、航空地图或密集的街景,而且它不会分崩离析。您仍然可以在图像中获得可用的功能。
Frozen Backbone,许多任务,无需微调。
一旦训练完毕,DINOv3 就......工程。你不会微调。你不加头。你运行它,冻结输出,然后应用简单的线性层或KNN或光簇。就是这样。
以下是 DINOv3 表现得非常好的任务类型:
- 语义分割: ADE20k、Cityscapes、Pascal VOC,全部只需线性探头即可处理
- 单眼深度估计: 在 NYUv2 和 KITTI 等数据集上
- 3D对应匹配: 多视图一致性保持清晰,这有助于处理几何形状较多的内容
- 物体跟踪和视频理解: 贴片功能在帧间保持稳定
在所有这些中,它的性能都优于 DINOv2、CLIP 风格的模型(如 SigLIP),甚至是最近的 AM-RADIO,它将 SAM + CLIP + DINOv2 合二为一。
蒸馏正确完成
如果你有果汁,完整的 7B 型号很棒。但 Meta 也将其提炼成实际可用的更小模型:
- ViT-S(21M 参数)
- ViT-B (86M)
- ViT-L (300M)
- ViT-H+ (800M)
他们甚至构建了一个多学生蒸馏设置,使他们能够并行训练所有这些学生,跨 GPU 重用教师的输出。智能使用计算。这些较小的型号保留了 7B 的大部分动力,尤其是在密集任务中。而且他们跑得很快。
如果需要,请添加文本
模型本身是纯粹的视觉。但是,如果您想要零样本分类或检索,您可以安装文本编码器。他们使用对比物镜(如 CLIP)将合并的视觉 + 补丁特征与文本对齐,同时保持视觉主干冻结。
这为您提供了全局 + 局部对齐,因此您不仅可以匹配“猫”,还可以在补丁级别匹配“条纹尾巴”或“胡须”。
为什么这个模型实际上很重要
这就是为什么 DINOv3 不仅仅是基准图表上的另一个凸起:
- 它打破了监督的需要。没有标签,没有替代文本,没有人机交互。只是原始像素。
- 它以同等的强度处理密集和全局任务。大多数模型都会选边站。这不是。
- 它可以扩展。训练不会在 7B 时崩溃。功能质量不会随着时间的推移而降低。
- 它概括了。适用于自然图像、鸟瞰图、医学扫描、生物学数据集,无需针对特定任务的微调。
它并不完美。您仍然需要一些 GPU 肌肉。但对于任何认真构建模型而不仅仅是使用其他人的 API 的人来说,DINOv3 是一个里程碑。
#InterSyn
告别“尬舞”,InterSyn交错式学习生成逼真多人交互动作
在虚拟现实、游戏开发和电影动画等领域,根据文本描述生成逼真的人体动作(Text-to-Motion)是一项关键技术。尽管现有的AI模型在生成单人动作(如行走、跳跃)方面已取得显著进展,但在模拟多人交互(如握手、拥抱、共舞)时,生成的动作往往显得僵硬、不协调,缺乏真实世界中人与人之间那种微妙而动态的互动感,被戏称为“AI尬舞”。
究其原因,以往的方法大多将“单人动作”和“多人交互”作为两个独立问题来处理,未能捕捉到现实中两者无缝衔接、动态交错的本质。针对这一痛点,一篇被 ICCV 2025 接收的论文提出了一种名为 InterSyn 的全新框架。InterSyn,即“交错式学习动作合成”,其核心思想是模仿真实的人类行为模式,通过一种 交错式学习策略,统一建模单人与多人互动,从而生成更自然、更协调、更真实的动态交互动作序列。
- 论文标题: InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild
- 作者: Yiyi Ma, Yuanzhi Liang, Xiu Li, Chi Zhang, Xuelong Li
- 机构: 清华大学 (Shenzhen);中国电信
- 论文地址: https://arxiv.org/pdf/2508.10297v1
- 项目主页: https://myy888.github.io/InterSyn/
- 录用会议: ICCV 2025
背景:为何AI的“双人舞”如此难学?
在现实世界中,人类的行为是在个人独立动作和与他人互动之间流畅切换的。例如,一个人可能正独自走着路,突然遇到朋友,然后停下来握手交谈,最后再转身离开。整个过程是一个连续、动态、无缝衔接的序列。
然而,传统的动作生成模型往往将“走路”(单人动作)和“握手”(交互动作)分开建模和学习。这种割裂的处理方式导致模型无法理解两者之间的自然过渡和动态协调,生成的动作序列因此常常出现不连贯、不协调的“尬舞”场面。InterSyn框架的提出,正是为了打破这种割裂,让AI学会像真人一样,将单人与多人动作自然地“交织”在一起。
InterSyn框架:两阶段生成逼真交互
InterSyn框架采用了一个两阶段的精巧设计,来模拟复杂的动态交互过程。
阶段一:交错式交互合成 (INS)
INS (Interleaved Interaction Synthesis) 模块是整个框架的基石。它的核心任务是在一个统一的范式下,联合建模单人动作和多人交互行为,从而生成一个灵活、逼真的初步“动作草稿”。
- 统一建模: 该模块使用一个条件运动扩散模型(Conditional Motion Diffusion Model),将单人动作序列和多人交互动作序列进行“交错”融合,形成一个统一的训练序列。这使得模型能够学习到从独立行为到互动行为的平滑过渡。
- 第一人称视角: 一个有趣的创新点是,该模块从第一人称视角来联合建模,作者认为这有助于更好地支持多角色的互动。
阶段二:相对协调性优化 (REC)
REC (Relative Coordination Refinement) 模块则扮演着“舞蹈指导”的角色。它接收来自INS模块的“动作草稿”,并对其进行精细打磨,重点优化角色之间的相互动态,确保动作的同步性和协调性。
- 协调器网络: 该模块采用一个“协调器”(Coordinator)网络,专门学习和优化角色之间的相互关系。例如,在“握手”这个动作中,协调器会确保两人的手臂在正确的时间以正确的方式接触,并调整身体姿态以响应对方的动作。
通过“INS生成草稿 + REC精细优化”的两步流程,InterSyn能够生成既符合各自文本描述,又在交互层面高度协调和同步的动作序列。
实验结果:更逼真、更多样
研究者们在多个数据集上进行了实验,结果有力地证明了InterSyn的优越性。
定量分析:
在一个统一了单人和多人动作的混合测试集上,InterSyn在多项关键指标上都取得了显著的提升,包括文本-动作对齐的精度(R Precision)、生成动作的真实性(FID)和多样性(Diversity)等。
定性对比:
视觉效果的对比更加直观。如下图所示,对于“两人见面并打招呼”的场景,传统方法(FreeMotion)生成的动作(蓝色高亮)可能只是简单地将两个独立的动作拼在一起,显得生硬。而InterSyn生成的动作(红色高亮)则更加生动自然,角色之间有更细腻的互动和姿态调整。
下图进一步展示了InterSyn在处理“单人行走”与“双人击臂”交错序列时的流畅过渡,效果远胜于之前的方法。
总结与价值
InterSyn框架为动态、自然的多人交互动作合成领域树立了新的标杆。其核心价值在于:
- 提出了新颖的交错式学习范式: 打破了以往将单人与多人动作分离处理的局限,更真实地模拟了现实世界中人类行为的动态性与连续性。
- 设计了高效的两阶段生成框架: 通过INS模块统一建模和REC模块精细协调的策略,有效提升了生成动作的真实感、多样性和协调性。
- 树立了新的技术基准: 在多个评估指标上超越了现有方法,为后续研究提供了强有力的基线和新的思路。
作者承诺未来将开源代码,这无疑将进一步推动该领域的发展。从虚拟角色到数字人,InterSyn让我们离那个能够生成真正“有灵魂”的交互动作的未来又近了一步。
#视觉强化学习最新综述
全领域梳理(新加坡国立&浙大&港中文)
当RLHF“卷入”计算机视觉,一场新的范式革命开始了。
图 1:代表性视觉强化学习模型时间线。该图按时间顺序概述了 2023 年至 2025 年的关键视觉强化学习(Visual RL)模型,并将其分为四个领域:多模态大语言模型(Multimodal LLM)、视觉生成(Visual Generation)、统一模型(Unified Models)和视觉 - 语言 - 动作模型(VLA Models)。
在大语言模型(LLM)的江湖里,强化学习(RL),特别是带有人类反馈的强化学习(RLHF),早已不是什么新鲜词。正是它,如同一位内力深厚的宗师,为 GPT、Qwen、DeepSeek 等模型注入了“灵魂”,使其回答能够如此贴合人类的思维与价值观。这场由 RL 主导的革命,彻底改变了我们与AI的交互方式。
然而,当所有人都以为强化学习的舞台仅限于文字的方寸之间时,一股同样的浪潮,正以迅雷不及掩耳之势,“卷”向了另一个更为广阔的领域——计算机视觉(CV)。
想象一下,如果AI不仅能“看懂”世界,更能根据你的主观偏好(比如“我想要一张更有意境的山水画”)去创造和优化视觉内容;如果机器人不仅能识别物体,更能主动地、序列化地与环境交互以完成复杂任务(比如“帮我整理一下这个凌乱的房间”)。
这一切,正是强化学习与计算机视觉深度融合后,正在发生的新故事。它不再满足于让AI做一个被动的观察者,而是要将其训练成一个能够主动决策、与环境交互、并最终与人类意图对齐的“行动派”。
最近,一篇由新加坡国立大学、浙江大学、香港中文大学等机构研究者联合撰写的长篇综述 《Reinforcement Learning in Vision: A Survey》 ,旨在梳理强化学习(RL)与视觉智能交叉领域的最新进展、核心方法及未来方向。综述涵盖200余篇代表性研究,以“理论基础-领域分类-评估体系-挑战展望”为逻辑框架,为研究者和从业者提供了该快速发展领域的完整图谱。
以下从核心内容展开详细总结:
一、研究背景与综述定位
1.1 领域兴起动因
视觉强化学习的爆发源于强化学习在大语言模型(LLM)中的成功迁移。RL通过“人类反馈强化学习(RLHF)”“DeepSeek-R1”等范式,显著提升了LLM的人类偏好对齐与复杂推理能力(如InstructGPT)。受此启发,研究者将RL拓展至多模态大模型,涵盖:
- 视觉-语言模型(VLM,如Gemini 2.5):用RL对齐视觉-文本推理,提升语义连贯性;
- 视觉-语言-动作模型(VLA,如GUI自动化、机器人操纵模型):用RL优化序列决策,改善任务性能;
- 扩散型视觉生成模型(如文本-图像/视频生成):用RL提升生成质量与prompt对齐度;
- 统一多模态框架(如UniRL、Emu3):用RL实现“理解-生成”跨任务泛化。
1.2 核心挑战与综述目标
当前领域面临三大核心挑战:
①复杂奖励信号下的策略优化稳定性;
②高维、多样视觉输入的高效处理;
③长周期决策场景下可扩展奖励函数设计。
综述的核心目标是:
①形式化视觉RL问题,梳理策略优化从RLHF到可验证奖励、从PPO到GRPO的演进;
②将200+研究分为“多模态LLM、视觉生成、统一模型、VLA模型”四大支柱;
③分析各领域的算法设计、奖励工程与基准进展;④总结评估协议与开放挑战。
二、视觉强化学习的理论基础
综述首先夯实视觉RL的理论框架,包括问题形式化、对齐范式与策略优化算法,为后续领域分析奠定基础。
2.1 问题形式化:马尔可夫决策过程(MDP)建模
研究者将文本/图像/视频生成转化为“episodic MDP”,核心符号与定义如下(表1总结关键符号):
- 状态(s_t):初始状态s₀为用户prompt(p),t时刻状态为“prompt+已生成动作”,即s_t=(p, a₁,...,a_{t-1});
- 动作(a_t): autoregressively从策略采样的token(文本)、像素块(图像)或扩散噪声(生成模型);
- 轨迹(y):完整动作序列(a₁,...,a_T),策略π_θ(a_t|s_t)定义动作采样概率;
- 奖励与参考模型:人类偏好蒸馏为序列级奖励模型R_φ(p,y),固定参考模型π_ref(如监督微调模型π_SFT)用于KL正则,避免策略漂移。
这一建模方式统一了文本与视觉生成的RL框架,使LLM的RL方法可迁移至视觉领域。
2.2 三大核心对齐范式:从主观偏好到客观验证
对齐范式的核心是“如何用反馈信号引导策略优化”,综述提出三类主流范式:
图 2:强化学习的三种对齐范式。(a)基于人类反馈的强化学习(RLHF)从人类偏好数据中学习奖励模型,并通过近邻策略优化(PPO)对策略进行优化。(b)直接偏好优化(DPO)省去奖励模型,直接针对冻结的参考模型优化对比目标。(c)带可验证奖励的强化学习(RLVR)用确定性可验证信号替代主观偏好,并采用组相对策略优化(GRPO)训练策略。 关键术语说明:
(1)基于人类反馈的强化学习(RLHF)
RLHF是视觉RL中最成熟的范式,采用三阶段流程(图2a):
- 阶段1:监督策略预训练:用标注数据训练初始策略π_SFT;
- 阶段2:奖励模型训练:收集人类偏好数据(p, y_A, y_B)(y_A为偏好续贯),通过“Bradley-Terry likelihood”训练 scalar奖励模型R_φ,目标函数为:
其中σ为sigmoid函数,R_φ输出反映人类偏好的稠密奖励; - 阶段3:PPO策略优化:最大化“奖励-RL惩罚+预训练对数似然”,目标函数为:
其中β控制KL惩罚强度(防止策略偏离π_SFT),γ平衡预训练性能保留。
视觉领域中,RLHF的典型应用包括:ImageReward(文本-图像生成的人类偏好奖励)、HPS(人类美学分数)引导扩散模型优化,显著提升生成质量与prompt对齐度。
(2)直接偏好优化(DPO)
DPO针对RLHF“奖励模型训练繁琐”的痛点,移除中间奖励模型,直接用偏好数据优化策略(图2b):
- 输入数据:与RLHF一致的偏好三元组(p, y_A, y_B)(y_A偏好于y_B);
- 核心目标:优化“策略与参考模型π_ref的对数优势差”,目标函数为:
其中Δ_θ为“策略对数比-参考模型对数比”,即Δ_θ=log(π_θ(y_A|p)/π_ref(y_A|p)) - log(π_θ(y_B|p)/π_ref(y_B|p)),β为温度超参; - 优势:无需奖励模型、价值网络或重要性采样,仅用监督梯度训练,效率更高(如DiffusionDPO用于图像生成对齐)。
(3)带可验证奖励的强化学习(RLVR)
RLVR用确定性、可编程验证的奖励替代主观人类偏好,解决RLHF数据成本高、DPO依赖偏好数据的问题(图2c):
- 可验证奖励信号:如代码测试通过率(LeetCode编译器)、图像分割IoU≥0.9、数学答案精确匹配,奖励函数r(p,y)=v(p,y)∈{0,1}(1为“通过验证”);
- 训练流程:两阶段——①监督预训练π_SFT;②用GRPO/PPO优化策略,结合少量SFT更新稳定训练(如DeepSeekMath用数学答案精确匹配奖励,GRPO训练);
- 优势:无主观偏差、数据成本低,适用于“结果可量化验证”的任务(如3D生成的几何一致性、GUI自动化的动作正确性)。
2.3 两大策略优化算法:PPO与GRPO
策略优化算法是“如何根据奖励更新策略”的核心,综述重点分析两种适用于视觉任务的算法:
图 3:两种具有代表性的大语言模型(LLM)策略优化算法。(a)近邻策略优化(PPO)采用学习到的价值模型进行优势估计,并在每个 token 处引入 KL 惩罚项。(b)组相对策略优化(GRPO)移除了价值模型,通过 G 个续贯(continuation)计算组归一化优势,并采用显式的提示级(prompt-level)KL 惩罚项。
(1)近邻策略优化(PPO)
PPO是RLHF的默认优化算法,属于一阶信任域方法,核心是“限制策略更新幅度以保证稳定”(图3a):
- 关键组件:
① 重要性采样比ρ_t(θ)=π_θ(a_t|s_t)/π_θ_old(a_t|s_t):将行为策略(π_θ_old)的梯度权重调整为目标策略(π_θ);
② 价值网络V_ψ(s_t):预测状态s_t的未来回报,用于计算GAE(广义优势估计)优势值Â_t=GAE(r_t^{PPO}, V_ψ);
③ KL正则:奖励中加入KL项r_t^{PPO}=r_φ(s_t,a_t) - β log(π_θ/π_ref),防止策略偏离π_ref; - 目标函数(裁剪 surrogate):
其中ε控制信任域宽度(通常0.1~0.2)。
(2)组相对策略优化(GRPO)
GRPO针对视觉任务“高维输入导致内存紧张”的问题,移除PPO的价值网络,用“组相对基线”降低方差(图3b):
- 核心设计:
① 组采样:对每个prompt p,采样G个续贯(a₁,...,a_G),形成组O={a_i}{i=1}^G;
② 组相对优势:奖励标准化为Â{i,t}=(r_{i,t}-mean(r_{·,t}))/std(r_{·,t}),无需价值网络;
③ prompt级KL惩罚:单独计算prompt层面的KL估计D_KL(p)(token平均KL),而非融入奖励(公式13); - 目标函数:
- 优势:内存占用减半(无critic)、超参更少,适用于视频生成、3D生成等内存密集型任务(如DanceGRPO用于视频时序一致性优化)。
三、视觉强化学习的四大核心应用领域
综述将视觉RL研究分为“多模态LLM、视觉生成、统一模型、VLA模型”四大支柱,每个领域下细分任务并分析代表性工作。
图 4:视觉领域强化学习研究的整体分类体系。该图表首先将现有研究按高层领域(多模态大语言模型、视觉生成、统一模型、视觉 - 语言 - 动作智能体)分组,再进一步按更细粒度的任务划分,并列出了每个分支的代表性研究成果(论文)。
3.1 多模态大语言模型(MLLM)
MLLM的RL目标是“对齐视觉-语言推理与人类需求”,分四类研究方向:
(1)常规RL驱动型MLLM
这类模型用可验证奖励优化VLM骨干,不涉及复杂链式推理:
- 代表性工作:
① RePIC(Oh et al., 2025)、GoalLadder(Zakharov & Whiteson, 2025):用精确匹配、IoU等可验证奖励,GRPO优化,提升零样本鲁棒性;
② GRPO-CARE(Chen et al., 2025b):引入“一致性感知组归一化”,降低奖励方差;
③ Q-Ponder(Cai et al., 2025c):加入“思考控制器”,动态调整推理步数;
④ MoDoMoDo(Liang et al., 2025):多领域混合优化,预测奖励分布并选择最优训练课程。
(2)空间与3D感知
聚焦“用RL提升MLLM的空间理解能力”,分2D与3D任务:
- 2D感知:
① Omni-R1(Zhong et al., 2025):双系统(全局-局部)GRPO,用规则化指标(如情感识别准确率)验证预测;
② DIP-R1(Park et al., 2025b):“inspect→observe→act” step-wise循环,每步用IoU或计数奖励优化细粒度检测;
③ VisRL(Chen et al., 2025h):将“意图引导的焦点选择”建模为RL子策略,无需昂贵区域标注; - 3D感知:
① MetaSpatial(Pan & Liu, 2025):用渲染深度/IoU奖励,优化AR/VR场景生成的空间推理;
② Scene-R1(Yuan et al., 2025c):视频接地片段选择+两阶段接地策略,无点云标注学习3D场景结构;
③ BindGPT(Zholus et al., 2025):将原子放置视为序列动作,用结合亲和力估计作为奖励,实现3D分子设计。
(3)图像推理
分“基于图像思考(Think about Image)”与“用图像思考(Think with Image)”两类:
- Think about Image:仅用语言描述图像观察,不修改视觉内容:
① SVQA-R1(Wang & Ling, 2025)、STAR-R1(Li et al., 2025d):用视图一致性奖励优化空间VQA;
② WeThink(Yang et al., 2025a)、GThinker(Zhan et al., 2025a):课程学习逐步提升任务复杂度,培养结构化推理;
③ EchoInk-R1(Xing et al., 2025):融入音视频同步性奖励,GRPO优化多模态推理; - Think with Image:将图像作为“外部工作空间”,生成/编辑视觉标记辅助推理:
① GRIT(Fan et al., 2025):将边界框token与语言交织,GRPO优化“答案正确性+框精度”;
② Ground-R1(Cao et al., 2025):两阶段流程——先通过IoU奖励高亮证据区域,再进行语言推理;
③ Pixel Reasoner(Su et al., 2025a):动作空间加入“裁剪、擦除、绘制”原语,用好奇心驱动奖励平衡探索;
④ DeepEyes(Zheng et al., 2025):端到端RL自发诱导“视觉思考行为”,无需监督启发。
(4)视频推理
针对“时序动态理解”,RL用于对齐文本推理与视频证据:
- VQ-Insight(Zhang et al., 2025g):分层奖励设计+自一致性投票,优化长视频QA;
- TW-GRPO(Dang et al., 2025):token级信用分配+GRPO,提升文本推理与视频时序对齐;
- EgoVLM(Vinod et al., 2025)、VAU-R1(Zhu et al., 2025b):第一视角视频推理,用视觉记忆与效用奖励优化;
- TimeMaster(Zhang et al., 2025d):课程学习构建时序抽象,VideoR1(Feng et al., 2025):跨领域视频QA的可扩展RL框架。
3.2 视觉生成
视觉生成的RL核心是“平衡生成质量、prompt对齐与多样性”,分图像、视频、3D三类任务:
(1)图像生成
提出三大奖励范式(图5),覆盖不同优化目标:
图 5:基于强化学习(RL)的图像生成的三种奖励范式。 (a)以人为中心的偏好优化:使生成结果与人类美学评分对齐(相关研究:HPS(Wu 等人,2023b)、ImageReward(Xu 等人,2023)); (b)基于多模态推理的评估:通过多模态推理一致性对图像进行评分(相关研究:Wang 等人、Guo 等人);最小化特定任务的量化指标,如弗雷歇 inception 距离(FID)和交并比(IoU); (c)基于指标驱动的目标优化(相关研究:UnifiedReward(,2025d)、PARM(,2025h))。
- 人类中心偏好优化:用人类美学/偏好分数引导,如ImageReward(Xu et al., 2023)、HPS(Wu et al., 2023b),DiffPPO(Xiao et al., 2024)用其优化扩散模型;
- 多模态推理对齐:用MLLM评估“生成图像与文本的推理一致性”,如UnifiedReward(Wang et al., 2025h)、PARM(Zhang et al., 2025e);
- Metric驱动优化:最小化任务特定指标(如FID、IoU),如DDPO(Black et al., 2023)、Diffusion-KTO(Li et al., 2024b);
- 代表性工作:
① ReasonGen-R1(Zhang et al., 2025h):先生成文本计划,再用RL强化生成器的场景连贯性;
② PrefPaint(Liu et al., 2024a):多目标奖励(美学、多样性)优化图像修复;
③ B²-DiffuRL(Hu et al., 2025a): scarce参考图像下,用主题保真度奖励实现个性化生成。
(2)视频生成
核心挑战是“时序一致性、运动自然性”,RL解决方案包括:
- 偏好模型优化:InstructVideo(Yuan et al., 2024)复用图像评分器,PPO优化短片段;VideoReward(Liu et al., 2025a)训练专用偏好模型,评估序列平滑度与prompt对齐;
- 组相对优化:DanceGRPO(Xue et al., 2025)用组归一化回报,稳定长周期优化,提升视频美学分数;
- 领域特定奖励:GAPO(Zhu et al., 2025a)用“差距感知排序”优化动漫视频;Phys-AR(Lin et al., 2025)惩罚物理定律违反,生成合理运动轨迹。
(3)3D生成
RL需处理“ volumetric结构评估成本高”的问题,关键工作包括:
- DreamCS(Zou et al., 2025):文本-网格生成为MDP,扩散模型提粗形状,策略优化顶点位置,奖励融合轮廓IoU、CLIP对齐与网格平滑度;
- DreamReward(Ye et al., 2024):大规模3D人类偏好数据集,训练几何感知奖励模型,PPO优化文本-形状模型;
- DreamDPO(Zhou et al., 2025c):将DPO扩展到NeRF与网格扩散模型,无需价值网络实现prompt保真度对齐;
- Nabla-R2D3(Liu et al., 2025c):交互式3D场景编辑,用实时渲染视图与空间关系验证奖励,GRPO稳定训练。
3.3 统一模型
统一模型的RL目标是“用单一策略优化多视觉-语言任务”,分两类设计思路:
(1)统一RL(Unified RL)
用共享奖励与策略联合优化“理解+生成”任务,实现跨任务泛化:
- UniRL(Mao et al., 2025):VLM骨干先指令微调,再用“文本正确性+CLIP对齐+美学质量”混合奖励,联合优化VQA、captioning与图像生成;
- CoRL(Jiang et al., 2025b):GRPO步骤中交替“协同理解”与“协同生成”批次,提升跨任务一致性;
- SelfTok(Wang et al., 2025a):将多模态动作离散为“自进化token集”,单RL头实现检索、接地与生成,参数增量少;
- HermesFlow(Yang et al., 2025b): autoregressive文本模块+整流流图像解码器,跨任务奖励统一扩散与语言策略。
(2)任务特定RL(Task-specific RL)
仅对单一任务(通常是生成) 应用RL,保留其他任务的监督微调:
- VARGPT-v1.1(Zhuang et al., 2025):VLM骨干支持理解与生成,但RL仅优化视觉生成(DPO);
- Emu3(Wang et al., 2024b):RL仅用于图像生成分支(人类偏好对齐),captioning、VQA等理解任务用SFT。
3.4 视觉-语言-动作模型(VLA)
VLA模型的RL目标是“实现‘感知-决策-动作’闭环”,覆盖GUI自动化、视觉导航、视觉操纵三类任务:(1)GUI自动化
RL用于“屏幕理解与动作预测”,分桌面与移动场景:
- 桌面/网页GUI:
① GUI-R1(Luo et al., 2025):R1规则集将“点击成功、文本输入有效”映射为稠密奖励;
② UI-R1(Lu et al., 2025):GRPO+动作特定KL项,稳定长周期计划;
③ UIShift(Gao et al., 2025b):逆动力学目标从无标注GUI对学习动作,RL精炼; - 移动GUI:
① AgentCPM-GUI(Zhang et al., 2025i):压缩动作空间,GRPO微调适配移动设备;
② MobileGUI-RL(Shi et al., 2025):在线RL+任务级奖励,解决内存有限下的探索问题;
③ GTA1(Yang et al., 2025d):采样多动作候选, judge模型选择最优,提升成功率。
(2)视觉导航
RL用于“xx智能的长周期导航决策”:
- OctoNav-R1(Gao et al., 2025a):“思考再行动”VLA pipeline,将第一视角帧转化为低阶动作;
- VLN-R1(Qi et al., 2025):端到端导航器,时间衰减奖励处理连续轨迹;
- Flare(Hu et al., 2024a):大规模仿真RL微调多任务机器人策略,实现真实家居场景泛化;
- More(Zhao et al., 2025):全向输入+记忆引导策略蒸馏,RAPID(Kim et al., 2025):融合位姿先验加速未知布局收敛。
(3)视觉操纵
RL用于“机器人复杂物体操纵与长周期规划”:
- TGRPO(Chen et al., 2025g):任务接地奖励+组归一化更新,稳定开放域物体操纵;
- RFTF(Shu et al., 2025):规则化奖励支持交互式桌面任务,最小化人类监督;
- RLVLA(Liu et al., 2025b)、VLA-RL(Lu et al., 2025b):课程式RL,提升机器人在多样重排环境的成功率;
- ReinBot(Zhang et al., 2025b):多模态rollout+偏好更新,提升真实世界操纵鲁棒性。
四、评估指标与基准体系
综述提出“粒度分层”的评估框架,并梳理各领域专用基准,确保视觉RL研究的可复现与可比性。
4.1 评估指标的三大粒度(图6)
图 6:视觉强化学习(Visual RL)中的指标粒度。(a)集合级指标:针对整个提示集(prompt set)的单一评分,用于最终评估(例如,弗雷歇 inception 距离(FID))。(b)样本级指标:为每个输出分配的奖励,用于训练策略(如基于人类反馈的强化学习(RLHF)、直接偏好优化(DPO))。(c)状态级指标:训练过程中的信号(如 KL 散度、长度偏移),用于监控训练稳定性。符号说明:、、分别表示提示(prompt)、生成输出(generated output)和真值(ground truth);和分别指第 0 个和第 t 个策略模型;表示奖励模型。
(1)Set-level(集合级)
评估整个prompt集的生成分布质量,用于最终性能报告:
- 定义:对测试prompt集P_test,比较生成分布Y_gen与参考分布Y_gt(如ground truth),公式为:
- 常用指标:图像生成的FID、Inception Score;视频生成的FVD、Video IS;VQA的准确率。
(2)Sample-level(样本级)
为单个输入-输出对提供奖励,驱动RL策略更新:
- 定义:对每个(p_i, y_gen^i),奖励函数M_samp(y_gen^i, p_i)=R_φ(y_gen^i,p_i)(无参考)或R_φ(y_gen^i,y_gt^i,p_i)(有参考),转化为step-wise优势Â_{i,t};
- 常用指标:人类偏好分数(ImageReward、HPS)、可验证指标(IoU、代码通过率)、模型偏好分数(CriticGPT、VideoPrefer)。
(3)State-level(状态级)
监控训练过程中的策略动态,早期检测异常:
- 核心指标:KL散度D(π_θ_t || π_θ_0)(衡量策略漂移)、输出长度漂移(防止重复/冗长)、扩散模型的去噪轨迹方差;
- 应用:如UniRL监控“生成-理解奖励不平衡”,HermesFlow监控共享策略的KL漂移。
4.2 各领域专用基准
综述整理了三类核心基准(表3、4、5),覆盖数据、奖励信号与评估任务:
(1)MLLM基准
聚焦“视觉推理与偏好对齐”:
- SEED-Bench-R1(Chen et al., 2025c):50k视频QA对,人类偏好奖励模型;
- Ego-R1(Tian et al., 2025):25k第一视角轨迹,7步链式工具调用奖励;
- VisuLogic(Xu et al., 2025a):1k视觉推理谜题,精确匹配奖励。
(2)视觉生成基准
提供“人类偏好数据或可验证指标”:
- ImageReward(Xu et al., 2023):人类排序的文本-图像对, scalar奖励;
- Pick-a-Pic(Kirstain et al., 2023):用户偏好的文本-图像排序,用于DPO/PPO训练;
- VideoReward(Liu et al., 2025a):人类排序视频对,评估质量、运动与对齐。
(3)VLA模型基准
提供“动作轨迹与环境仿真”:
- GUI-R1-3K(Luo et al., 2025):3k+跨平台(Windows、Android、Web)GUI轨迹,R1稠密奖励;
- Habitat(Puig et al., 2023):xxAI场景,人类与机器人交互奖励;
- RLBench(James et al., 2020):多任务机器人操纵,仿真环境奖励。
五、开放挑战与未来方向
综述基于现有研究痛点,提出四大核心挑战与解决方案:
5.1 有效推理:平衡深度与效率
- 挑战:过长推理链导致 latency与误差累积,过短则丢失关键信息;
- 未来方向:
① 自适应周期策略:训练“终止评判器”,联合优化答案质量与计算成本;
② 元推理与少样本自评估:用冻结VLM critique部分推理链,决定是否继续思考;
③ 新基准:同时报告“成功率”与“推理效率”(步数、FLOPs、 latency)。
5.2 VLA的长周期RL
- 挑战:VLA任务需数十步原子动作(如GUI点击、机器人抓取),端任务奖励稀疏,GRPO/PPO效果有限;
- 未来方向:
① 内在子目标发现:通过状态变化检测或语言聚类分割轨迹,为子目标分配稠密奖励;
② 效用评判器学习:训练对比VLM评分“动作-目标距离”,无需人工标注提供塑造奖励;
③ 分层RL:高层语言规划器提出语义子任务,低层策略用离线RL或决策Transformer微调。
5.3 基于视觉思考的RL
- 挑战:“用图像思考”(如裁剪、绘制)的动作空间设计、信用分配与数据效率问题;
- 未来方向:
① 混合动作空间:可微提议策略+策略梯度精炼连续动作(如裁剪坐标);
② step-wise代理奖励:如“裁剪后CLIP相似度提升”“信念状态熵降低”,实现分层RL;
③ 样本高效方法:模型基想象(如Pixel Reasoner)、不确定性感知规划。
5.4 视觉生成的奖励模型设计
- 挑战:现有奖励(如FID、ImageReward)与人类感知弱相关,易导致“奖励攻击”(如高对比度 artifacts);
- 未来方向:
① 多信号融合:整合低阶信号(一致性、物理、几何)与高阶人类偏好;
② 跨模态泛化:设计适用于图像、视频、3D的通用奖励模型;
③ 抗攻击与动态更新:奖励模型需鲁棒于策略漏洞,且能随用户偏好演变更新。
六、结论
视觉强化学习已从“孤立验证”发展为“融合视觉、语言、动作的研究前沿”,核心驱动力包括:①奖励监督从RLHF向“组相对+可验证”升级;②统一架构实现“感知-推理-生成”联合优化;③基准体系覆盖“偏好对齐+策略稳定”多维度。
然而,领域仍面临“数据效率低、泛化能力有限、长周期奖励设计缺乏指导、评估标准待完善”等挑战。未来需更紧密结合“模型基规划、自监督视觉预训练、自适应课程、安全优化”,推动视觉RL走向“样本高效、可靠、社会对齐”的实际应用。
参考
论文标题:Reinforcement Learning in Vision: A Survey
论文链接:https://arxiv.org/pdf/2508.08189
项目主页:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning
#NanoControl
给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
随着以Transformer为核心的DiT架构(如Sora、Flux.1)在文生图领域展现出超越U-Net的强大实力,一个新挑战也随之而来:如何像ControlNet控制U-Net一样,高效、精准地控制这些庞大的DiT模型?如果直接套用ControlNet“复制主干网络”的思路,将会带来难以承受的参数量和计算开销。
为了解决这一关键问题,来自360 AI Research、南京理工大学、北京科技大学、北京航空航天大学等机构的研究者们,提出了一种专为DiT设计的、极其轻量级的控制框架—— NanoControl 。该方法摒弃了复制骨干网络的“重”模式,转而采用LoRA风格的“微型”控制模块和高效的特征注入机制。基于最新的Flux.1骨干网络,NanoControl在实现SOTA级可控生成效果的同时,带来的额外参数量和计算量(GFLOPs)增幅分别有 0.024%、0.029% ,堪称“纳米级”的开销,为高效、可控的DiT图像生成铺平了道路。
- 论文标题: NanoControl: A Lightweight Framework for Precise and Efficient Control in Diffusion Transformer
- 作者: Shanyuan Liu, Jian Zhu, Junda Lu, Yue Gong, Liuzhuozheng Li, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Dawei Leng, Yuhui Yin
- 机构: 360 AI Research;南京理工大学;北京科技大学;北京航空航天大学
- 论文地址: https://arxiv.org/abs/2508.10424
背景:为DiT寻找一个更“轻”的ControlNet
ControlNet的出现是可控图像生成领域的一个里程碑。它通过创建一个与主干网络(通常是U-Net)结构相同、但参数可训练的“孪生”分支,来学习并注入空间控制条件(如边缘图、深度图、人体姿态等),实现了前所未有的控制精度。
然而,当将目光从U-Net转向参数量和计算量都大得多的DiT架构时,ControlNet的“复制”策略就显得过于“笨重”和昂贵。直接为动辄数十亿参数的DiT创建一个可训练的副本,无论是训练还是推理,都将带来巨大的资源消耗,极大地限制了其在实际应用中的部署。
因此,如何为强大的DiT模型设计一个同样强大但远比ControlNet更轻量、更高效的控制插件,成为了一个亟待解决的问题。
NanoControl:LoRA风格的控制模块 + KV上下文增强
NanoControl的核心思想是“不复制,只注入”。它没有创建庞大的孪生网络,而是设计了一套精巧的机制,将控制信号以极低的成本“注入”到主干DiT网络的关键位置。
上图直观地对比了ControlNet(左)和NanoControl(右)的架构差异。ControlNet需要一个完整的可训练副本(Trainable Copy),而NanoControl则用一个极小的LoRA风格模块取而代之。
1. LoRA风格的控制模块
该模块负责从原始的条件输入(如Canny边缘图)中提取控制信号。它借鉴了LoRA(Low-Rank Adaptation)的思想,结构非常轻量,只包含极少数的可训练参数。这使得它能够在不引入大量计算负担的情况下,有效地学习到控制生成过程所必需的核心信息。
2. KV-上下文增强机制 (KV-Context Augmentation)
这是NanoControl实现特征深度融合的关键。上述模块提取出的控制信号,会被用来“增强”DiT骨干网络中每个Transformer块的键(Key)和值(Value)上下文。具体来说,控制特征会与文本条件、时间步等信息一起,通过一个小型MLP网络处理后,加到原始的K和V向量上。
这种方式能够将控制条件无缝地融入到生成过程的每一步中,引导模型在正确的空间位置上生成符合条件的内容,同时又不会干扰DiT主干网络强大的、预训练好的生成能力。
实验结果:极致的效率与卓越的性能
实验结果充分证明了NanoControl在效率和效果上的双重优势。
定量分析
上表从可控性、视觉质量和语义一致性三个维度评估生成质量。在可控性方面,该方法在Canny、深度和HED任务上表现最优,着色任务略逊于OminiControl;视觉质量方面,FID和MUSIQ指标在四项任务中均居前两位;语义一致性方面,CLIP-Text分数与最优方法相当,而CLIP-Image分数优势显著,表明更好的原图结构对齐能力。末行显示的1024分辨率Canny生成结果中,该方法多数指标仍保持领先。
下图也清晰地展示了NanoControl在性能-成本权衡上的巨大优势,它以最小的计算成本和参数量,实现了极具竞争力的性能。
定性分析
上图3展示了所提出方法与现有方法的定性对比结果。结果显示该模型在各种控制任务中始终能生成高质量、语义对齐且视觉连贯的图像。生成结果不仅保留了条件输入提供的结构线索,还展现出与输入提示高度契合的精细细节和风格保真度。
结合定量指标分析,这些结果表明所提出方法在控制保真度、视觉真实性和语义一致性之间实现了良好平衡,验证了该方法在处理多样化控制模态时具有优异的生成质量和泛化能力。
总结与贡献
NanoControl的提出,成功地解决了在强大的DiT架构上实现可控生成所面临的巨大计算成本问题,其主要贡献在于:
- 设计了专为DiT优化的超轻量级控制框架,摒弃了ControlNet的“重”范式,使得在DiT上进行可控生成变得前所未有的高效。
- 提出了LoRA风格的控制模块和KV-上下文增强机制,为将外部条件深度融入Transformer架构提供了一种简洁而有效的新思路。
- 实现了SOTA级的性能与极致效率的统一,证明了在不牺牲生成质量和可控性的前提下,可以将控制模块的开销降至“纳米级”。
CV君认为,NanoControl的出现恰逢其时。在DiT架构日益成为主流的今天,这项工作为整个AIGC社区提供了一个兼具性能与效率的“DiT版ControlNet”解决方案,无疑将极大地推动可控图像生成技术的发展和应用落地。
#FastSAM
比SAM快50倍的零样本图像分割模型解析
介绍
图像分割是计算机视觉中的一项流行任务,其目标是将输入图像划分为多个区域,其中每个区域代表一个单独的对象。
过去的几种经典方法涉及采用模型主干(例如 U-Net)并在专门的数据集上对其进行微调。虽然微调效果很好,但 GPT-2 和 GPT-3 的出现促使机器学习社区逐渐将重点转向零样本学习解决方案的开发。
零样本学习是指模型在没有明确接收任何训练示例的情况下执行任务的能力。
零样本概念通过允许跳过微调阶段发挥着重要作用,希望模型足够智能,可以解决移动中的任何任务。
在计算机视觉的背景下,Meta 在 2023 年发布了广为人知的通用“Segment Anything Model”(SAM),它使分割任务能够以零样本的方式以不错的质量执行。
虽然SAM的大规模结果令人印象深刻,但几个月后,中国科学院图像与视频分析(CASIA IVA)小组发布了FastSAM模型。正如形容词“快速”所暗示的那样,FastSAM 通过将推理过程加速多达 50 倍来解决 SAM 的速度限制,同时保持高分割质量。
在本文中,我们将探讨 FastSAM 架构、可能的推理选项,并研究与标准 SAM 模型相比,是什么让它“快速”。此外,我们将看一个代码示例来帮助巩固我们的理解。
作为先决条件,强烈建议您熟悉计算机视觉的基础知识、YOLO 模型,并了解分割任务的目标。
结构
FastSAM 中的推理过程分两步进行:
- 全实例分段。 目标是为图像中的所有对象生成分割蒙版。
- 提示引导式选择。 在获得所有可能的掩码后,提示引导选择返回与输入提示相对应的图像区域。
让我们从所有实例分割开始。
所有实例分割
在目视检查架构之前,让我们参考原始论文:
“FastSAM 架构基于 YOLOv8-seg -- 一种配备实例分割分支的对象检测器,它利用了 YOLACT 方法” — Fast Segment Anything 论文
https://arxiv.org/pdf/2306.12156
对于那些不熟悉 YOLOv8-seg 和 YOLACT 的人来说,这个定义可能看起来很复杂。无论如何,为了更好地阐明这两个模型背后的含义,我将提供一个关于它们是什么以及如何使用它们的简单直觉。
YOLACT(你只看效率Ts)
YOLACT 是一种专注于高速检测的实时实例分割卷积模型,受 YOLO 模型的启发,实现了与 Mask R-CNN 模型相当的性能。
YOLACT 由两个主要模块(分支)组成:
- 原型分支。 YOLACT 创建了一组称为原型的分割掩码。
- 预测分支。 YOLACT 通过预测边界框来执行对象检测,然后估计掩码系数,这告诉模型如何线性组合原型以为每个对象创建最终掩码。
为了从图像中提取初始特征,YOLACT 使用 ResNet,然后使用特征金字塔网络 (FPN) 来获取多尺度特征。每个 P 级(如图所示)使用卷积处理不同大小的特征(例如,P3 包含最小的特征,而 P7 捕获更高级别的图像特征)。这种方法有助于 YOLACT 考虑不同规模的对象。
YOLOv8-seg
YOLOv8-seg 是一个基于 YOLACT 的模型,在原型方面采用了相同的原则。它还有两个头:
- 检测头。 用于预测边界框和类。
- 分割头。 用于生成掩码并组合它们。
主要区别在于,YOLOv8-seg 使用 YOLO 主干架构,而不是 YOLACT 中使用的 ResNet 主干和 FPN。这使得YOLOv8-seg在推理过程中更轻、更快。
YOLACT 和 YOLOv8-seg 都使用默认的原型数量 k = 32,这是一个可调的超参数。在大多数情况下,这在速度和分段性能之间提供了良好的权衡。
在这两个模型中,对于每个检测到的对象,都会预测大小为 k = 32 的向量,表示掩码原型的权重。然后使用这些权重线性组合原型,为对象生成最终蒙版。
FastSAM 架构
FastSAM 的架构基于 YOLOv8-seg,但也包含一个 FPN,类似于 YOLACT。它包括检测头和分割头,有 k = 32 个原型。然而,由于 FastSAM 对图像中所有可能的对象进行分割,因此其工作流程与 YOLOv8-seg 和 YOLACT 的工作流程不同:
首先,FastSAM 通过生成 k = 32 个图像掩码来执行分割。
然后将这些掩码组合起来以生成最终的分割掩码。
在后处理过程中,FastSAM 会提取区域、计算边界框并对每个对象进行实例分割。
注意
虽然论文没有提到后处理的细节,但可以观察到,官方的 FastSAM GitHub 仓库在预测阶段使用了 OpenCV 的 cv2.findContours() 方法。
def _get_bbox_from_mask(self, mask):
mask = mask.astype(np.uint8)
contours, hierarchy = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
x1, y1, w, h = cv2.boundingRect(contours[0])
x2, y2 = x1 + w, y1 + h
if len(contours) > 1:
for b in contours:
x_t, y_t, w_t, h_t = cv2.boundingRect(b)
# Merge multiple bounding boxes into one.
x1 = min(x1, x_t)
y1 = min(y1, y_t)
x2 = max(x2, x_t + w_t)
y2 = max(y2, y_t + h_t)
h = y2 - y1
w = x2 - x1
return [x1, y1, x2, y2]
在实践中,有几种方法可以从最终分割掩码中提取实例掩码。一些示例包括轮廓检测(用于 FastSAM)和连接组件分析(cv2.connectedComponents())。
训 练
FastSAM 研究人员使用与 SAM 开发人员相同的 SA-1B 数据集,但仅针对 2% 的数据训练了 CNN 检测器。尽管如此,CNN 检测器仍实现了与原始 SAM 相当的性能,同时需要更少的分割资源。因此,FastSAM 中的推理速度提高了 50 倍!
作为参考,SA-1B 由 1100 万张不同的图像和 11 亿个高质量分割掩码组成。
是什么让 FastSAM 比 SAM 更快?SAM 使用视觉转换器 (ViT) 架构,该架构以其繁重的计算要求而闻名。相比之下,FastSAM 使用轻得多的 CNN 进行分割。
提示引导式选择
“分割任何任务”涉及为给定提示生成一个分割掩码,该掩码可以用不同的形式表示。
点提示
在获得图像的多个原型后,可以使用点提示来指示感兴趣的对象位于(或不)在图像的特定区域中。因此,指定的点会影响原型掩模的系数。
与 SAM 类似,FastSAM 允许选择多个点并指定它们属于前景还是背景。如果与对象对应的前景点出现在多个蒙版中,则可以使用背景点过滤掉不相关的蒙版。
但是,如果过滤后仍有多个遮罩满足点提示,则应用遮罩合并以获得对象的最终遮罩。
此外,作者应用形态学运算符来平滑最终的掩模形状并消除小伪影和噪声。
框提示
框提示涉及选择其边界框与提示中指定的边界框具有最高交集的并集 (IoU) 交集的掩码。
文本提示
同样,对于文本提示,选择最符合文本描述的掩码。为此,使用了 CLIP 模型:
- 计算文本提示和 k = 32 原型掩码的嵌入。
- 然后计算文本嵌入和原型之间的相似性。相似度最高的原型将进行后处理并返回。
通常,对于大多数分割模型,提示通常在原型级别应用。
FastSAM 存储库
以下是 FastSAM 官方存储库的链接,其中包括清晰的 README.md 文件和文档。
GitHub - CASIA-IVA-Lab/FastSAM:快速分割任何内容
https://github.com/CASIA-IVA-Lab/FastSAM
如果您计划使用 Raspberry Pi 并希望在其上运行 FastSAM 模型,请务必查看 GitHub 存储库:Hailo-Application-Code-Examples。它包含在边缘设备上启动 FastSAM 所需的所有代码和脚本。
结论
在本文中,我们研究了 FastSAM--SAM 的改进版本。FastSAM 结合了 YOLACT 和 YOLOv8-seg 模型的最佳实践,保持了高分割质量,同时显着提高了预测速度,与原始 SAM 相比,推理速度提高了几十倍。
将提示与 FastSAM 一起使用的能力提供了一种灵活的方法来检索感兴趣对象的分割掩码。此外,已经表明,将提示引导选择与所有实例分割解耦可以降低复杂性。
以下是一些不同提示的 FastSAM 使用示例,直观地表明它仍然保留了 SAM 的高分割质量: