51c视觉~合集15

原创已于 2025-08-07 12:20:58 修改 · 1k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-08-04 03:30:00 首次发布

人工智能专栏收录该内容

429 篇文章

订阅专栏

自己的原文哦~ https://blog.51cto.com/whaosoft/11703185

#Bi-MTDP

通过二值网络加速多任务密集预测，又快又提点

论文提出二值化多任务密集预测器 Bi-MTDP，通过二值神经网络（BNNs）显著加速多任务密集预测模型，同时保持甚至提高模型性能。为了避免信息严重退化而导致二值化带来性能下降，论文引入了深度信息瓶颈层，在前向传播时强制要求下游任务表示满足高斯分布；此外，还引入知识蒸馏机制来纠正反向传播中信息流方向。

论文地址： https://arxiv.org/abs/2405.14136

论文代码： https://github.com/42Shawn/BiMTDP

Introduction

在计算机视觉领域，有一个日益增长的趋势，即以多任务学习的方式处理密集预测任务，例如语义分割、单眼深度估计和人体解析。由于多任务模型中通过交叉连接结构进行信息补充机制的收益，一系列密集预测任务的整体性能得到了极大提升（见图1）。然而，处理多个复杂像素级任务的当前最先进（SoTA）多任务密集预测模型具有相当大的计算需求，这种高计算要求限制了它们在资源受限环境中（如自动驾驶、机器人技术和虚拟现实等领域）的应用。论文旨在优化这些庞大的SoTA模型以适用于边缘设备，在速度和性能之间取得平衡。

已经不是研究探索神经网络压缩策略，包括剪枝、网络量化和知识蒸馏。值得注意的是，网络二值化作为一种量化形式，将权重和激活最小化为，从而能够用二值神经网络（BNNs）中更高效的XNOR-Bitcount操作替代全精度网络中计算密集型的内积运算。理论上，二值化可以将存储成本降低32倍，并将推断速度提高64倍，使得BNNs适用于边缘设备。

虽然二值神经网络（BNNs）在图像分类方面取得了令人印象深刻的成果，几乎达到了全精度ResNet级别的准确性，但其应用主要局限于小规模模型，无法用于其他计算密集型的计算机视觉任务。将BNNs扩展到更大的模型应该是下一步的研究，但这种扩展受到过拟合和信息降级等问题的阻碍。在全精度模型中有效的技术，如标签平滑、dropout和mixup，在BNNs上效果较差。此外，最先进的多任务密集预测任务通常需要深层复杂模型并配备多模态融合结构，加剧了有效实施二值化所面临的挑战。

在应用二值化进行多任务密集预测任务时，主要障碍是在深度模型中信息流的显著降级，导致性能下降。为了解决这个问题，论文提出了一个Binary Multitask Dense Predictor（Bi-MTDP）基线，通过二值化模块构建了一个多任务密集预测器。基于对这个基线的彻底评估，论文得出结论：二值化操作破坏了多任务模型中的信息流，因此与其全精度对应物相比，下游任务的表示不够丰富。为解决这一问题，论文通过两个方向上额外的信息流校准机制更新Bi-MTDP

在正向传播中实施变分信息瓶颈机制，使嵌入遵循具有稀疏性质的高斯分布以过滤掉与任务无关的因素。
在反向传播中利用现有全精度模型通过基于特征的知识蒸馏来校准二值网络梯度。

Bi-MTDP的好处可以从两个正交的角度进行分析：

从网络二值化的角度来看，通过将二值化与多任务密集预测框架相结合，Bi-MTDP的成功证明了它可以有效地补充信息，从而提高了各个二值模型的性能。
从多任务密集预测任务的角度来看，加速这些繁琐的模型有利于在其中设计更有效和高效的交叉模块，如图1所示。由于现有的密集预测模型在建模交叉模块方面存在严重限制，因为它们过度依赖卷积操作，所以对于多任务密集预测来说，通过交叉机制学习涵盖多任务上下文各个范围的交互和推理是至关重要的。

Multitask Network BinarizationBinary Neural Network

首先, 简要回顾二值神经网络 ( BNNs ) 的一般思想, 详细阐述二值化的加速机制和信息流退化问题。定义一个具有个层的全精度（FP）神经网络， , 其中是输入样本, 代表连接第层和第层的权重矩阵，和分别表示第层网络输入和输出的大小, 函数对特征图执行逐元素激活。

BNNS 在前向操作和反向梯度逼近方面与 FP 神经网络有所不同。具体而言, 在前向传播过程中, BNN 保持 FP 潜在权重用于梯度更新, 第个权重矩阵被二值化为 , 通过二值化函数得到二值权重矩阵 , 即。然后第层的中间激活图（全精度）由产生。相同的量化方法用于将全精度激活图二值化为，并且通过对这个过程进行次迭代执行整个二值化的前向传递，如图 2 所示。对于 BNNs, 权重和激活都是 1-bit, 因此网络在内存成本方面加速了 32 倍。重要的是, 在推断阶段, BNN 加速了 64 倍, 因为 FP 网络中的 FP 乘法被 BNN 中的 Xnor-Bitcoun 所取代。

在反向传播中，主要挑战是普遍存在的sign函数在理论上是不可微的，因此通过梯度传播极大地破坏了信息流。为了解决这个问题，利用直通估计器（STE）来数值近似整个BNN的导数，即

值得注意的是，在实践中没有采用上述的传统逼近方法，而是利用普遍存在的Bi-Real和IR-Net逐渐逼近符号函数，这已被证明是更好的估计方法。尽管已经有许多方法来消除二值化引起的信息流恶化，但由于权重、激活和梯度的严重精度损失，恶化仍然是不可避免的。因此，二值化破坏了复杂计算机视觉模型的性能。

Multitask Dense Predictor

在为密集预测任务应用二值化技术后，二值化模型的性能是不可接受的，如图1和表3中的二进制单任务结果所示。因为这些SoTA密集预测模型的架构相对较重且较深（例如，HRNet-48或ResNet-101具有特定任务头），而不是用于分类的模型（例如，ResNet-18具有全连接层作为分类头）。此外，在二进制模型中通过反向传播传递信息，特别是在深度模型中，效率极低。

具体地, 骨干网络提取共享特征后通过一组特定任务头进行处理, 产生了一系列对于个任务的初始预测, 即（骨干网络和特定任务头被称为网络的前端）。将转换并二值化成 1-bit 特征图形式, 得到相应场景的一组二值特征图, 即 , 这比骨干网络的共享二值特征更加关注任务。在最终进行任务预测之前, 通过二值化注意力机制将这些来自特定任务的表示融合为多模态蒸馏信息。论文的方法也是可扩展到不同任务, 尤其是可能有一些任务只在网络前端（初始预测）中被使用。这些初始任务也被称为辅助任务, 因为它们充当代理以改善最终任务的性能, 如图 3 所示。

Multi-Modal Distillation (MMD) via Binarized Attention Mechanism

多模态蒸馏模块是多任务密集预测模型的关键。具体而言，利用注意力机制来引导不同任务的不同模态生成的二值特征图之间的信息传递。由于传递的信息流并不总是有帮助的，注意力可以作为一个门函数来控制信息的流动。换句话说，使网络能够自动学习集中或忽略来自其他二值特征的信息。基于二值化操作，可以通过二值化注意力公式化MMD。在传递信息给第个任务时, 首先获得一个二值化注意力图，即

其中, 是二值卷积层的参数, 是初始预测的二值特征图, 表示卷积操作。然后, 通过以下方式传递信息:

其中, 表示逐元素相乘。蒸馏过程如图 3 左所示, 然后在图 3 右侧的头部中, 输出的二值特征图被用于相应的第个任务。通过使用特定任务的蒸㽞激活, 网络可以为每个任务保留更多信息, 这对于 BNNs 尤其有益, 因为恶化的信息流主要导致性能下降。

另一方面，多任务密集预测模型在性能方面受益于网络二值化。尽管这些多任务模型已经取得了令人期待的性能，但它们仍然受到基于卷积的蒸馏模块的限制，这些模块在多尺度上被大量使用，模拟了相对局部感知领域中的关键空间和任务相关交互。从理论上讲，在不同网络节点中增加更多的蒸馏模块可以提高模型性能，但由于计算限制，不能无限制地向现有模型中添加蒸馏模块。幸运的是，通过二进制网络节省的计算成本，可以在模型中实现额外的蒸馏模块。

Binary Baseline for Multitask Dense Prediction, Bi-MTDP

为了在多任务学习框架下使用BNNs获得密集预测，将MTI-Net二值化为二进制基线。具体来说，完整精度的MTI-Net中的主要模块，包括骨干网络、头部和多模态蒸馏模块，都被替换为二进制模块（权重和激活都是1-bit），将这个基线称为Bi-MTDP。

Information Flow Supplementation

尽管为多任务密集预测构建了一个完全二值化的基线Bi-MTDP，并使用常见技术对管道进行训练，但性能仍然是一个主要关注点。无关因素在前向传播时过度拟合，而在反向传播时优化方向严重不匹配，导致信息严重退化。为了解决这些问题，论文进一步提出了Bi-MTDP的变体，Bi-MTDP-F。具体来说，在共享的二进制骨干网络的输出后引入了一个变分信息瓶颈（VIB）层，精确地强制特征提取器保留输入数据的最小充分信息。此外，采用基于特征的知识蒸馏来引导优化方向。

Variational Information Bottleneck for Filter-Out Nuisance Factors

通过共享的骨干网络获取输入图像的初始二进制表示，需要训练一系列有针对性的头部来对其进行分割，一个直接的策略是将这些表示送到后续的MMD模块中。然而，二值化表示缺乏同质化，导致了模型过拟合问题。因此，需要对二值化表示进行正则化，而正则化不应该污染表示中的信息流。幸运的是，信息瓶颈（IB）原理直接涉及与最佳假设相关的压缩，即数据不匹配和模型复杂性应同时被最小化。

由于VIB能够有效地捕捉相关部分并过滤掉输入中的无关部分，论文在骨干网络后设计了一个基于VIB的新颖层。具体来说，它明确要求特征提取器保留输入数据的最小充分信息。换句话说，它可以帮助确保信息流灵活地学习针对性任务的清晰表示。基于VIB的分类目标函数可以被表述为信息损失项，如下所示：

其中, 是输入的二进制骨干表示, 是潜在表示变量, 是一个多变量高斯分布, 是一个标准正态分布。一般来说, 后者是一个正则化项, 控制过滤掉输入信息的程度。

Feature-based Knowledge Distillation for Guiding the Direction of Information Flow

蒸馏是一种常见且重要的优化方法, 用于缓解量化模型在超低比特宽设置下性能下降的问题, 可以灵活地应用于任何架构, 利用全精度教师模型的知识。通常做法是逐层地从全精度教师向量量化对应的激活进行蒸馏，即和，其中表示网络层数）。使用均方误差（MSE）作为距离函数来衡量学生和教师之间相应特征的差异。知识蒸馏损失可以写成如下形式:

Counter-Intuitive Results of Bi-MTDP-A

直观地说，在FP网络上实施二值化必然会导致表示退化，因为sign函数的梯度无法完美估计。因此，二值化模型不可能优于其全精度对应模型。然而，Bi-MTDP的变体Bi-MTDP-C（即仅二值化多模态蒸馏的全精度骨干模型）的性能优于其全FP版本。具体来说，仅对多模态蒸馏进行二值化处理就能同时将模型加速∼39%，并将分割 mIoU提高∼4%。这一结果表明，论文的方法并不是在模型性能和效率之间进行天真的权衡，而是提升多任务密集预测器的有力工具。

这一令人兴奋的成果甚至有点违反直觉，推测原因是：i) 在MMD上进行二值化可以过滤掉与任务无关的信息；ii) 网络内的信息流更加有效。为了验证这一推测，从两个方面进行了一系列实验，即Bi-MTDP-C的表示能力和网络内信息流的补充。

Qualitative Study of Learned Features with Bi-MTDP

为了研究Bi-MTDP-C及其FP对应模型的表示能力，使用t-SNE算法在2-D空间中可视化了二值化多模态蒸馏（MMD）模块后面的特征图，以及使用Grad-Cam算法确定网络认为重要的区域，结果如图5所示。显然，二值化模型Bi-MTDP-C能够通过二值化注意力模块过滤掉无关信息（见图5（a）），从而有助于学习更具有区分性的特征（见图5（b）），导致更高的定量结果。总体而言，分割生成的空间特征图更好。增强的代表能力可以促进更高的定量结果。

Analysis of Information Flow Supplementation within Network via Centered Kernel Alignment

分析神经网络层内的分布信息流是具有挑战性的, 因为层的输出分布在大量神经元之间。中心化核对齐（CKA）可以解决这些挑战，通过定量比较网络内部或跨网络的激活。具体而言, 对于一个由个样本输入的网络, 算法将和作为输入, 它们是两个层的输出激活（分别具有和个神经元）。令和表示两个层的格拉姆矩阵, CKA 计算如下:

在这里, HSIC 是希尔伯特-施密特独立准则。给定中心矩阵和中心化的格拉姆矩阵以及 , 表示这些中心化格拉姆矩阵之间的相似性。重要的是, CKA 对于表示的正交变换（包括神经元的排列）是不变的,而归一化项确保了对各向同性缩放的不变性。这些特性使得能够对神经网络隐藏表示进行有意义的比较和分析。

因此，引入CKA来研究多任务密集预测模型中的信息流。在热图中，点越浅，两个相应层之间的相似度越高。两个层的输出表示之间的相似得分越高，意味着这两个层共享更多信息。结果如图5（c）所示，我们可以看到Bi-MTDP-C前层和后层之间的相似得分要比MTI-Net中的相似得分高得多。这表明Bi-MTDP-C能够补充网络内部的信息流，从而提高模型性能。

Experiments

#SAM2-Adapte

延续SAM-Adapter的成功，魔芯科技、科大等提出SAM2-Adapter，让SAM2实现下游任务SOTA!

本篇分享论文SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More，延续 SAM-Adapter 的成功，魔芯科技、科大等提出 SAM2-Adapter，让 SAM2 实现下游任务SOTA!

项目页面：http://tianrun-chen.github.io/SAM-Adaptor
论文链接：https://arxiv.org/abs/2408.04579
开源代码：https://github.com/tianrun-chen/SAM-Adapter-PyTorch

“SAM-Adapter的成功经验同样适用于SAM2！”

在AI研究领域，基础模型的引入已经彻底改变了研究的格局，尤其是当这些模型基于庞大的数据集进行训练时。

近期，Segment Anything (SAM)模型因其在图像分割任务中的卓越表现而备受瞩目。尽管如此，先前的研究指出，SAM在处理一些具有挑战性的低级结构分割任务时存在性能瓶颈。

为了克服这些限制，研究者在SAM发布后不久便提出了SAM-Adapter，旨在通过增强SAM的功能，提升其在这些任务中的表现。SAM-Adapter 的架构如图所示。

随着时间的推进，一个更为强大和通用的模型——Segment Anything 2 (SAM2)——应运而生。SAM2在网络架构上进行了优化，并在更广泛的视觉数据上进行了训练，引起了科研界的广泛关注。这引发了两个关键问题：

SAM在下游任务中遇到的挑战是否同样存在于SAM2？
是否能够借鉴SAM-Adapter的成功经验，利用SAM2的先进预训练编码器和解码器，在这些任务中达到新的最前沿（SOTA）水平？

本研究的实验结果对这两个问题都给出了肯定的答案。尽管基础模型的固有局限性仍然存在，例如训练数据无法完全覆盖所有可能的场景，但通过引入SAM2-Adapter，研究者成功地在多个任务中实现了SOTA性能。

SAM2-Adapter不仅继承了SAM-Adapter的核心优势，还引入了显著的改进。以下是SAM2-Adapter的主要特点：

广泛的适用性：SAM2-Adapter能够适应各种任务，并在自定义数据集上实现优异的性能，几乎不需要额外的数据增强。
高度的灵活性：SAM2-Adapter支持多种条件的集成，以微调SAM2，从而在特定任务上取得更好的结果。

SAM2-Adapter通过利用SAM2的多分辨率分层Transformer架构，进一步增强了这些优势。通过多个适配器的协同工作，SAM2-Adapter有效地利用了SAM2的多分辨率和分层特性，实现了更为精确和鲁棒的分割效果。网络结构图如下所示：

“SAM2可以代替SAM在特定任务中实现SOTA表现”

本研究在多个任务和数据集上进行了广泛的实验，包括ISTD和COD10K数据集用于阴影检测，CHAMELEON和CAMO数据集用于伪目标检测，以及kvasir-SEG数据集用于医学图像分割任务。这些实验结果证明了SAM2和SAM2-Adapter在实现SOTA性能方面的潜力。

伪目标检测可视化结果如下

阴影检测结果如下

息肉分割实验结果如下

总结与展望

SAM2-Adapter是一项突破性的创新技术，专为释放Segment Anything 2（SAM2）模型的全部潜力而设计，专注于攻克最具挑战性的分割任务。

延续了SAM-Adapter的成功经验，SAM2-Adapter再次突破了SAM2在伪装物体检测、阴影识别和息肉分割等复杂任务中的瓶颈，达到了行业顶尖的性能水准，树立了新的标杆。

从SAM到SAM2的持续挑战展示了将基础模型应用于多样化现实场景的复杂性。但令人鼓舞的是，SAM-Adapter和SAM2-Adapter出色地解决了这些问题，展现出它作为高精度分割工具的巨大潜力，适用于广泛的应用领域。

本文鼓励研究人员和工程师大胆采用SAM2与SAM2-Adapter的组合，以实现更卓越的分割性能，并推动图像分割领域向新的高峰迈进。

#GLOMAP

全局式SfM最新SOTA，GLOMAP重新定义SfM！

ETH&微软最新开源-全局式GLOMAP，它与以前的全局SfM系统相比，其核心区别在于全局定位步骤。不是先执行不适定的平移平均然后进行全局三角测量，而是进行联合相机和点位置估计。GLOMAP不仅在鲁棒性和准确性方面达到增量式COLMAP系统相当或更优的水平，同时还比COLMAP快几个数量级。

本文由原paper一作Linfei Pan（潘林菲）博士指导授权【深蓝AI】编译首发，Linfei Pan博士就读于苏黎世联邦理工学院，她的个人主页为：https://lpanaf.github.io/

论文链接：https://arxiv.org/abs/2407.20219

01 背景简介

从一组图像中恢复3D结构和相机运动一直是计算机视觉研究的焦点，此类问题被称为运动恢复结构（Structure-from-Motion，SfM）。多年来已经形成了两种主要的解决范式：增量式和全局式。它们都以基于图像的特征提取和匹配开始，然后通过两视图几何估计构建输入图像的初始视图。

增量方法从两个视图开始重建，并通过逐步配准附加的相机图像和相关的三维结构来扩展重建。这一过程交替进行绝对相机姿态估计、三角测量和捆绑调整，尽管实现了高精度和鲁棒性，但由于重复的捆绑调整的高成本，限制了其可扩展性。

相反，全局方法通过联合考虑视图图中的所有两个视图几何形状，在单独的旋转平均（rotation averaging）和平移平均（translation averaging）步骤中一次恢复所有输入图像的相机几何形状。通常，在最终的全局束调整（global bundle adjustment）步骤之前，将全局估计的相机几何形状用作3D结构三角测量的初始化。虽然增量方法被认为更准确、更稳健，但全局方法的重建过程更具可扩展性，在实践中速度更快。

增量和全局SfM之间准确性和鲁棒性差距的主要原因在于全局平移平均步骤。平移平均描述了从视图图中的相对姿态集估计全局相机位置的问题，其中之前通过旋转平均恢复了相机方向。这一过程在实践中面临三大挑战：

第一个是尺度歧义：从估计的双视图几何获得的相对平移只能确定到某种尺度；
第二是准确地将相对双视图几何分解为旋转和平移分量需要对相机内参的先验知识；
第三个挑战出现在几乎共线的运动上，这导致了退化的重建问题。

研究者因此做了大量的研究工作致力于解决该问题。

主要贡献：

引入了一种通用的全局SfM系统，称为GLOMAP。与之前的全局SfM系统的核心区别在于全局定位步骤。本文方法不是先进行不适定的平移平均，再进行全局三角测量，而是执行相机和点位置的联合估计。
GLOMAP在保持全局SfM流程效率的同时，达到了当前最前进的增量SfM系统相似的鲁棒性和精度（如图1a所示）。
与大多数之前的全局SfM系统不同，GLOMAP系统能够处理未知的相机内参（例如，来自互联网照片）并且稳健地处理顺序图像数据（例如，手持视频或自动驾驶汽车场景）。

图1｜GLOMAP重构对比示例

02 全局SfM相关研究

全局SfM流程通常由三个主要步骤组成：对应关系搜索（Correspondence Search）、全局相机姿态估计（Global Camera Pose Estimation）以及联合相机和结构细化（Global Structure and Pose Refinement）。

2.1 Correspondence Search

增量和全局SfM都是从输入图像中提取显著的图像特征开始。一般来说, 检测出的特征点与从检测周围的局部上下文中提取的紧凑签名进行描述。接下来, 开始在图像对之间搜索特征对应关系。然后通过稳健地恢复重叠对的双视图几何体来验证这些。基于摄像机的几何配置, 这可能会得到一个用于平面场景的一般运动和纯摄像机旋转的单应矩阵 , 或者用于一般场景和一般运动的基础矩阵 (未标定）和本质矩阵 (已标定）。当相机内参近似已知时, 这些可以被分解为相对旋转和平移。

与相关内点对应关系计算出的双视图几何定义了视图图G，作为全局重建步骤的输入。在GLOMAP的流程中，作者利用COLMAP进行对应关系搜索，并结合RootSIFT特征和可扩展的词袋图像检索来找到候选的重叠图像对，以便进行暴力匹配特征。

2.2 Global Camera Pose Estimation

全局相机位姿估计是区分全局SfM和增量SfM的关键步骤。全局SfM不是通过重复的三角测量和光束法平差（Bundle Adjustment，BA）来顺序配准相机，而是利用视觉图G作为输入，寻求一次性估计所有相机的位姿，通常将其分解为独立的旋转和位移平均步骤。

Rotation Averaging： 也称为旋转平均，与位姿图优化（PGO）算法相关。该问题通常被表述为非线性优化，惩罚全局旋转与估计的相对位姿之间的偏差。实际上，由于噪声和异常值，该问题通常通过鲁棒最小度量目标进行建模并优化为（如公式1所示）：

其中鲁棒器 (如Huber)、旋转参数化 (如四元数或轴角) 和距离度量 (如弦距离或测地线距离) 的各种组合。基于这些原则, 目前大多数工作进行展开研究。

Translation Averaging： 平移平均描述了估计全局相机位置的问题，这些位置在基于约束的条件下与成对的相对平移最大限度一致。然而，由于噪声和异常值，以及相对平移的未知尺度，任务尤其具有挑战性。

近年来，提出了不同的平移平均方法。Govind的开创性工作最小化了相对相机位置和观察方向之间的叉乘。Jiang等使用三元组对问题进行了线性化。Wilson等直接优化方向的差异，并设计了专门的异常值过滤机制。尽管这些研究取得了显著进展，但平移平均通常仅在视图图连接良好时才能可靠工作。这个问题本质上是不适定的，并且在相机受到或接近共线运动时对噪声测量敏感。此外，从双视图几何中提取相对平移只有在已知相机内参的情况下才可能。当这些信息不准确时，提取的平移不可靠。相反，作者跳过了平移平均的步骤，直接对相机和点的位置进行联合估计，视为一种全局定位。

Structure for Camera Pose Estimation： 例如直接使用双视图几何中的对应关系来估计全局平移。此外，为了减少尺度漂移，Holynski等将线和面特征集成到优化问题中。这些工作是将对3D场景结构的约束纳入有助于提高相机位置估计的鲁棒性和准确性。

2.3 Global Structure and Pose Refinement

在恢复相机后，可以通过三角测量获得全局3D结构。结合相机的外部参数和内部参数，3D结构通常会使用全局束调整进行精细化。

Global Triangulation： 给定双视图匹配，可以利用传递对应关系来增强完整性和准确性。多视图点的三角测量，此类任务的常见做法是直接线性变换（DLT）和中点法，以及最近的LOST方法。然而，上述三角测量机制在存在任意水平的异常值时往往会失效。基于RANSAC的三角测量方案，试图在存在不匹配的情况下建立多个点轨迹。

Global Bundle Adjustment： 全局束调整对获得准确的最终3D结构 , 相机外部参数和相机内部参数至关重要。它被形式化为一种联合鲁棒优化, 目标是最小化重投影误差, 如公式2所示：

2.4 Hybrid Structure-from-Motion

为了结合增量方法的鲁棒性和全局结构从运动（SfM）的效率，之前的研究提出了混合系统。HSfM提出了通过增量估计相机的位置和旋转。还有研究提出了一个图划分方法，首先将整个图像集划分为重叠的簇。在每个簇内，利用全局SfM方法估计相机姿态。然而，根据研究公式，当相机内部参数不准确时，这类方法依然不可用。作者通过在全局定位步骤中对目标进行不同建模，克服了这一限制。

2.5 Frameworks for Structure-from-Motion

目前有多个开源的结构从运动（SfM）框架可供使用。例如，增量SfM范式的代表-COLMAP，一个通用的SfM和多视角立体系统。开源的全局SfM流程，例如OpenMVG，它从几何验证匹配开始，使用对立RANSAC估计相对姿态。之后，OpenMVG通过调整循环长度加权来评估旋转一致性，以消除异常边，并利用剩余边通过稀疏特征值求解器求解全局旋转。全局平移通过三焦点张量进行精细化，然后使用方法进行平移平均。最后，OpenMVG通过逐点优化和全局束调整执行全局三角测量。类似方法还有Theia。

基于学习的系统流程有PixSfM，提出了一个联合优化机制，用于特征和结构以实现亚像素准确重建。VGGSfM，一个用于SfM任务的端到端学习框架。但是，这两种方法的处理能力仅限于数十幅图像。

本文出了一个新的端到端全局SfM流程（如图2所示）。

图2｜GLOMAP系统处理流程

03 方法精析

本节描述GLOMAP作为全局SfM是如何在鲁棒性和准确性方面缩小与增量SfM的差距。

3.1 Feature Track Construction

为了实现精确的重建，必须仔细构建特征轨迹。首先只考虑由两视图几何验证产生的内点特征对应。在这一步中，需要对两视图几何的初始分类进行区分：如果单应矩阵最能描述两视图几何，会使用矩阵来验证内点。同样的原理也适用于本质矩阵和基本矩阵。然后通过进行趋势性检验来过滤异常值。靠近任何一个极点或三角化角度较小的匹配也被移除，以避免由于较大的不确定性而产生的奇异性。在对所有视图图边进行成对过滤后，最后拼接所有剩余的匹配形成特征轨迹。

▲图3｜全局定位

3.2 Global Positioning of Cameras and Points

这个步骤旨在共同恢复点和相机位置（如图3所示）。作者这里没有先执行平移平均然后进行全局三角化，而是直接执行联合全局三角化和相机位置估计。针对标准增量和全局SfM系统中，目标函数初始化和误差的问题，本方法的目标函数，使用归一化方向差异作为误差度量。原始形式是基于相对平移提出的，而这里舍弃了相对平移约束，仅包括相机光线约束。具体来说，问题被建模和优化为：

其中, 是从相机观察点的全球旋转相机光线, 而是一个归一化因子。Huber作为鲁棒化函数，并且使用Levenberg-Marquardt作为优化器。所有点和相机变量均通过均匀随机分布初始化在范围内, 而归一化因子初始化为。

与重投影误差相比，本方法有几个优点。首先是鲁棒性。尽管重投影误差是无界的，上述公式等价于

其中对于最佳的是和之间的角度。因此，误差严格限制在[0，1]范围内。这样，异常值不会对结果产生重大偏差。其次，由于其双线性形式，在随机初始化时能够可靠收敛。

与经典的平移平均相比，在优化中舍弃相对平移项有两个关键优点。首先，本方法适用于内参不准确或未知以及不遵循预期针孔模型的退化相机的数据集（例如，处理任意互联网照片时）。这是它因为解决相对平移需要准确内参的知识。其次是全局SfM在共线运动场景中的适用性，这已知是平移平均的一个退化情况。与成对的相对平移相比，特征轨迹限制了多个重叠相机。因此，GLOMAP可以在常见的前向或侧向运动场景中更可靠地处理。

3.3 Global Bundle Adjustment

全局定位步骤为相机和点提供了一个稳健的估计。但是，当相机内参未知时，精度受到限制。为了进一步优化，利用Levenberg-Marquardt和Huber损失作为鲁棒化器进行了多轮的全局光束平差。在每一轮中，首先固定相机的旋转，然后与内参和点一起进行联合优化。然后，根据图像空间中的重投影误差过滤轨迹。当过滤轨迹的比例低于0.1%时，迭代停止。3.4 Camera Clustering

解决被采集的图像，不重叠的图像可能会被错误地匹配在一起。因此，不同的重构可以合并为一个重构。为了克服这个问题，通过对相机进行聚类来对重建进行后处理。首先，通过统计每个图像对的可视点数构建可视性图G。然后，寻找G中的强连通分量来发现具有良好约束的相机簇。递归地重复这个过程，直到没有更多的簇可以合并为止。

3.5 Proposed Pipeline

如图2所示，GLOMAP方法的流程图。该方法由两个主要组件组成：对应关系搜索和全局估计。对于对应关系搜索，它以特征提取和匹配开始。从匹配中估计两视图几何，包括基本矩阵、必需矩阵和单应性。几何上不可行的匹配会被排除。然后在几何验证的图像对上执行视图图校准。使用更新后的相机内参，估计相对相机姿态。关于全局估计，通过平均来估计全局旋转，并通过对和之间的角度距离进行阈值过滤来排除不一致的相对姿态。然后，通过全局定位联合估计相机和点的位置，随后进行全局束调整。同样的，重建的精度可以通过结构优化进一步提高。

04 实验

在各种数据集上对GLOMAP进行了大量实验，这些数据集覆盖了从标定到未标定、从无序到序列场景的情况。数据集包含ETH3D、LaMAR、2023年图像匹配挑战赛（IMC 2023）和 MIP360，并与最先进的框架（OpenMVG、Theia、COLMAP）进行了比较。

Metrics 对于所有评估，采用两个标准指标。对于无序图像数据，基于每对图像之间相对旋转和位移误差的最大值计算出的AUC（召回曲线下的面积）得分，这种误差的表述考虑了每一对可能相机之间的偏差。对于序列图像数据，在使用鲁棒的RANSAC方案将重建结果全局对齐到真实值后计算的相机位置误差的AUC得分。

4.1 Calibrated Image Collections

数据集ETH3D SLAM包含稀疏特征、动态物体和剧烈光照变化的序列数据。在具有毫米级精确地面真值的训练序列上进行方法评估。结果表明（如表1所示），GLOMAP系统的召回率比COLMAP高出约8%，在0.1m和0.5m阈值下分别提高9分和8分，且COLMAP的速度慢一个数量级。与其他全局SfM流程相比，GLOMAP在召回率上提高了18%和4%，在0.1m下AUC高出约11分，确认了其稳健性。

▲表1｜ETH3D SLAM数据集实验结果对比

ETH3D MVS（rig）每个场景包含约1000个多机rig曝光，每个曝光4张图像。该数据集包含室外和室内场景，5个训练序列具有毫米级的地面真值。结果如表2所示，GLOMAP成功重建了所有场景。相比之下，OpenMVG在所有场景上的表现较差，而COLMAP在一个场景上失败，Theia的表现始终低于本文的方法。在COLMAP成功的序列中，GLOMAP达到相似或更高的精度，其运行时间比全局SfM基线略慢，但比COLMAP快约3.5倍。

▲表2｜ETH3D MVS（rig）数据集实验结果对比

ETH3D MVS（DSLR）特征是一个无序的高分辨率图像集合，包含室内和室外场景，训练和测试序列都具有毫米级的地面真值。结果如表3所示，与其他ETH3D数据集一致，GLOMAP优于OpenMVG和Theia，同时与COLMAP达到类似的精度。对于exhibition_hall，GLOMAP的表现不准确，因为场景的旋转对称性导致旋转平均崩溃。由于场景规模较小，所有方法的运行时间相近。

▲表3｜ETH3D MVS（DSLR）数据集实验结果对比

LaMAR是一个大规模的室内和室外基准测试，每个场景包含数万个由各种AR设备和智能手机拍摄的图像。实验结果如表4所示，与其他基线相比，GLOMAP在HGE和LIN上实现了显著更准确的重建，包括COLMAP，同时在速度上比COLMAP快几个数量级。在CAB上，包括COLMAP在内的所有方法表现不佳，特别是在视觉检查中，由于存在许多前向运动轨迹、剧烈的昼夜光照变化，以及楼层/房间之间的许多对称性和重复外立面，这对这个极具挑战性的基准造成了很大的影响。

▲表4｜LaMAR数据集实验结果对比

4.2 Uncalibrated Images Collections

IMC 2023包含在复杂场景中unordered（无序）的图像集合。图像来自多个来源，通常缺乏先前的相机内参。结果如表5所示。GLOMAP在3°、5°和10°下的平均AUC分数比其他全局SfM基线高出几倍。运行时间与其他全局SfM流程相似。与COLMAP相比，所提方法在3°、5°和10° 下的AUC分数高出约4分，并且速度快约8倍。

▲表5｜IMC 2023数据集实验结果对比

MIP360包含7个以物体为中心的场景，这些场景的高分辨率图像是由同一相机拍摄的。如表6所示，GLOMAP与全局SfM基线相比，显著更接近参考模型。GLOMAP速度超过COLMAP的1.5倍。

▲表6｜MIP360数据集实验结果对比

4.3 Ablation

为了证明全局定位策略的有效性，通过替换组件进行实验，一是仅添加相对位移约束，称为（BATA，cam），以及二是添加点和位移约束（BATA，cam+pt）。在 ETH3D MVS（DSLR）和IMC 2023上进行了测试。结果表明（如表7所示），相对位移约束会降低收敛性和整体性能。

▲表7｜消融实验结果

4.4 Limitations

尽管GLOMAP总体上取得了不错的的性能，但某些情况下会失效。主要原因是旋转均值计算的失败，例如，由于对称结构（如表3中的Exhibition_Hall）。在这种情况下，GLOMAP可以与现有的方法结合，比如Doppelganger。此外，由于GLOMAP依赖传统的对应搜索，错误估计的双视图几何或完全无法匹配图像对（例如，由于外观或视角的剧烈变化）将导致结果下降，或在最坏的情况下，出现灾难性故障。

05 总结

GLOMAP 提出了一种新的全局SfM流程。以前的全局SfM系统被认为更高效但鲁棒性较差，GLOMAP重新审视了这个问题，发现解决关键在于在优化中使用点。GLOMAP不再通过不适定的位移平均来估计相机位置，也不再单独通过点三角测量获取3D结构，而是将它们合并为一个单一的全局定位步骤。通过在多个数据集上进行实验对比，GLOMAP在准确性和鲁棒性方面与增量方法相比有类似或更优的结果，同时速度快十倍。

#CFPT

干翻一众 FPN，专攻小目标检测！CFPT：无需上采样的新型FPN

在本文中，作者提出了跨层特征金字塔 Transformer （CFPT），这是一种无需上采样的新型特征金字塔网络，专门为航拍图像中的小目标检测而设计。

目标检测一直是一项具有挑战性的任务。大多数当前检测器优先考虑新颖的检测框架，却常常忽视了对基本组成部分（如特征金字塔网络）的研究。在本文中，作者提出了跨层特征金字塔 Transformer （CFPT），这是一种无需上采样的新型特征金字塔网络，专门为航拍图像中的小目标检测而设计。CFPT采用了两个精心设计的、具有线性计算复杂度的注意力模块：跨层通道注意力（CCA）和跨层空间注意力（CSA）。

CCA通过划分通道 Token 组来实现跨层交互，以沿空间维度感知跨层全局信息；而CSA则通过划分空间 Token 组来完成跨层交互，以沿通道维度感知跨层全局信息。通过整合这些模块，CFPT一步实现跨层交互，从而避免了元素逐点加和以及层与层之间传递引起的语义差距和信息丢失。此外，CFPT融入了全局上下文信息，这增强了小目标的检测性能。为了在跨层交互中进一步提升位置感知，作者基于层间相互感受野提出了跨层一致相对位置编码（CCPE）。作者在两个具有挑战性的航拍图像目标检测数据集上评估了CFPT的有效性，分别是VisDrone2019-DET和TinyPerson。大量实验证明了CFPT的有效性，它在计算成本更低的情况下，性能优于现有的特征金字塔网络。

相关代码将在https://github.com/duzw9311/CFPT发布。

I Introduction

得益于卷积神经网络（CNNs）和视觉 Transformer （ViTs）的进步，现有的目标检测器已经取得了显著的发展，并在自动驾驶、人脸检测、医学图像分析和工业质量检查等众多应用领域奠定了其基本解决方案的地位。

作为目标检测的一个子领域，小目标检测由于在卷积和池化操作过程中小目标特征可能会被大目标特征所淹没或遮盖，因此相较于传统的目标检测任务面临更大的挑战。如图3所示，作者展示了两个经典的小目标检测数据集在航拍图像中的数据分布箱线图：VisDrone2019-DET [2] 和 TinyPerson [3]。箱线图凸显了 VisDrone2019-DET 数据集不仅包含大量小目标（20到30像素），而且存在显著的尺度变化。相比之下，TinyPerson 数据集相比于 VisDrone2019-DET，主要包含更小尺寸的目标，大多数目标的大小不超过20像素。无人机飞行高度和拍摄角度显著影响目标尺度分布，导致在航拍图像上的目标检测性能相对较差。

图1：在VisDrone2019-DET数据集上，各种最先进特征金字塔网络的性能比较。作者通过替换RetinaNet [1]中的 Neck 组件来评估它们的性能。

为了应对这些挑战，已经连续提出了许多研究。鉴于无人机场景中前景的比例较小，现有的解决方案通常采用由粗到精的检测方案[4, 5, 6]。在粗略预测阶段，通常使用一个通用检测器来检测目标并预测密集的目标簇。随后，在细化阶段，通常会修剪、上采样该簇，并将其重新输入检测器以进行精细搜索。尽管上述模型架构可以有效地适应无人机视角，并且在较低的计算成本下比直接输入高分辨率图像增强了各种检测器的性能，但它仍然缺少专为空中图像中目标检测定制的基本组件，例如特征金字塔网络。特征金字塔网络作为图像金字塔的低计算成本替代方案，在多种检测器中被广泛使用，并已成为每个检测器的基本组成部分。最早的FPN [7]使用自上而下的单向路径将语义信息整合到浅层特征图中，有效增强了模型在多尺度目标检测方面的能力。由于逐层传递的单向路径不可避免地造成信息丢失[8]，随后的特征金字塔网络逐渐过渡到层与层之间的直接交互。

作者提出CFPT，一种新的跨层特征金字塔结构，它通过在不同方向（即空间方向和通道方向）促进跨层信息交互来增强模型的表达能力。

通过整合这两种交互，CFPT能够有效地捕获小型目标的必要全局上下文信息，同时保持较低的计算成本。

作者提出CCPE，一种基于层间互惠感受野的新型位置编码方法，旨在增强模型在跨层交互过程中对空间和通道位置的认识。
通过在VisDrone2019-DET和TinyPerson数据集上的大量实验，作者证明了CFPT在航拍图像中小型目标检测的有效性。

II Related WorkSmall Object Detection in Aerial Images

现代的目标检测器通常通过连续的卷积和池化层降低输入图像的分辨率，力求在性能与计算复杂度之间达到最佳平衡。因此，检测小物体本质上比常见目标检测更具挑战性，因为它们的小尺寸增加了在下采样过程中信息丢失的风险。

对于航拍图像中的小目标检测，ClusDet [17]采用了一种从粗到精的方案，首先检测密集的目标簇，然后在这些簇内进行搜索细化，以提高模型检测小物体的能力。DMNet [18]简化了ClusDet的训练过程，通过采用密度图生成网络来为簇预测生成密度图。遵循类似的检测流程，CRENet [19]和GLSAN [4]进一步增强了聚类预测算法，并优化了细粒度预测方案。UFPMP-Det [6]采用UFP模块和MPNet预测子区域，并将它们组装成单一图像以实现高效的单一推理，从而提高了检测的准确性和效率。CEASC [20]利用稀疏卷积优化了航拍图像中目标检测的传统检测器，降低了计算需求同时保持了竞争力的性能。DTSNNet [21]在Backbone和Neck之间引入了人工设计的块，以提高模型对多尺度特征的敏感性，并采用了专门针对小物体的训练样本选择方法。

上述解决方案优化了各种检测器，以适应航拍图像中的目标检测场景，而作者提出了一种专门针对这一背景下小目标检测的新型特征金字塔网络。

Feature Pyramid Network

为了减轻图像金字塔带来的巨大计算成本，特征金字塔网络（FPN）作为一种有效且高效的替代方法出现，它提高了各种检测器的性能。FPN [7] 利用一系列自顶向下的快捷连接来增强浅层特征图中缺乏的语义信息。基于FPN，PAFPN [12] 提出使用自底向上的快捷连接来解决深层特征图中细节信息的不足。Libra-RCNN [22] 通过结合非局部块来改进原始特征，以获得平衡的交互特征。为了减轻多尺度特征图中的语义差距，AugFPN [23] 引入了连贯的监督分支，并提出了ASF，用于跨多尺度动态特征融合。FPG [8] 使用规则网格表示特征尺度空间，并通过平行路径之间的多方向横向连接进行融合，从而增强了模型的特征表示能力。AFPN [11] 通过深层和浅层特征图的跨 Level 融合迭代改进多尺度特征，在具有常见尺度分布的目标检测中取得了竞争性的性能。

与先前方法不同，作者提出了CFPT，它利用全局上下文信息，并策略性地强调浅层特征图，以增强航拍图像中小型目标的检测。

Vision Transformer

作为计算机视觉中Transformer[24]的扩展，Vision Transformer (ViT)[25]在各种各样的视觉场景中[26, 27, 28]展示了显著的潜力。由于传统ViT与图像分辨率相关的二次计算复杂度，后续研究主要集中在开发轻量级的替代方案。Swin Transformer[29]通过限制特定窗口内的交互，并在交互过程中移动这些窗口以实现全局感受野。局部ViT[30, 31, 32]通过局部窗口内的交互引入局部诱导偏差，有效降低了模型的计算复杂度并加快了收敛速度。轴向注意力[33]通过将交互限制在图像宽度和高度上的条带，减少了计算复杂度。

遵循类似的轻量级概念，作者设计了两款具有线性复杂度（即CCA和CSA）的注意力块，以跨层捕捉沿各种方向（即空间方向和通道方向）的全局上下文信息，从而增强了模型对小物体的检测能力。

III Methodology

在本节中，作者将详细介绍所提出的跨层特征金字塔 Transformer （CFPT）。在第三节A部分，作者首先概述了所提出CFPT的整体架构。随后，在第三节B和C部分，作者介绍了CFPT的两个关键组成部分，即跨层通道注意力（CCA）和跨层空间注意力（CSA）。在第三节D部分，作者提出了一种新颖的跨层一致相对位置编码（CCPE），旨在增强模型的跨层位置感知能力。

Overview

如图4所示，CFPT采用多个并行的CBR块来构建跨层特征交互的输入，这些输入来自特征提取网络（如ResNet[34]）的多级特征图输出，从而降低了计算复杂度，满足了大多数检测器在架构上的要求。通过利用堆叠的跨层注意力模块（CAMs），CFPT增强了模型利用全局上下文信息和跨层多尺度信息的能力。

具体来说，CAM模块由一系列跨层通道注意力（CCA）和跨层空间注意力（CSA）组成。CCA沿着通道维度促进局部跨层交互，从而通过每个通道 Token 组的交互在空间维度上建立一个全局感受野。相反，CSA沿着空间维度促进局部跨层交互，通过每个空间 Token 组的交互捕捉通道维度的全局上下文信息。此外，作者通过在CAM的输入和输出之间使用捷径分支来进一步提高梯度增益。

假设经过CBR块后每个尺度的特征图可以表示为 , 其中是输入层的数量, 每个特征图的空间分辨率随橧加而增大, 同时保持通道数

其中是一组经过跨层交互的多尺度特征图，其形状与相应的输入特征图保持一致。

值得注意的是，作者的CFPT消除了复杂特征上采样操作和逐层信息传输机制，这些机制在层间传输过程中容易造成信息丢失，并导致计算负载增加和内存访问延迟。相反，作者通过利用尺度间相互感受野大小的局部分组操作，对多尺度特征图执行一步跨层邻近交互操作，从而促进尺度间的信息混合。这种方法使得每个尺度的特征能够平衡地从其他层获取信息（即使这些层相隔较远），同时促进自我修正，并从局部交互提供的归纳偏置中受益[32]。

跨层通道注意力

假设CCA的输入特征图集合为。如图5(a)所示, CCA沿着通道维度执行跨层的多尺度邻近交互, 从而为每个通道 Token 提供空间维度的全局上下文信息。为了构建交互式输入, 作者首先在每个尺度上对特征图执行通道重建 (CR), 以确保它们具有相同的空间分辨率, 从而得到

接下来, 作者执行重叠通道式 Patch 划分 (OCP) 以形成通道式标记组, 这可以看作是沿着通道维度在局部区域具有重叠区域的 Patch 嵌入[25], 其中不同尺度的特征图上的 Patch 大小是不同的。具体来说, 根据多尺度特征的形状, 中相邻特征图的通道大小相差一个 4 倍因子（即, )。为了构建重叠的邻近交互组, 作者引入一个扩展因子对执行OCP, 从而得到

以第层的特征图为例, 在获得之后, 作者采用跨层一致的多头注意力机制来捕获沿空间维度的全局依赖性, 从而得到交互结果

其中是线性投影矩阵。分别表示连接的键和值, 其中代表连接操作。表示第

在为每个尺度的特征图获得交互结果之后, 作者应用反向重叠通道式 Patch 划分 (ROCP) 来恢复 OCP 的影响, 并得到

作者最终使用空间重建 (SR) 来获得与输入X形状相匹配的结果

Cross-layer Spatial-wise Attention

同样，将CSA的输入特征图集合表示为。如图5(b)所示，CSA沿着空间维度跨层执行多尺度邻近交互，为每个空间标记提供沿通道维度的全局上下文信息。

由于输入特征图的通道大小在CBR块后匹配（例如，256），无需使用CR和SR等方法来调整它们的大小, 正如在CCA中所做的那样。因此, 作者可以直接执行重叠空间划分 (OSP) 来形成空间标记组, 这可以看作是在不同尺度特征图上使用不同大小的矩形框进行滑动裁剪。假设OSP的扩展因子为 , 通过上述操作, 作者可以得到

然后, 作者在跨层空间标记组内执行局部交互, 并使用跨层一致性多头注意力来捕获沿通道维度的全局依赖性, 从而得到。对于第

其中是线性投影矩阵。和。表示第

接下来, 作者使用反向重叠空间划分（ROSP）来反转OSP的效果, 并获得交互结果集

Cross-layer Consistent Relative Positional Encoding

由于在交互过程中，它们各自的跨层标记组内的每个标记都保持着特定的位置关系。然而，传统的多头注意力机制统一处理所有交互标记，这对于像目标检测这样对位置敏感的任务来说会导致次优结果。因此，作者引入了跨层一致相对位置编码（CCPE），以增强CFPT在交互过程中的跨层位置感知。

CCPE的主要解决方案是基于对多个尺度上的相互感受野进行对齐, 这由卷积的特性决定。以CSA 为例, 每对空间标记组之间的注意力图集合其中是头的数量, , 如方程 9 中定义。为了简化, 作者忽略和 , 并定义和 , 其中和分别表示第层和第层空间标记组的高度和宽度。因此, 注意力图集合可以重新表示为

CCGE的过程如图6所示。作者定义了一个可学习的码本 , 并通过计算它们的跨层一致相对位置索引, 从码本中获取任意两个标记之间的相对位置信息。为了简化, 考虑来自第层和第层的空间标记组的交互，其中和

为了获得相对于的相对位置信息, 作者首先使用它们各自的空间标记组大小来中心化它们的坐标, 以获得和

Complexity Analysis

在本节中，作者将分析典型相关分析（CCA）和通道分割注意力（CSA）的计算复杂性。此外，由于在训练和测试阶段，空间域和通道域的标记组大小保持不变，它们的计算复杂性与输入特征图的空间分辨率成线性关系。

Iii-E1 Cross-layer Channel-wise Attention

考虑一组输入特征图集合, 记作。此外, 令表示在CCA中使用的扩展因子。CCA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的

Iii-E2 Cross-layer Spatial-wise Attention

假设输入特征图集合为。此外, 令表示在CSA中使用的扩展因子。CSA的整体计算复杂度包括线性投影的 , 注意力交互的 , 以及FFNs的

IV Experiments

Datasets

作者通过将提出的CFPT应用于两个特别为从小型无人机视角进行小目标检测而设计的挑战性数据集来评估其有效性：VisDrone2019-DET [2] 和 TinyPerson [3]。

Iv-A1 VisDrone2019-DET

这个数据集包含了7,019张由无人机拍摄的图片，其中6,471张用于训练，548张用于验证。数据集涵盖了十个类别：自行车、三轮车、三轮机动车、货车、公交车、卡车、摩托车、行人、人以及汽车。这些图片的分辨率大约为像素。

Iv-A2 TinyPerson

这个数据集由无人机收集，主要用于远距离场景中的小目标检测，因为目标目标的平均长度小于20像素。它包含1,610张图片，其中794张用于训练，816张用于测试。数据集包含72,651个标记实例，分为两组：“海上行人”和“陆地行人”。为了简化，作者将上述两个类别合并为一个类别，命名为“行人”。

Implementation Details

作者使用PyTorch [48] 和MMdetection工具箱 [49] 实现了所提出的CFPT。所有模型都在单块RTX 3090上进行训练和测试，批处理大小为2。在模型训练中，作者使用SGD作为优化器，学习率为0.0025，动量为0.9，权重衰减为0.0001。作者在VisDrone2019-DET数据集上进行了消融研究，并比较了各种最先进的特征金字塔网络性能，输入分辨率为，并采用计划（12个周期）。为了加速模型收敛，作者在训练开始时采用了线性预热策略。为了比较在VisDrone2019-DET数据集上各种最先进检测器的性能，作者训练模型15个周期，以确保按照CEASC [20]的方法完全收敛。

在TinyPerson数据集 [3] 的实验中，为了减少内存使用过度，作者将高分辨率图像划分为大小均匀的块，并设有30%的重叠比例。每个块按比例缩放，以确保最短边长为512像素。为了全面评估模型性能，作者在模型训练中设置了批处理大小为1，并采用计划，同时实施多尺度训练和多尺度测试。

Comparison with Other Feature Pyramid Networks

作者最初在VisDrone2019-DET数据集上，将提出的CFPT与基于RetinaNet [1]的各种最先进特征金字塔网络性能进行了比较。如表格I所示，作者的CFPT在不同的 Backbone 网络上，包括ResNet-18、ResNet-50和ResNet-101，均取得了RetinaNet的最佳结果，同时在性能与计算复杂度之间取得了最优平衡。此外，与专注于航拍图像中小目标检测的SSFPN相比，作者的CFPT在参数更少（分别为-3.8M、-3.5M和-3.5M）和FLOPs更低（分别为-55.5G）的情况下，实现了更好的性能（+0.8 AP、+0.5 AP和+0.4 AP）。这证明了CFPT在航拍图像中小目标检测的应用潜力。

Comparison with State-of-the-Art Methods

为了进一步验证CFPT的有效性，作者将当前最先进检测器中的特征金字塔网络替换为CFPT，并在VisDrone2019-DET和TinyPerson数据集上比较其性能表现。

Iv-D1 VisDrone2019-DET

作者将GFL [43]中的特征金字塔替换为CFPT，并将其性能与各种最先进的检测器进行比较。如表格II所示，应用作者的CFPT分别基于ResNet-18、ResNet-50和ResNet-101，将GFL的性能提升了0.8 AP、0.7 AP和0.7 AP。尽管参数数量略有增加，分别为0.3 M、0.2 M和0.2 M。与CEASC [20]相比，作者的参数仅增加了0.1 M，却实现了显著的性能提升（分别提升了+0.7 AP、+0.6 AP和+0.6 AP），证明了作者CFPT的有效性。

Iv-D2 TinyPerson

在TinyPerson数据集上的比较中，作者采用了文献[3]中定义的评价指标来全面评估模型的性能。作者观察到，GFL [43]在细粒度检测方面表现出色，这体现在其在AP-tiny指标上的优越性能上；而FSAF [41]在粗粒度预测方面更为有效，这从其在AP-tiny和AP-tiny指标上的更好性能可以证明。因此，作者将CFPT分别整合到GFL和FSAF中，以评估其在两种场景下的适应性。如表格III所示，CFPT带来了显著的性能提升，包括为GFL提高了2.4个AP-tiny（44.2 AP-tiny对比41.8 AP-tiny），以及为FSAF提高了2.0个AP-tiny（44.5 AP-tiny对比42.5 AP-tiny），所有性能指标均有增强。因此，有效整合CFPT可显著提升模型对小物体的检测性能，证明了其在航拍图像中小目标检测的有效性。

Ablation Study

在消融研究部分的开头。

V-E1 Order of CCA and CSA

作者研究了CCA（典型相关分析）和CSA（通道空间注意力）应用的顺序对模型性能的影响。具体来说，作者比较了如图7所示的三种解决方案的性能，包括先应用CCA后应用CSA（CCACSA）、先应用CSA后应用CCA（CSACCA）以及同时应用CCA和CSA（CCACSA）。如表4所示，CCACSA的模式取得了最优性能，平均精度（AP）为22.2。作者认为这是因为CCA沿着空间方向提供了全局感受野，使得CSA能够利用全局上下文信息来预测更准确的注意力图，并获取更优的邻近细节信息。然而，由于CSA沿着通道方向具有全局感受野，首先应用它可能会破坏局部性，阻止CCA准确关注空间上的邻近信息。此外，CCACSA将导致CCA和CSA之间没有交互，使得无法利用彼此的信息进行精细的信息聚合。

V-E2 Effectiveness of each proposed component

作者通过逐步将提出的模块整合到 Baseline 模型（即没有FPN的RetinaNet）中来评估每个组件的有效性。如表5所示，将CCA和CSA分别整合到 Baseline 模型中，显著提升了模型性能，分别提高了3.5个AP和3.4个AP。将CCA和CSA综合整合到CAM中，模型实现了3.9个AP的提升（22.0 AP对比18.1 AP）。随后，应用CCPE进一步增强了模型性能，最终AP达到了22.2。值得注意的是，与表1中的大多数特征金字塔网络相比，仅整合CCA或CSA就能实现更优的性能，这突显了它们在航空图像中小目标检测的潜力。

作者还报告了每个组件对模型计算复杂度、参数数量和推理速度的影响，具体见表5。当仅使用单一组件（例如CCA）时，与 Baseline 模型相比，CFPT引入了额外的1.4M参数、7.4G FLOPs和每张图像0.004秒的推理延迟，同时实现了显著性能提升（+3.5 AP）。当使用所有组件时，CFPT引入了额外的2.8M参数、14.8G FLOPs和每张图像0.01秒的推理延迟，同时实现了显著性能提升（+4.1 AP）。因此，CFPT能够在性能与计算复杂度之间实现更好的平衡。

Iv-D3 Number of CAMs

作者评估了CAMs数量对模型性能的影响。如表格VI所示，增加CAMs的数量一致性地提升了模型的性能。当使用三个CAMs时，模型达到了22.5的AP，相较于 Baseline 模型提高了4.4个AP点（22.5 AP对比18.1 AP）。为了更好地平衡计算复杂度与性能，作者在所有其他实验中将CAM的堆叠数量设置为1，尽管更多的CAMs会带来更多的好处。

Iv-D4 Channel Size reduction factor and MLP ratio

作者研究了不同的通道尺寸缩减因子（即特征图通道在注意力交互中的压缩比）和多层感知器（MLP）比例（即在FFN中通道尺寸的扩展比）的影响，旨在找出能够平衡计算复杂度和模型性能的最佳组合。如图9所示，当通道尺寸缩减因子设为4，MLP比例设为2时，模型在计算复杂度和性能之间达到了最佳平衡。因此，在VisDrone2019-DET和TinyPerson数据集上进行的所有实验中，作者均采用这一组合方案。

Qualitative Analysis

作者通过在VisDrone2019-DET和TinyPerson数据集上可视化检测结果来对CFPT进行定性分析，所有可视化的置信度阈值设置为0.3。如图8所示，作者将CFPT应用于GFL，并将其与 Baseline 模型（即GFL）和CEASC在VisDrone2019-DET数据集上进行定性比较。应用CFPT有效降低了模型的漏检率（第一行和第三行）和误检率（第二行），从而提升了整体性能。此外，图8的第三行展示了CFPT在小目标检测方面的有效性。如图10所示，在TinyPerson数据集上的检测结果进一步验证了上述解释，表明CFPT在降低漏检和误检率的同时，有效提升了模型对小目标的检测能力。

V Conclusion

在本论文中，作者引入了CFPT，这是一种新型的无需上采样的特征金字塔网络，

CFPT能够明确更多地关注浅层特征图，并摒弃基于静态核的交互方案，以减轻尺度差异对模型性能的影响，这使得它特别适合于航拍图像中的目标检测。

具体来说，CFPT由两个精心设计的、具有线性计算复杂度的注意力模块组成，分别为CCA和CSA。这两个模块从不同角度捕捉上下文信息，它们的融合为模型提供了对检测小目标至关重要的全局上下文建模能力。

此外，为了在跨层交互中增强位置感知，作者提出了一种新的位置编码方法CCPE。在两个具有挑战性的航拍数据集上的大量实验表明，CFPT在优于现有最先进的特征金字塔网络的同时，也降低了计算成本。

在未来的工作中，作者计划探索可变形的跨层交互解决方案，并研究更有效的实现策略。

#脉冲神经网络 (SNN)

如何看待第三代神经网络SNN？详解脉冲神经网络的架构原理、数据集和训练方法

脉冲神经网络 (SNN) ，旨在弥合神经科学和机器学习之间的差距，使用最拟合生物神经元机制的模型来进行计算，更接近生物神经元机制，但其实用价值却一直存在着争议。本文深入浅出的带大家学习和了解这一研究方向及其模型的训练过程。

1 脉冲神经网络简介

脉冲神经网络 (SNN) 属于第三代神经网络模型，实现了更高级的生物神经模拟水平。除了神经元和突触状态之外，SNN 还将时间概念纳入了其操作之中，是一种模拟大脑神经元动力学的一类很有前途的模型。

那么什么是第一代和第二代神经网络模型呢？

第一代神经网络

第一代神经网络又称为感知器，在1950年左右被提出来，它的算法只有两层，输入层输出层，主要是线性结构。它不能解决线性不可分的问题，对稍微复杂一些的函数都无能为力，如异或操作。

第二代神经网络：BP 神经网络

为了解决第一代神经网络的缺陷，在1980年左右 Rumelhart、Williams 等人提出第二代神经网络多层感知器 (MLP)。和第一代神经网络相比，第二代在输入层之间有多个隐含层的感知机，可以引入一些非线性的结构，解决了之前无法模拟异或逻辑的缺陷。

第二代神经网络让科学家们发现神经网络的层数直接决定了它对现实的表达能力，但是随着层数的增加，优化函数愈发容易出现局部最优解的现象，由于存在梯度消失的问题，深层网络往往难以训练，效果还不如浅层网络。

所有对目前机器学习有所了解的人都听说过这样一个事实：目前的人工神经网络是第二代神经网络。它们通常是全连接的，接收连续的值，输出连续的值。尽管当代神经网络已经让我们在很多领域中实现了突破，但它们在生物学上是不精确的，其实并不能模仿生物大脑神经元的运作机制。

第三代神经网络：脉冲神经网络

第三代神经网络，脉冲神经网络 (Spiking Neural Network，SNN) ，旨在弥合神经科学和机器学习之间的差距，使用最拟合生物神经元机制的模型来进行计算，更接近生物神经元机制。脉冲神经网络与目前流行的神经网络和机器学习方法有着根本上的不同。SNN 使用脉冲——这是一种发生在时间点上的离散事件——而非常见的连续值。每个峰值由代表生物过程的微分方程表示出来，其中最重要的是神经元的膜电位。本质上，一旦神经元达到了某一电位，脉冲就会出现，随后达到电位的神经元会被重置。对此，最常见的模型是 Leaky Integrate-And-Fire (LIF) 模型。此外，SNN 通常是稀疏连接的，并会利用特殊的网络拓扑。

然而，关于 SNN 作为人工智能和神经形态计算机群体中的计算工具的实用价值，长期以来一直存在争论。尤其是和人工神经网络 (ANN) 相比。在过去的几年里，这些怀疑减缓了神经形态计算 (neuromorphic computing ) 的发展，而随着深度学习的快速进步，研究人员试图从根本上缓解这个问题，人们想要通过加强 SNN 的手段，如改善训练算法，来缓解这个问题。

与成熟有效的人工神经网络 (ANN) 训练算法：误差反向传播算法 (Back Propagation) 不同，神经网络研究中最困难的问题之一是由于复杂的动力学和脉冲的不可微性质导致的训练困难。

为了提升脉冲神经网络的精度，已有一些前人的工作做出了探索，如：

Spike timing dependent plasticity (STDP) ：无监督学习方法

1 Unsupervised learning of digit recognition using spike-timing-dependent plasticity

添加奖励机制

2 Combining stdp and reward-modulated stdp in deep convolutional spiking neural networks for digit recognition

把预训练好的 ANN 转化为 SNN

3 Spiking deep convolutional neural networks for energy-efficient object recognition
4 Spiking deep residual network
5 Fast-classifying, high-accuracy spiking deep networks through weight and threshold balancing
6 Training spiking deep networks for neuromorphic hardware
7 Conversion of continuous-valued deep networks to efficient event-driven networks for image classification

为了提升 ANN 与 SNN 的兼容性，通常把 bias 去掉，使用 ReLU 激活函数，把 max-pool 换成 average-pool 等。把 ANN 转化成 SNN 时，通常包括 weight/activation normalization，threshold tuning, sampling error compensation 等操作以维持精度。

脉冲神经网络使用 BP 算法训练

8 Hybrid macro/micro level backpropagation for training deep spiking neural networks
9 Training deep spiking neural networks using backpropagation
10 Spatio-temporal backpropagation for training high-performance spiking neural networks
11 Direct training for spiking neural networks: Faster, larger, better

在执行反向传播时，梯度可以沿着空间维度通过聚合脉冲传播，也可以沿着时间和空间2个维度通过计算膜电势的梯度传播。

简而言之，通过上述努力，SNN 在视觉识别任务中的应用精度逐渐接近 ANN。

由于 SNN 缺乏专门的benchmark，许多工作直接使用 ANN 的 benchmark 来验证 SNN 模型。例如，用于 ANN 验证的图像数据集被简单地转换为 Spike 版本，用于 SNN 训练和测试。此外，网络的准确性仍然是主要的评估指标，但众所周知，我们的大脑在绝对识别准确性方面，通常比现有的人工智能机器表现得差。这反映了我们需要更全面和公平的衡量标准来评估和模拟生物大脑工作方式的 SNN。简而言之，由于不适当的评估指标，目前的 SNN 无法击败 ANN。因此，出现了1个开放的问题，即：

如何评估 SNN 是有意义的？

Training spiking deep networks for neuromorphic hardware

这篇文章将预训练好的 ANN 转化成 SNN，在这个工作里面作者考虑到了 SNN 网络的 Efficiency，而不仅仅是 Accuracy。评价一个 SNN 时要从多个角度考量，比如：application accuracy，memory cost, compute cost 。

在以 ANN 主导的评价指标和任务中，相同大小的 SNN 无法打败 ANN。但是在以 SNN 主导的评价指标和任务中，SNN 的表现会更好。

2 脉冲神经网络原理

如下图1所示是ANN 和 SNN 的单个基本神经元。

图1：ANN 和 SNN 的基本神经元

(a) 图是典型的单个 ANN 神经元，ANN 的计算方法是：

式中，是非线性的激活函数。

代表上个神经元过来的连续的激活值 (Pre-activation)，通过突触 (Synapse) 传递到树突的位置 (Dendrite)，并且最终由细胞体 (Soma) 来处理这个激活值 (具体处理方法就是1式)。

ANN 中的神经元使用高精度和连续值编码的激活值进行相互通信，并且只在空间域 (spatial domain，即 layer by layer) 传播信息。从上述方程可以看出，输入和权重的相乘和累加 (MAC) 是网络的主要操作。

(b) 图是典型的单个 SNN 神经元，它的结构与 ANN 神经元相似，但行为不同。脉冲神经元之间的交流通过 binary 的 events，而不是连续的激活值。

代表上个神经元过来的一个一个的脉冲 (Spike)，通过突触 (Synapse) 传递到树突的位置 (Dendrite)，并且最终由细胞体 (Soma) 来处理这些脉冲 (具体处理方法就是2式)。

这个式子看起来很麻烦，我们先来理解下每个变量的含义。

式中代表时间步长，是常数，和代表膜电位和输出峰值。

和分别是静息电位和重置电位。

是第个输入突触的权重。

是当第个输入突触的第个脉冲在这个积分时间窗口内激发了 (即状态为1) 的时刻。

是代表延时效应的核函数。

是积分时间窗口。

是个阈值，代表要不要点火 (Fire) 一次。

接下来我们用人话解释一下2式是什么意思：

1 当膜电位  (也就是细胞体 Soma 这个隐含电位) 高于阈值  时，脉冲神经元看做一次点火，此时输出电位  置为1，同时膜电位  回归到重置电位  。

2 当膜电位  (也就是细胞体 Soma 这个隐含电位) 低于阈值  时，不点火，此时输出电位  保持为0。

3 在每个 time step，膜电位  的更新过程满足一个微分方程，即2.1式。

4 在每个 time step，膜电位  值应下降  这么大的值，其中  是静息电位。

5 同时在每个 time step，膜电位  值应上升一个值，这个值来的大小与这个神经元的  个输入突触有关，每个输入突触的权值是  ，这个突触对膜电位上升的贡献值是  ，即在  个脉冲中，如果  时刻的输入脉冲是点火状态 (即1状态)，那么计算一次  并累积起来。

与 ANN 不同的是，SNN 使用脉冲的序列来传递信息，每个脉冲神经元都经历着丰富的动态行为。具体而言，除了空间域中的信息传播外，时间域中的过去历史也会对当前状态产生紧密的影响。因此，与主要通过空间传播和连续激活的神经网络相比，神经网络通常具有更多的时间通用性，但精度较低。由于只有当膜电位超过一个阈值时才会激发尖峰信号，因此整个尖峰信号通常很稀疏。此外，由于尖峰值 (Spike) 是二进制的，即0或1，如果积分时间窗口调整为1，输入和权重之间的乘法运算就可以消除。由于上述原因，与计算量较大的 ANN 网络相比，SNN 网络通常可以获得较低的功耗。

3 脉冲神经网络数据集

这一节介绍下脉冲神经网络的基本数据集。

像 MNIST，CIFAR10 这类基于帧的静态图像，广泛应用于 ANN 中，我们称之为 ANN-oriented dataset，如下图2的前2行所示。

CIFAR-10：32×32×3 RGB image，Training set：50000，Testing set：10000

MNIST：28×28×1 grayscale image，Training set：60000，Testing set：10000

图2：ANN和SNN基本数据集

图2的后2行 N-MNIST 和 DVS-CIFAR10 叫做 SNN-oriented dataset。这里的 DVS 叫做 dynamic vision sensor，代表使用了动态视觉传感器扫描每张 images 得到的 spike 数据。它除了具有与 ANN-oriented dataset 相似的空间信息外，还包含更多的动态时间信息，而且尖峰事件与神经网络中的信号格式自然兼容，因此我们称之为 SNN-oriented dataset。

DVS 产生两个通道的脉冲事件，命名为 On 和Off 事件 (分别如图2中红色和蓝色所示)。因此，DVS 将每个图像转换为的脉冲模式。

N-MNIST：34×34×2×T spatio-temporal spike pattern，Training set：60000，Testing set：10000

DVS-CIFAR-10：128×128×2×T spatio-temporal spike pattern，Training set：9000，Testing set：1000

一般来说，ANN 接收帧为基础的图像，而 SNN 接收事件驱动的脉冲信号。因此，有时需要将相同的数据转换为另一个域中的不同形式来处理。本文以视觉识别任务为例，主要介绍了四种信号转换方法，如下图3所示。

图3：数据信号转换方法

Image to spike pattern

由图片信号转化为脉冲信号的方法比较直观。

一种方法是：如图3 (a) 所示。 在每一个时间步骤，采样的原始像素强度 (pixel intensity) 到一个二进制值 (通常归一化为[0,1])，其中的这个强度值就等于发射一个脉冲的概率。这个采样样遵循一个特定的概率分布，例如伯努利分布或泊松分布。

例如，图3(a) 中的神经元，对应于标准化强度为 0.8 的 intensity，产生一个二进制尖峰序列，跟随着伯努利分布。这里是取样的时间窗口。

再例如，图3(a) 中的神经元，对应于标准化强度为 0.1 的 intensity，产生一个二进制尖峰序列，跟随着伯努利分布。这里是取样的时间窗口。

这种方法在取样的时间窗口比较短时有一个较大的精度损失。

另一种方法是： 如图3 (b) 所示。使用一个编码器来产生全局的脉冲信号。这个编码器的每个神经元接受图片多个像素的强度值intensity 信号作为输入，而产生脉冲作为输出。虽然编码层是 ANN-SNN 混合层，而不是像网络中的其他层那样的完整 SNN 层，但它的权重是可训练的，因为我们的训练方法也是 BP 兼容的。由于神经元的数量可以灵活定制，参数也可以调整，因此它可以适应整体最佳化问题，从而获得更高的精确度。

Spike pattern to image

由脉冲信号转化为图片信号的输出主要有2种：

binary image with 0/1 pixels。
intensity image with real-valued pixels。

如图3(c) 所示，代表把脉冲pattern转化为二值图片。2D 脉冲 pattern 可以直接看做一个二值图像 (每个脉冲 Event 代表像素强度为1，否则像素强度为0)。为了转换为强度图像 (Intensity image)，需要在一个时间窗内随时间对脉冲时间的累积。

如图3(d)所示，代表把脉冲pattern转化为强度图片。描述了100毫秒内脉冲事件的累积过程，累积脉冲数将被归一化为具有适当强度值的像素。由于 DVS 的相对运动和固有噪声，使得图像常常模糊，边缘特征模糊。这种转换只允许一个强大的假设，每个脉冲位置不应该移动，否则将严重损害生成的图像质量。

ANN-oriented workloads

ANN-oriented workloads 的含义是目标是识别在 ANN 中经常使用的基于帧的数据集 (如 MNIST 和 CIFAR10)。有3种基准模型：

1 如下图4(a) 所示，最直接的解决办法是 ANN 训练 + ANN 推理。

2 如下图4(b) 所示，这种方案是先在 ANN 数据集上使用 BP 算法训练一个 ANN，再把这个训练好的 ANN 转化成 SNN。这个 SNN 与 ANN 拥有相同的结构，但是不同的神经元。这个 SNN 在推理时使用的是 ANN 数据集转化得到的 SNN-oriented dataset。

3 如下图4(c) 所示，这种方案是直接使用 SNN-oriented dataset 训练一个 SNN，训练方法是 BP-inspired Training。在每个时刻和位置的梯度直接由 spatio-temporal backpropagation (STBP) 方法得到。

图4：ANN-oriented workloads 模型配置

SNN-oriented workloads

SNN-oriented workloads 的含义是目标是识别在 SNN 中经常使用的脉冲数据集 (如 N-MNIST 和 DVS-CIFAR10)。有2种基准模型：

1 如下图5(a) 所示，把脉冲数据集转化成图片，即 ANN-oriented dataset，然后使用 BP 算法训练 ANN 并推理。脉冲数据集转化成图片的方法就是图3的 (c)(d) 所示。

2 如下图5(b) 所示，这种方案是直接使用 SNN-oriented dataset 训练一个 SNN，训练方法是 BP-inspired Training。在每个时刻和位置的梯度直接由 spatio-temporal backpropagation (STBP) 方法得到。

图5：SNN-oriented workloads 模型配置

4 脉冲神经网络训练方法

ANN 的 BP 训练方法

可以用下式表示：

式中，是层的第个神经元的激活函数的导数。是损失函数，比如可以是 MSE Loss：。

SNN 的 STBP (时空反向传播) 训练方法

基于的前向模型是2式的 LIF 的 SNN 模型，为了阅读的方便再把2式写一遍。

LIF 模型的迭代版本可以用下式表示：

式中，代表脉冲输出，代表 time step，代表 layer index。代表膜电位的延迟效应。是阶跃函数 (step function)。这种迭代的 LIF 模型包含了原始神经元模型中的所有行为，包括集成 (integration)，触发 (fire) 和重置 (reset)。

注意，为了简单起见，我们在原来的 LIF 模型中设置了。给定迭代 LIF 模型，梯度沿着时间和空间维度传播，LIF 模型的迭代版本的参数更新可以按照如下方式进行：

从膜电位到输出是个阶跃函数，它是不可导的。为了解决这个问题，有下面这个辅助函数计算输出到膜电位的导数值：

式中，参数决定了梯度宽度。

是损失函数，比如可以是 MSE Loss：。

5 脉冲神经网络评价指标

众所周知，基于 SNN 的模型通常无法在绝对识别准确性方面击败当前基于 ANN 的 AI 系统，而真正的大脑在其他指标上表现更好，比如操作效率。然而，在最近的研究中，识别精度仍然是判断哪个模型 (ANN 或 SNN) 更好的主流指标，特别是在算法研究中。这是不公平的，因为 ANN 和 SNN 有非常不同的特点。例如，数据的精度 ANN 比 SNN 更高，这就使得在网络大小相同的情况下，ANN 通常比 SNN 更容易获得更好的识别精度。所有这些都表明模型评估需要更全面的度量。除了通常的精度比较，这里我们进一步介绍了内存和计算成本作为互补的评估指标。

识别精度 (Recognition accuracy)

在 ANN 中，这个精确度意味着正确识别样本的百分比。如果标签类别与模型预测的最大激活值相同，则识别结果对当前样本是正确的。

在 SNN 中，我们首先计算每一个输出神经元的 fire rate，即脉冲率，当然是在给定的时间窗内。然后取 fire rate 最高的那个神经元作为输出，写成公式就是：

式中，代表网络的第层，第个神经元在第时刻的输出。

下面介绍的内存花销和计算花销都是指推理过程。原因有2点，一方面， spatio-temporal gradient propagation 相对于推理过程来讲非常复杂。另一方面，大多数支持 SNN 的神经形态学设备只执行推理阶段 (inference phase)。

内存花销 (Memory cost)

通常，在嵌入式设备上部署模型时，内存占用 (Memory cost) 非常重要。

在 ANN 中，存储器成本包括权重内存 (weight memory) 和激活值内存 (activation memory)。activation memory 的开销被忽略，但是如果使用查找表来实现的话应该被计算在内。

在 SNN 中，内存成本包括权重内存 (weight memory)，膜电位内存 (membrane potential memory) 和脉冲内存 (spike memory)。其他参数如点火阈值和时间常数等可以忽略，因为它们可以被同一层或整个神经网络的所有神经元共享。只有当脉冲触发时，脉冲内存 (spike memory) 开销才会出现。总之，内存开销可以通过下式计算：

式中，由网络结构决定，而由每个时间戳最大脉冲数动态地决定。

计算花销 (Compute cost)

计算开销对于运行延迟和能量消耗是至关重要的。

在 ANN 中，计算开销主要由方程中的 MAC 运算决定。

在 SNN 中，主要的计算成本来自脉冲输入的这个积分的过程。与 ANN 有两点不同：

代价高昂的乘法运算可以省去，如果假设。此时树突的这个积分运算 (integration，注意看2式) 就变成了，成为了一个纯加法运算。
积分是事件驱动的，这意味着如果没有收到脉冲信号就不会进行计算。

计算开销可以通过下式计算：

在细胞体中的计算开销 (例如 ANN 中的激活函数和 SNN 中的膜电位更新和触发活动) 被忽略，这是神经网络设备中的一种常见方式。

注意，在 SNN 中，与 Spike 事件的总数成正比。

#Moiré Zero

迈向“零”摩尔纹，一种高效、高性能的图像去摩尔纹新架构

本文解读一篇来自成均馆大学、延世大学及三星显示的研究者们带来的最新成果——《Moiré Zero: An Efficient and High-Performance Neural Architecture for Moiré Removal》。这项工作提出了一种名为MZNet的新型神经网络架构，旨在高效、彻底地消除数字图像中的摩尔纹（Moiré patterns），使图像质量趋近于“零摩尔纹”的理想状态。该研究在多个基准数据集上取得了当前最佳（SOTA）的性能，同时保持了较低的计算成本，展现了其在消费级摄影和工业检测等领域的巨大应用潜力。

作者: Seungryong Lee, Woojeong Baek, Younghyun Kim, Eunwoo Kim, Haru Moon, Donggon Yoo, Eunbyung Park
机构: 成均馆大学、延世大学、三星显示
论文地址: https://arxiv.org/pdf/2507.22407v1
项目主页: https://sngryonglee.github.io/MoireZero

研究背景与意义

当你用相机拍摄电脑或手机屏幕、密集的纺织品或建筑物的格栅时，是否曾注意到照片上出现了奇怪的彩色条纹或波纹？这就是“摩尔纹”。它是一种由于相机传感器采样频率与被摄物体精细重复结构之间发生频率混叠（frequency aliasing）而产生的数字伪影。

上图展示了摩尔纹在单张图片内呈现出的多样化特征，包括不同的方向、尺度和颜色偏移，这给消除工作带来了巨大挑战。在消费摄影中，摩尔纹严重影响照片美感；在工业领域，如显示面板的缺陷检测中，它甚至可能掩盖关键的产品瑕疵，导致质量控制失败。

尽管现有的基于深度学习（主要是CNN）的方法在去摩尔-纹上取得了一定进展，但它们普遍受限于有限的感受野（receptive field），难以捕捉摩尔纹复杂且大范围的结构特征，导致消除效果不理想。因此，开发一种能够有效处理各种复杂摩尔纹，同时兼顾效率与性能的解决方案，是该领域亟待解决的难题。

MZNet：核心方法解析

为了攻克这一难题，研究者们设计了MZNet，一个精心设计的U型网络（U-Net）架构。它通过集成三个专门设计的核心组件，协同增强局部纹理的恢复和大规模伪影的抑制能力。

上图为MZNet的整体架构图，它采用了经典的编码器-解码器结构，并在其中嵌入了以下三大创新模块：

1. 多尺度双重注意力模块 (Multi-Scale Dual Attention Block, MSDAB)：

这是网络的核心特征提取单元。它能够通过多尺度空洞卷积（Multi-Dilation Convolution）从不同感受野捕捉特征，并通过一个双重注意力机制（Dual Attention Module），同时关注“什么信息是重要的”（通道注意力）和“哪里是重要的”（空间注意力），从而精准地提炼出与摩尔纹相关的多尺度特征。

2. 多形状大核卷积模块 (Multi-Shape Large Kernel Convolution Block, MSLKB)：

摩尔纹的形状千变万化，有条纹状、网格状等。为了有效捕捉这些不同方向性的结构，研究者在网络的瓶颈部分（bottleneck）引入了MSLKB。该模块创新性地并行使用了方形、水平条形和垂直条形的大尺寸卷积核，使其能够高效地识别和处理各种形态的摩尔纹，同时通过在低分辨率特征图上使用来控制计算成本。

3. 基于特征融合的跳跃连接 (Feature Fusion-Based Skip Connection, FS)：

传统的U-Net跳跃连接只将编码器对应层级的特征传递给解码器。而MZNet中的FS模块则更加强大，它会将所有编码器层级的特征进行融合，然后注入到每一个解码器层级。这种全局的特征聚合方式，使得解码器在重建图像时能够获取更丰富的多尺度上下文信息，从而实现更精细的细节恢复和更彻底的伪影抑制。

上图详细展示了MZNet中各个核心组件的内部结构。

实验设计与结果

研究团队在三个主流的去摩尔纹公开数据集（TIP2018, FHDMi, UHDM）上对MZNet进行了严格的性能评估，并与多个当前最先进的方法进行了比较。

定量分析

实验结果（如下表所示）表明，MZNet在FHDMi和UHDM这两个高分辨率数据集上的所有评估指标（PSNR, SSIM, LPIPS）上均取得了SOTA性能。特别是在UHDM数据集上，其PSNR值达到了23.632 dB，显著优于其他方法。同时，其计算成本（MACs）远低于许多性能相近的竞争者，展示了极高的效率。

定性分析

从下图的视觉效果对比中可以直观地看到，相较于其他方法，MZNet（Ours）的处理结果能够更干净地去除摩尔纹，同时更好地保留了图像原有的细节和纹理，恢复出的图像更加自然清晰。

消融实验

为了验证每个设计组件的有效性，研究者进行了详尽的消融研究。结果表明，移除MSDAB、MSLKB或FS中的任何一个，都会导致模型性能的显著下降，证明了这三个模块对于实现卓越的去摩尔纹效果都至关重要且相辅相成。

实际应用与价值

除了在公开数据集上取得成功，研究团队还将MZNet应用到了真实的工业场景——显示面板缺陷检测。在生产线上，通常需要拍摄纯色屏幕来发现坏点等微小瑕疵，但摩尔纹的干扰使得这一过程变得困难。

如上图所示，MZNet能够有效去除检测图像中的摩尔纹，同时完整保留面板上的微小缺陷细节，这极大地提升了工业检测的准确性和效率。

论文贡献总结

创新的网络架构：提出了MZNet，一个集成了多尺度双重注意力（MSDAB）、多形状大核卷积（MSLKB）和特征融合跳跃连接（FS）三大创新组件的高效去摩尔纹网络。
SOTA性能与高效率：在多个基准数据集上，尤其是在高分辨率场景下，实现了最先进的性能，同时计算成本可控，达到了性能与效率的完美平衡。
解决实际工业难题：成功将模型应用于真实的显示面板检测，验证了其在工业界解决实际问题的能力。
开源贡献：提供了项目主页，方便社区研究和应用。

总而言之，《Moiré Zero》不仅在技术上提出了一个新颖且强大的解决方案，更重要的是，它将前沿研究成果转化为解决现实世界问题实用工具的巨大潜力。

#MonoFusion

CMU 提出：四个相机就够了！稀疏视角下的高品质4D动态场景重建

如何用最少的设备捕捉和重建一个动态的三维世界？这一直是计算机视觉领域追求的目标。传统上，要实现高质量的动态场景重建（即4D重建），往往需要像电影特效工作室那样，部署由数百个精心校准的相机组成的“相机阵列”（如著名的Panoptic Studio）。这种方案成本高昂，且完全无法应用于家庭、户外等“in-the-wild”的真实场景。

近日，来自卡内基梅隆大学（Carnegie Mellon University）的研究团队在该领域取得了重大突破。他们发表于ICCV 2025的论文《MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion》，提出了一种名为 MonoFusion 的新方法，仅需少量（例如4个）稀疏视角的相机，就能实现对弹钢琴、修理自行车等复杂人体行为的高质量4D重建。该方法巧妙地绕开了稀疏视角下难以直接重建的难题，通过融合独立的单目重建结果，在渲染全新视角时展现了远超以往方法的卓越效果。

作者: Zihan Wang, Jeff Tan, Tarasha Khurana, Neehar Peri, Deva Ramanan
机构: 卡内基梅隆大学 (Carnegie Mellon University)
论文地址: https://arxiv.org/pdf/2507.23782v1
项目主页: https://imnotprepared.github.io/research/25_DSR/
代码地址: https://github.com/ImNotPrepared/MonoFusion
会议: ICCV 2025

研究背景与挑战

4D重建的目标是捕捉一个场景随时间变化的完整三维信息。现有的高精度方法严重依赖于密集多视角（Dense Multi-View）设置，通过海量相机的重叠视野来精确计算三维结构。然而，当相机数量锐减，彼此间距很大（例如呈90°分布），就形成了稀疏视角（Sparse-View）设置。

这种设置的挑战是巨大的：由于相机之间的重叠区域非常有限，很难在不同视图之间找到可靠的同名点对应，这使得传统的多视角三维重建方法几乎失效。正如上图所示，稀疏视角问题比单目重建（Monocular）问题约束更强，但又比密集多视角问题难度大得多。如何在这种极具挑战性但又非常实用的设置下，实现高质量的动态场景重建，是本研究的核心。

核心方法：MonoFusion

研究者发现，与其强行在稀疏的视图间寻找对应，不如换一个思路：先对每个相机视角进行独立的单目重建，然后再将这些“各自为政”的重建结果巧妙地融合到一个统一的时空框架中。这便是MonoFusion（单目融合）的核心思想。

其具体流程如下图所示，可以分为几个关键步骤：

建立全局参考系： 首先，选取一个参考时间点，利用先进的静态多视角重建方法（如DUSt3R）处理该时刻的几张稀疏视图，生成一个初始的、连接了所有相机的全局三维点云作为参考系。
独立单目深度预测： 接着，对每个相机的视频序列，使用单目深度估计算法（如MoGe）独立地预测出每一帧的深度图。需要注意的是，单目深度预测的结果只在各自的相机和时间点内有效，其尺度和偏移是未知的（即所谓的“up to an affine transformation”）。
对齐与融合（核心步骤）： 这是MonoFusion最关键的创新。如何将这些尺度和偏移都不同的独立深度图对齐到同一个全局参考系中？答案是利用场景中静止的背景。

论文假设场景背景是静态的。对于任意时刻、任意视角下预测出的深度图，通过调整其尺度（scale）和偏移（shift）参数，使其背景部分的点云与第一步建立的全局参考背景对齐。
这个过程需要前景/背景分割蒙版（可使用SAM等现成工具获得）。
为了得到更稳定、噪声更少的背景，论文还将所有对齐后的背景点云在时间维度上进行了平均。

动态前景建模： 对于动态的前景（如移动的人），论文发现通过特征聚类来构建运动基（motion bases），比使用充满噪声的3D轨迹点效果更好，能形成几何上更一致的运动表示。
4D场景优化： 最后，基于对齐融合后的背景和前景，使用动态3D高斯（Dynamic 3D Gaussians）作为场景表示，优化出一个完整的、时空连续的4D场景模型。有了这个模型，就可以渲染出任意新视角、任意时刻的图像和深度图了。

实验结果与分析

MonoFusion在两个极具挑战性的数据集PanopticStudio和Ego-Exo4D上进行了广泛实验，并与多种基线方法进行了对比。

定性结果

定性结果直观地展示了MonoFusion的强大。在渲染一个训练中未见过的视角时，其他多视角方法（如Dynamic 3DGS, MV-SOM）要么因为缺乏几何约束而失败，要么因为无法解决各视角间的深度冲突而产生重影（duplication artifacts）。而MonoFusion能够生成清晰、无重影且动态插值正确的图像。

在渲染与训练视角相差45°的极端新视角时，差距更加明显。如下图所示，在Panoptic Studio数据集上，基线方法几乎完全无法泛化，而MonoFusion渲染的结果与真实图像（Ground Truth）惊人地接近。

在更复杂的Ego-Exo4D数据集上，无论是处理高度动态的场景，还是存在严重遮挡的复杂交互（如修理自行车），MonoFusion的重建质量都显著优于所有对比方法。

论文贡献与价值

MonoFusion的提出，为4D内容创作和数字孪生等领域带来了重要的启发和价值：

提出了一种全新的稀疏视角4D重建范式：通过“先独立单目重建，后对齐融合”的策略，有效解决了稀疏视角下难以建立跨视角对应的核心难题。
实现了SOTA的重建质量：在多个具有挑战性的数据集上，尤其是在新视角合成任务上，取得了远超现有方法的性能，证明了该技术路线的有效性。
极大地降低了4D重建的门槛：不再需要昂贵且复杂的密集相机阵列，使得在更广泛的真实场景中捕捉动态三维内容成为可能。
完全开源：论文作者公开了全部代码、数据及处理脚本，为社区提供了宝贵的资源，将极大地推动相关领域的研究和应用发展。

总而言之，MonoFusion用一种充满智慧的方式，将看似无解的稀疏视角重建问题，分解为一系列可解的子问题，为我们通向更轻便、更普及的4D内容创作时代，迈出了坚实的一步。

#GS-Occ3D

清华提出：纯视觉规模化Occ重建，自动标注全新范式~

L4级自动驾驶的商业化浪潮已然到来。从特斯拉Robotaxi的落地运营，到小马智行、文远知行的成功上市，再到百度萝卜快跑的快速扩张，无不标志着自动驾驶正迈向大规模部署。其中，如何高效处理海量数据，构建可规模化的自动标注框架是核心挑战。具体而言，占据栅格（Occupancy）作为感知的核心，提供了关键的几何先验。然而，行业主流的占据栅格标注方法严重依赖激光雷达（LiDAR），这不仅成本高昂、难以扩展，也无法利用数量更庞大的消费级车辆的众包数据。

为解决这一问题，GS-Occ3D提出了一个低成本、可规模化的占据栅格重建新范式，通过基于八叉树的高斯面元方法来优化显式的几何表示，实现了低成本、高效的规模化自动标注。

GS-Occ3D 在Waymo实现了SOTA几何重建结果，在Occ3D-Waymo上验证了标签对下游占据栅格模型的有效性，并在 Occ3D-nuScenes上展示了其优越的零样本泛化能力。这凸显了大规模、基于视觉的占据栅格重建技术作为自动标注新范式的巨大潜力。

论文链接：https://arxiv.org/abs/2507.19451
项目主页：https://gs-occ3d.github.io/

研究动机与贡献

现有方法主要依赖于基于激光雷达（LiDAR）的占据栅格标注，这需要成本高昂的专业测绘车辆，从而极大地限制了其可扩展性。

相比之下，GS-Occ3D 引入了一个低成本、可规模化的占据栅格标注新范式，该框架能有效利用来自消费级车辆的大量众包数据进行自动标注。

然而，纯视觉范式面临诸多挑战。首先，纯视觉占据栅格重建本身就是一个严重的不适定问题，尤其是在消费级车辆带来的稀疏视角下，严重遮挡、物体的长时空复杂运动，以及不同尺度物体间的几何关系，都极大地增加了重建的难度。另一方面，以往的几何重建方法也存在明显局限，它们大多局限于以物体为中心、室内或相对简单的室外场景，难以适应真实世界中复杂多样的动态场景；并且，一些方法依赖于传统的网格（Mesh）表征，往往需要大量繁琐的后处理。因此，开发一种既无需激光雷达即可低成本获得占据栅格标签，又能实现规模化的自动标注的新范式，已成为该领域亟待突破的关键。

图1. 占据栅格范式对比。我们将预测的几何（粉色）与 Occ3D-Waymo 验证集的真值（其他颜色代表不同语义）进行叠加展示，为了直观展示预测不完整的区域。通过比较使用两种不同标签训练的模型，我们发现模型在几何泛化结果上能达到相当甚至更好的水平。

我们的方法实现了以低成本、可规模化的方式来获取高质量的占据栅格标签，贡献如下：

我们提出纯视觉占据栅格标签生成新范式，和之前依赖雷达的范式相比，具有语义丰富且方便获取，成本效益高，可规模化等优点；
我们的方法能有效地从沿长轨迹拍摄的全景街道视图中重建地面、背景和动态物体，实现了SOTA的几何重建结果，甚至超过了由激光雷达监督的基线模型。
我们首次使用纯视觉方法重建了整个 Waymo 数据集。我们在 Occ3D-Waymo 数据集上验证了标签对于下游感知模型的有效性，并在 Occ3D-nuScenes 数据集上展示了更优的零样本泛化能力。这证明了我们的方法在面向大规模自动驾驶应用时，具备高度的可扩展性与可靠性。

方法总览

图2. GS-Occ3D 方法总览。

1.使用沿长轨迹拍摄的全景街道视图来生成稀疏点云和地面面元作为初始化。我们采用一种基于八叉树的高斯面元场景表示，该方法整合了地面、背景和动态物体，以实现纯视觉的规模化几何重建。此处展示的是一个上坡场景，其中的颜色代表高度。

2.针对纯视觉生成的点云，我们的标签生成流程首先通过逐帧划分和多帧聚合，为每帧定义合适的感知范围，同时提升点云密度（特别针对观测不完整的动态物体）。接着，对每一帧应用光线投射来确定体素的占据状态，并显式地处理相机视角的遮挡。

3.最终生成的纯视觉标签可用于训练下游的占据栅格模型，使这些模型能够泛化到未见过的场景，并具备几何推理能力。图中粉色部分表示预测的场景几何，其他颜色代表误差。

定量结果

表1. Waymo数据集的SOTA几何重建结果。NeuS* 使用了1个稠密型和4个稀疏型激光雷达，StreetSurf† 使用了4个稀疏型激光雷达，而所有其他方法均为纯视觉方法。为了公平对比，‡ 表示使用了我们的地面高斯模型。MB代表模型存储大小，GB代表GPU显存占用，Time代表训练时间。

表2. 占据栅格泛化和拟合结果。

可比较且更优越的零样本占据栅格泛化结果：我们采用两种类型的标签训练SOTA模型CVT-Occ ，表2展示了在Occ3D验证集上的泛化结果。我们的方法展示了重建可泛化几何的能力，在 Occ3D-Waymo 数据集上取得了合理且整体上可媲美的结果。

尽管相机存在固有的局限性（例如 Waymo 的前视摄像头视角与 LiDAR 的360度覆盖范围的差异），我们的方法性能在 Occ3D-Val（Waymo）上略低，但结果仍在合理范围内。虽然我们和Occ3D在各自的验证集上表现更好，但我们在采用不同相机设置的 nuScenes 数据集上，展现出更优越的零样本泛化能力，在富含纹理及遥远的区域预测了更完整的几何结构。

考虑到 Occ3D 依赖于高端激光雷达数据，我们的结果更显难能可贵。我们的方法纯粹依赖相机输入，但在某些设定下，却能实现相当甚至更优的泛化性能。这不仅凸显了纯视觉方法的可扩展性，也展示了其在真实世界应用中达到甚至超越基于激光雷达的基线方法的巨大潜力。

无需先验，和LiDAR可比且互补。

图3. Waymo 几何重建结果可视化。图中的颜色代表与激光雷达相比的倒角距离，颜色范围从蓝色（距离小）到红色（距离大）。与其他方法相比，我们的方法在弱纹理区域展现出更高的重建保真度；即使在没有几何先验的情况下，其结构的完整性也足以媲美激光雷达点云。

图4. 几何细节可视化。我们展示了图3中红色方框区域内的几何细节，其重建结果与激光雷达相比，既有可比性，又具互补性。第一行是上坡场景，而第二行是先下坡后上坡的场景。

图5. 占据栅格标签可视化。我们的方法实现了在全局上可与 Occ3D 相媲美的几何结构，从而能够为无先验信息的占据栅格模型训练提供可靠的监督信号。

可比较且更优越的零样本占据栅格泛化能力。

图6. 占据栅格泛化结果。我们用SOTA占据栅格模型 CVT-Occ进行评估。该模型在分别使用我们的标签和 Occ3D 的标签进行训练后，取得了合理且整体上可媲美的结果。

支持低成本丰富类别语义自动标注。

图7. 更多可视化结果。上图：更丰富且易获取的语义标签；下图：在 Occ3D-nuScenes 数据集上展现出更优的零样本泛化能力。图中粉色表示几何预测结果，其他颜色显示误差。

消融实验

我们受益于5摄像头的输入，而其他方法在增加更多视角时性能可能会下降。
直接重建点云的对于该任务更合适，也更具可扩展性。
地面重建效果显著。

表3. 消融实验定量结果。我们评估了在不同相机数量和不同表示方法下的实验结果。为确保公平，所有参与比较的方法都使用了我们的地面高斯模型。点云和网格的倒角距离均是相对于激光雷达真值进行计算的。

图8. 地面高斯消融实验。我们展示了地面高斯的有效性。颜色代表高度，范围从蓝色（低）至红色（高）。

实验分析

纯视觉标签相比于激光雷达标签的优劣：

优点：

(1) 更广的覆盖范围：纯视觉几何重建可以弥补激光雷达在空间覆盖范围上的局限性，尤其是在大范围区域。在某些特定情况下，其性能甚至能超越激光雷达，例如在重建高层建筑时。
(2) 更优的零样本泛化能力：与激光雷达的标签相比，使用纯视觉标签训练的下游占据栅格模型能够泛化到更广泛的几何上，并具备更强的零样本泛化能力。
(3) 便宜且丰富的语义信息：图像本身就包含了颜色、纹理和物体类别等线索，而激光雷达的语义信息则需要耗费大量人力的标注或成本高昂的多传感器融合。通过预训练模型提供的丰富二维视觉语义，我们重建出了具有更丰富类别（多达66类，而 Occ3D 仅16类）的三维标签，其中包括了小物体以及被 Occ3D 遗漏的类别。图7展示了一些对激光雷达来说难以获取但对驾驶至关重要的语义信息。如图中高亮所示，与 Occ3D 不同，我们的方法能够区分摩托车，并识别车道线和人行横道。
(4) 在恶劣天气下潜力更大：尽管恶劣天气对两种传感器都有影响，但基于视觉的系统可以利用图像域中丰富的纹理和语义信息，并结合从大规模视觉数据中学到的先验知识，来更有效地重建质量下降的场景。图7可以看出，在雨天场景中，我们的泛化能力优于基于激光雷达的基线模型。

缺点：

(1) 相机视角固有的局限：Waymo仅提供了前视和侧视视角，缺乏后方视野的覆盖，这会导致不可避免的信息损失。
(2) 性能易受光照影响：在夜间或曝光异常等条件下，纯视觉方法的有效观测范围会显著缩减。
(3) 自车静止场景性能退化，需要先验：在自车静止的场景中，纯视觉方法通常难以重建几何结构。诸如 DUST3R、MAST3R 和 InstantSplat等方法，由于依赖 Waymo 激光雷达点云进行预训练，因此与纯视觉的设定不兼容。而一些更新的方法如VGGT，则可能优化这一问题。

结论

GS-Occ3D 是一个纯视觉规模化占据栅格重建新范式，它利用来自消费级车辆的众包数据进行自动标注，从而实现了低成本、可扩展的占据栅格标签生成。

首先，我们采用一种基于八叉树的高斯面元场景表示，来重建地面、背景和动态物体的几何结构，我们的纯视觉重建方法取得了SOTA几何重建效果。接着，我们重建了覆盖多种多样场景的完整 Waymo 数据集。这使得我们能够在 Occ3D-Waymo 数据集上验证标签对下游占据栅格模型的有效性，并在 Occ3D-nuScenes 数据集上展示出更优的零样本泛化能力。

我们凸显了大规模、纯视觉的占据栅格重建技术作为一种感知新范式的巨大潜力。我们希望这项工作能激励更多研究者去探索如何利用更先进的重建技术来赋能纯视觉标签的自动生成，以更好地服务于下游任务。

#A Deep Dive into Generic Object Tracking

"通用目标跟踪"最新综述

本文分享一篇关于通用目标跟踪（Generic Object Tracking, GOT）的最新综述性论文。该论文系统性地梳理了从经典到前沿的跟踪算法，并创新性地提出了一个统一的分类法，将主流跟踪器划分为三大范式：判别式（Discriminative-based）、孪生网络（Siamese-based）和Transformer（Transformer-based）。通过对每个范式核心设计、创新点和局限性的深入剖析，并结合全面的实验对比，描绘了一幅清晰、完整的通用目标跟踪技术发展蓝图。

标题: A Deep Dive into Generic Object Tracking: A Survey
作者: Fereshteh Aghaee Meibodi, Shadi Alijani, Homayoun Najjaran
机构: University of Victoria (维多利亚大学)
论文地址: https://arxiv.org/abs/2507.23251

1. 引言：通用目标跟踪的演进

通用目标跟踪（GOT），又名单目标跟踪（SOT），是计算机视觉领域的一项基础且充满挑战的任务。其目标是在给定视频的第一帧中目标初始位置（通常是一个边界框）的情况下，在后续所有帧中持续定位该目标。与特定类别跟踪不同，GOT要求跟踪器具有“类别无关性”，即能够跟踪任意类别的对象。

如上图所示，目标跟踪算法的发展历程从依赖手工特征的判别式方法（如相关滤波）开始，逐步演进到基于深度学习的判别式和孪生网络跟踪器。近年来，随着Transformer架构的兴起，基于Transformer的跟踪器凭借其强大的时空建模能力，成为该领域最前沿、最主流的发展方向。

2. 跟踪范式梳理：三大主流与演化

本综述的核心贡献之一是提出了一个统一的分类法，将GOT跟踪器系统地划分为三大范式。

2.1. 判别式跟踪器 (Discriminative-based Trackers)

判别式方法将跟踪问题视为一个二元分类任务：区分目标与背景。这类方法的核心在于在线学习一个外观模型，以最小化判别性目标函数。

早期方法: 依赖手工特征和简单分类器，如MOSSE、KCF等相关滤波（CF）方法，通过在傅里叶域进行高效计算，实现了高速跟踪。
深度学习时代: 引入卷积神经网络（CNN）进行特征提取，如MDNet，通过多域学习分离领域无关和领域特定的信息，提升了模型的泛化能力。
近期发展: ATOM、DiMP等方法通过引入更先进的优化策略和元学习（meta-learning）思想，实现了更鲁棒的目标模型在线更新。

早期判别式跟踪器的框架概览，展示了从手工特征到CNN特征的演进。

更先进的判别式跟踪器框架，如ATOM、DiMP等，引入了更复杂的目标状态估计和在线更新机制。

2.2. 孪生网络跟踪器 (Siamese-based Trackers)

孪生网络将跟踪视为一个模板匹配问题。它包含两个共享权重的分支：一个处理初始帧的目标模板，另一个处理当前帧的搜索区域。通过计算二者的相似性来定位目标。

开创性工作: SiamFC首次将全卷积孪生网络引入跟踪领域，实现了端到端的离线训练和高速的在线跟踪。
引入区域提议网络 (RPN): SiamRPN将RPN引入孪生网络框架，实现了更精确的尺度和长宽比估计，摆脱了多尺度测试的需求。
更深、更强的骨干网络: SiamRPN++通过空间感知的采样策略，成功地将ResNet等更深的网络结构应用于孪生跟踪，显著提升了性能。
无锚框 (Anchor-Free) 设计: SiamFC++、SiamBAN等工作摒弃了预设的锚框，直接在每个位置预测目标边界框，使跟踪器更灵活、更通用。

早期基于分类的孪生网络跟踪器框架，如SiamFC、DSiam等。

引入了定位头（如RPN）的孪生网络跟踪器框架，如SiamRPN、SiamRPN++等。

更先进的孪生网络跟踪器框架，如在Ocean中引入更好的在线更新机制[65]，在SiamDMU中应用内存[21]，以及在ECIM中采用新的相关滤波操作。

2.3. Transformer跟踪器 (Transformer-based Trackers)

Transformer凭借其自注意力（self-attention）和交叉注意力（cross-attention）机制，能够捕获长距离依赖关系，联合建模时空信息，为目标跟踪带来了革命性的突破。

混合式Transformer跟踪器: 这类方法将Transformer模块嵌入到现有的孪生或判别式框架中。

TransT: 首次将Transformer用于孪生网络中的特征融合，完全替代了传统的互相关操作。
TrDiMP/TrSiam: 将Transformer的编码器-解码器结构用于建模时序依赖关系，提升了模型在遮挡等场景下的鲁棒性。

混合式Transformer跟踪器（如TransT）将Transformer用于特征融合。

纯Transformer跟踪器: 这类方法完全基于Transformer构建，摆脱了CNN骨干网络的限制。

SwinTrack: 基于Swin Transformer构建了一个纯注意力的跟踪框架。
OSTrack: 提出了一个单流（one-stream）架构，统一了特征提取和关系建模，简化了流程并提升了效率。
序列化建模: ARTrack、SeqTrack等工作将跟踪任务重新定义为坐标序列的生成问题，利用自回归的方式进行预测，实现了更连贯的轨迹预测。

纯Transformer跟踪器（如SwinTrack, OSTrack）的统一架构。

3. 实验对比与分析

论文在多个主流跟踪数据集（如LaSOT, OTB, VOT等）上对不同范式的代表性方法进行了全面的性能评估。

在LaSOT数据集上，不同范式跟踪器的性能（AUC）与速度（FPS）对比。

从上图可以清晰地看到：

判别式跟踪器 (绿色): 精度中等偏下，速度较慢。
孪生网络跟踪器 (红色): 速度极快，但精度相对较低。
混合式跟踪器 (橙色/浅绿): 在速度和精度之间取得了较好的平衡。
纯Transformer跟踪器 (蓝色): 在精度上占据绝对主导地位, 尤其像SeqTrack、VideoTrack等最新方法，达到了新的SOTA水平，同时保持了可接受的运行速度。

4. 讨论与结论

该综述通过系统性的梳理和对比，揭示了通用目标跟踪领域从依赖在线学习的判别式方法，到追求高效匹配的孪生网络方法，再到如今由Transformer主导的时空联合建模范式的清晰演进脉络。

核心洞见:

Transformer是未来: 全面基于Transformer的跟踪器，凭借其强大的特征表示和关系建模能力，已成为提升跟踪性能的关键。
从空间到时空: 跟踪算法的设计理念正从单纯的空间匹配（孪生网络）向更复杂的时空联合建模（Transformer）转变。
端到端与统一化: 架构设计趋向于更简洁、更统一，如OSTrack的单流设计、SeqTrack的序列到序列学习，都体现了这一趋势。

未来的研究方向可能包括：

更高效的Transformer结构: 探索轻量化的注意力机制，在保持高性能的同时提升运行速度。
更强的时序建模能力: 发展更鲁棒的记忆机制和在线适应策略，以应对长时跟踪中的挑战。
多模态融合: 将语言、声音等多模态信息融入跟踪框架，实现更智能的跟踪。

#D3

西安交大、OPPO等提出 D3，用二阶物理特征“揪出”Sora类AI视频，无需训练！

随着Sora等视频生成技术的飞速发展，人类正进入一个真假难辨的时代。高保真AI视频的泛滥引发了公众对虚假信息传播的深切担忧。然而，现有的检测方法往往难以捕捉到AI视频在时间维度上的微小破绽。为了应对这一挑战，来自西安交通大学、OPPO和香港城市大学的研究者们，从牛顿力学中汲取灵感，提出了一种全新的、无需训练的AI生成视频检测方法——D3 (Detection by Difference of Differences)。该方法通过分析视频的“加速度”特征，高效且精准地识别AI的“蛛丝马迹”，在多个数据集上取得了SOTA性能。

作者: Chende Zheng, Ruiqi suo, Chenhao Lin, Zhengyu Zhao, Le Yang, Shuai Liu, Minghui Yang, Cong Wang, Chao Shen
机构: 西安交通大学; OPPO; 香港城市大学
论文标题：D3: Training-Free AI-Generated Video Detection Using Second-Order Features
论文地址: https://arxiv.org/pdf/2508.00701v1
项目地址: https://github.com/Zig-HS/D3

研究背景

当前的AI视频检测器，大多关注单帧画面的空间伪影，或是相邻帧之间的简单变化，这在面对越来越逼真的生成模型时显得力不从心。它们忽略了一个关键信息：时序伪影 (temporal artifacts) 。真实世界的物体运动遵循物理规律，而AI生成的视频在模拟这种动态连续性时，往往会暴露出不自然的“痕迹”。现有方法对这种深层时序特征的探索还远远不够。

D3：基于二阶动力学的检测新思路

研究者创造性地将牛顿力学引入该问题，建立了一个二阶动力学分析的理论框架。简单来说：

零阶特征：视频的原始像素帧。
一阶时序特征：像素点的位移，即光流（Optical Flow），可以理解为物体的“速度”。
二阶时序特征：光流的变化，可以理解为物体的“加速度”。

D3方法的核心洞察是：真实视频和AI生成视频在一阶特征（速度）上可能相似，但在二阶特征（加速度）的分布上存在根本性差异。AI模型可以模仿物体如何移动，但很难完美模仿物体移动的“节奏变化”。

基于此，D3方法（差异之差异检测）应运而生。它通过计算“二阶中心差分”（Second-order Central Difference）来捕捉这种“加速度”特征，并以此作为区分真假视频的关键依据。整个过程完全无需训练，这使其具有极强的泛化能力和计算效率。

D3的检测框架如下图所示，它依次提取视频的零阶、一阶和二阶特征，最终通过分析二阶特征的分布来进行判别。

实验与结果分析

研究者在Gen-Video、VideoPhy、EvalCrafter、VidProM四大开源数据集（共40个子集）上对D3进行了全面验证。

1. 卓越的检测性能

实验结果表明，D3的性能全面超越了现有的基于训练的SOTA方法。例如，在GenVideo数据集上，D3的平均精度（mAP）比之前的最佳方法绝对提升了10.39%。在EvalCrafter等更具挑战性的数据集上，D3同样表现出色。

2. 高效的计算速度

作为一种无需训练的方法，D3在效率上具有巨大优势。实验显示，其处理速度远超其他需要复杂预处理或训练的视频检测方法。

3. 强大的鲁棒性

在面对视频压缩、噪声添加等常见的后处理操作时，D3依然能保持稳健的检测性能，显示出其在真实世界应用中的强大潜力。

基线和D3对Genvideo后处理操作的检测结果（mAP）

消融实验也清晰地证明，二阶特征是D3成功的关键，其判别能力远强于一阶或零阶特征。

论文贡献与价值

D3研究的核心贡献在于：

理论创新：首次将牛顿力学下的二阶动力学分析引入AI生成视频检测，为该领域提供了全新的理论视角。
方法创新：提出了一种无需训练、高效、鲁棒的检测方法D3，有效弥补了现有方法在时序伪影分析上的短板。
深刻洞察：揭示了真实视频与AI生成视频在二阶时序特征分布上的根本性差异。
开源贡献：代码将开源，为社区提供一个强大、易用的新工具，助力遏制虚假视频的传播。

总而言之，D3不仅是一个性能优异的检测器，更重要的是，它为我们理解和对抗AI生成内容提供了一个源于物理世界的、具有深刻洞察力的理论框架。

#Detail++

西湖 AGI Lab 发布：多分支细节注入重塑复杂 Prompt 文生图体验

西湖大学 AGI Lab 推出 Detail++，在无需训练的前提下，通过“分层子提示 + 渐进注入 + 注意力共享”策略，显著提升复杂 Prompt 场景下的图文一致性与细节还原，重塑高保真文生图新范式。

复杂Prompt下的生成结果：

引言

文本到图像（T2I）生成技术近年来发展迅猛，凭借 Stable Diffusion、Flux 等模型，用户只需一句自然语言即可生成高质量图像。然而，当遇到多主体、多属性或复杂风格的长 prompt 时，主流模型往往会出现以下困境：

语义溢出：不同主体之间属性相互干扰，生成预期以外的结果；
属性错配：颜色、质地、配饰等细节经常被错误地绑定到非目标对象；
风格混合：多个风格描述同时作用时，模型难以保持元素及其特征的正确分离。

为解决上述问题，西湖大学 AGI Lab 团队提出了 Detail++：一种无需训练的精细化文生图框架。Detail++ 的核心在于借鉴人类画家“先整体勾勒、再逐步刻画”的创作灵感，首先将复杂的原生 prompt 分层拆解为由粗到细的子 prompt，并在所有生成分支中共享 U‑Net 自注意力图以维持全局布局；随后通过交叉注意力掩码技术，将各层子 prompt 的新增细节精准注入到对应区域。最后，为确保交叉注意力掩码进一步准确，我们在测试阶段引入质心对齐损失，对去噪过程进行优化，从而在无需任何模型重训练的情况下，实现对复杂文本指令的高保真生成。

相较于现有方法，Detail++ 具有以下核心优势：

更高的细节一致性：能有效避免属性溢出、错配与风格混合，使生成结果与复杂指令高度贴合；
更多样的对齐能力：支持多主体、多属性、多风格的复杂场景，通过并行分支协作实现灵活、可控的细节注入；
更低的资源开销：整个流程无需模型微调，仅依赖测试时的注意力共享与优化，可在单卡环境下高效运行。

论文标题：Detail++: Progressive Detail Injection for Training-Free Semantic Binding in Text-to-Image Generation
论文链接：https://arxiv.org/abs/2507.17853
项目地址：https://detail-plus-plus.github.io/
Github：https://github.com/clf28/Detail-plus-plus
Huggingface: https://huggingface.co/spaces/Westlake-AGI-Lab/Detail-plus-plus

研究背景与挑战

在复杂提示驱动的文本到图像生成任务中，多主体、多属性与多风格的精细化绑定一直是核心难题。现有工作大致可分为三种思路，但它们在“精度”“效率”“实用性”三者之间各有局限。

基于模型微调的方法 —— 此类方式往往需要耗费大量算力与训练时间，而且一旦基线模型升级，就必须重新微调才能保持性能；
基于布局指引的方法 —— 此类方法往往需要借助用户提供或大模型推理得到的布局标注来提高绑定的精准性，增加了推理时的复杂度；
基于测试时优化的方法 —— 此类方法完全依赖去噪推理过程中插入迭代优化或注意力正则化步骤，属性绑定具有很大局限性。

Detail++ 正是在此背景下提出，基于分层子提示与自注意力图共享的方式，实现了对复杂提示的高保真、低开销生成。

方法概述

贡献一：渐进式细节注入

Detail++ 借鉴艺术家“先整体勾勒、再逐步刻画”的创作思路，将复杂 prompt 自动分解为一系列由粗到细的子 prompt，并在所有分枝并行的基础上，统一共享 U-Net 的自注意力图以保持全局布局一致；随后，利用交叉注意力掩码在每个分支中逐步、有针对性地注入新增细节，并通过累积潜变量修改策略仅在目标区域应用新属性，避免跨主体干扰。此步骤分为三小步:

提示分解

首先，使用语言模型（如 spaCy）将原始复杂提示分解为从最简到最全的一系列子提示 ,其中去除所有修饰词，只保留主体与基本行为，后续每个则相对于依次添加一个新的细节修饰，并记录其对应的主体为。这样，PDI 能够以“由粗到细”的方式，逐步构建复杂场景。

布局共享

在各分支并行生成过程中，Detail++ 利用 U-Net 中自注意力图所承载的空间布局信息，仅在最初的若干去噪步骤缓存并复用第一分支的自注意力图，以确保所有子提示生成时保持相同的整体构图。这一步既保留了基础场景的一致性，又避免了各分支间的布局冲突。

累积潜变量修改

对于每一个子提示分支，Detail++ 从对应的交叉注意力图中提取二值化的主体区域掩码，用以区分新增修饰词的目标区域。然后，在每个去噪时刻，只将带有新细节的潜在表示差值按掩码注入至相应区域，其余位置则保持原始潜变量不变，从而避免跨主体干扰，确保细节精准到位。

贡献二：质心对齐损失

在测试阶段，我们观察到现有交叉注意力图易产生分散激活，导致属性注入范围越界。为此，Detail++ 引入了一种质心对齐损失，在每个扩散步骤对当前潜变量施加梯度优化，最小化对应主体的交叉注意力图质心与其显著点之间的欧氏距离，从而收敛出更加聚焦的注意力分布，显著提升属性绑定精度，并生成准确的二值掩码，彻底解决属性错配问题。

实验亮点：不仅仅支持颜色的精准匹配，更支持多个物品、材质、甚至风格描述的精确生成。

对比多种类型 SOTA 的精确化文生图方法（如 ToME，Attention Regulation，ELLA 等），Detail++ 在对象形变幅度、视觉细节与图文匹配度方面均表现突出，综合主观与客观评测指标均居领先水平。

在定量结果中，Detail++在各项指标上均实现了 SOTA 表现，尤其在我们新提出的风格绑定基准测试中最为突出。Detail++不仅超越了现有的精确化文生图方法，也在风格绑定方面填补了空白。

结语

通过 Detail++，我们展示了在无需任何额外训练的前提下，如何高效且精确地应对复杂文本指令下的多主体、多属性与多风格场景。Detail++ 的出现，为未来大规模、实时化的精确化文生图应用开辟了全新路径，让生成模型既能兼具灵活性与可控性，又保持了对计算资源的高效利用，尽力推动 AIGC 领域在创作自由度与用户体验上的进一步突破。

#MMVMBench

打造首个多模态视觉匹配数据集与评测基准，填补MLLM多模态视频匹配能力评测的空白

武汉大学联合字节跳动推出首个多模态视觉匹配基准 MMVMBench，系统揭示现有大模型在“识别同一个物体”任务中的能力短板，并提出新方法 CoLVA，大幅提升GPT-4o等主流MLLM在视觉匹配任务中的准确率。

Project Page：https://zhouyiks.github.io/projects/CoLVA/

Github：https://github.com/zhouyiks/CoLVA

Benchmark：https://github.com/open-compass/VLMEvalKit

亮点总结：

首次建立了面向多模态大语言模型（MLLM）视觉匹配任务的评测基准MMVMBench。

构建了高质量的MMVM数据集，包含22万组带有推理文本的视觉匹配问答对。

揭示了当前MLLMs存在的视觉匹配能力缺陷，并提供了一种简单但有效的方法来提高模型的视觉匹配能力。

本文提出评测的方法已经集成到了Open-Compass的官方测评中（https://github.com/open-compass/VLMEvalKit）。

图 1 GPT4o以及本文方法CoLVA在MMVMBench上部分案例的测试结果。错误回答标记为红色，正确选项标记为绿色。

1. 研究背景和动机

1.研究背景

近年来，多模态大语言模型在视觉感知、图文推理、图像问答和视觉定位等任务中取得了显著进展，得益于Qwen等大语言模型以及SigLIP等视觉编码器的发展。这些模型可以处理图像与文本之间的复杂交互，广泛应用于图像理解、视频分析、图文对话等场景。然而，视觉匹配（Visual Correspondence） 这一关键能力却鲜有被系统性研究。视觉匹配，即在不同图像中匹配“同一个物体”，是很多下游任务的基础，如目标跟踪、特征匹配和三维重建等。尽管MLLMs已经具备对物体外观和位置的识别能力（caption & grounding），但其在处理视觉匹配任务时仍显不足。以当前强大的MLLM GPT-4o为例，即便面对一些简单的视觉匹配问题，也常常出现明显错误。比如，图1中第一行的第三个案例查询目标（第一张图中青色轮廓标记）是一头黑色的牛，身体上有白色数字编号“1”，相对于另一头牛位于右侧；在第二张图中“1”号牛位于左侧，GPT-4o对该目标匹配错误。完成这个案例的视觉匹配可利用的最显著信息就是牛的编号，但是GPT-4o似乎没有捕捉到这一信息。图1中展示的更多的案例说明这类模型在“理解目标跨图像的一致性”方面存在本质缺陷。

2.研究动机

基于上述现象，我们的研究动机如下：

缺乏评估工具与数据集：当前没有系统性的benchmark来评估MLLMs在视觉匹配任务中的表现。因此，迫切需要构建一个专门面向视觉匹配的、具有挑战性的评估基准。

缺乏高质量监督数据：尽管MLLM具备一定的感知能力，但缺乏“如何使用这些感知信息进行匹配”的训练数据，导致它们无法有效执行该任务。也就是说，模型并不知道“看到了某些特征”之后应如何在图像间建立对应关系。

现有视觉编码器粒度不足：多数MLLM使用CLIP作为视觉编码器，但CLIP等主干缺乏对细粒度差异的建模能力，这限制了模型识别相似但不完全相同目标的能力。

为了解决上述出现的这些问题，我们：

构建了一个多图像视觉匹配评估基准（MMVMBench），覆盖15个开源视频数据集与网络视频，共1510个人工标注的样本；
提出一种自动标注流水线，构建22万条带有推理过程的匹配监督数据（MMVM Dataset）；
并基于此提出了CoLVA方法，结合对象级对比学习与指令增强，显著提升了模型的视觉匹配能力

现在可以在https://github.com/open-compass/VLMEvalKit中方便地评估你的MLLMs的视觉匹配能力。

2. MMVM Dataset & Benchmark

图 2 MMVMBench的样本。我们的MMVMBench包含1,510个人工标注的多图问答对，8种匹配线索，以及两种目标指代方式。我们从15个开源的视频数据集和其他互联网视频平台上收集的样本。

在缺乏公开评估基准和高质量监督数据的背景下，研究团队提出并构建了MMVM Dataset & Benchmark，这是首个专门评估多模态大模型视觉匹配能力的数据集，系统性填补了MLLM视觉匹配能力的评测与训练空白。

团队从15个公开的视频分割与多视图跟踪数据集中采样，结合720条来自互联网的真实视频片段，最终构建了1510条人工精标的多图像匹配任务作为评估基准（Benchmark），见图2。每个任务包含多个图像、一个查询物体、若干候选目标，模型需从中判断“是否为同一物体”。这些样本覆盖了8种典型的匹配线索（如颜色、大小、相对位置、LOGO、绑定关系等），全面考察MLLM的跨图像匹配能力。

该基准显示，当前所有主流MLLM（包括GPT-4o、Claude 3、Qwen2-VL 等）在该任务中的表现普遍不佳，准确率均未超过50%，暴露出其在“视觉匹配”上的明显短板，也凸显了MMVMBench的重要性和挑战性。

图 3 视觉匹配训练样本自动标注流水线。我们首先从各种开源数据集收集图像对，然后使用InternVL2.5-76B来生成图像间一对目标能匹配上的原因，最后我们将所有图像对，mask对，生成的匹配原因统一组织成多图多轮VQA格式。

同时，我们还设计了一套自动化标注流水线，构建了包含22万条匹配QA对话数据的训练集（MMVM Dataset），见图三。这套流程分为三步：

匹配对选择：基于现有掩码标注和Re-ID算法构建查询-候选配对；

理由生成：利用强模型（如InternVL2-76B）自动生成匹配理由，包括颜色、姿态、编号等视觉线索；

多轮对话格式构建：将匹配任务组织成“选择-解释”两轮对话，使其更贴近真实多模态交互。

3. 方法设计

为解决当前多模态大模型在视觉匹配任务中存在的根本性缺陷，研究团队提出了全新方法 CoLVA（Contrastive Learning for Visual Alignment），专为提升MLLM的视觉匹配能力而设计。该方法在结构上引入两项关键技术创新，结合新的预训练与指令格式，显著突破了现有模型视觉匹配能力的上限。

1.识别问题根源，设计针对性技术路径

团队通过PCA分析（见图4）和定量实验证明，现有MLLM存在两大核心瓶颈：

缺乏与视觉对应任务对齐的数据监督——模型虽能识别颜色/位置等低阶属性，但不知如何用它们判断是否“为同一物体”；
视觉编码粒度不足——现有主干如CLIP难以捕捉区分度高的视觉细节，候选物体特征高度相似，导致模型难以精准对齐。

图 4 InternVL2-4B和CoLVA-4B学到的目标表征的PCA可视化。目标表征通过在视觉tokens上使用目标mask进行平均池化得到。红色星星表示第一张图中的查询目标。红色圆点表示表示第二张图像中同一目标。蓝色圆点表示第二张图中的其他不匹配的目标。

2.提出CoLVA方法，从根本上提升MLLM视觉匹配能力

图 5 CoLVA的模型结构。左侧展示了如何使用对象级对比学习来训练RADIO adapter以实现同时学习到高区分度对象表征以及和MLLMs的特征空间对齐。右侧展示了如何将学习到的对象表征整合到MLLM中。我们直接将对象表征和原本的视觉tokens和文本tokens串接起来，喂给LLM来获得文本相应。

面对当前多模态大模型在视觉匹配任务上的系统性短板，研究团队提出了创新方法CoLVA（Contrastive Learning for Visual Alignment），以两个核心技术设计为支撑，从特征表达与训练机制双层面入手，显著提升MLLM对“同一物体”的理解与判断能力，见图5。

CoLVA的核心创新在于：

1️⃣ 对象级对比学习（Object-level Contrastive Learning, OCL）

CoLVA引入了一个精细视觉专家（RADIO），并与MLLM自身的视觉编码器形成对比学习框架。不同于传统图文对比学习，CoLVA将对象级语义特征作为对齐目标，使得模型能够学会区分外观极为相似的物体，提升辨别能力。

此外，为解决RADIO与主干视觉模型特征空间不一致的问题，CoLVA专门设计了预训练阶段，通过对比学习实现RADIO特征与MLLM语义空间的精确对齐，进一步增强细粒度视觉建模能力。

2️⃣ 指令增强策略（Instruction Augmentation, IA）

传统图文模型很难在标注图像中精准定位目标信息。CoLVA在微调阶段引入两种指令格式混合训练机制，包括：

常规“图像+文本描述”指令；

以及“对象级特征+文本”组合输入，支持梯度直接回传至对象视觉特征，显著提高模型在多目标精细识别中的训练效率与表现力。

3️⃣ 兼容与通用性

CoLVA被设计为通用插件式训练范式，可无缝集成至多个主流MLLM架构中，如 InternVL2、Qwen2VL、LLaVA 等，且在各类基线模型中均取得了大幅提升。例如，使用CoLVA后，InternVL2-4B在MMVMBench上准确率从17.62%跃升至45.83%，Qwen2VL-2B从15.69%跃升至47.48%，提升幅度极为显著。

4. 实验结果

表格 1 MMVMBench评测结果。CL表示Color，RP表示Relative Position，是两种最主要的匹配线索。我们在这里报告在4种不同设置下的整体精度，CL精度和RP精度。这4种设置即4个候选目标，8个候选目标，12个候选目标以及全部目标。

表格 2 CoLVA对MLLM的单图VQA能力的影响。

表格 3 CoLVA对MLLM的多图VQA能力的影响。

表格 4 CoLVA方法和MMVM数据有效性的消融实验。

表格 5 CoLVA方法在多种MLLMs上的有效性实验。

为验证所提出的MMVM数据与CoLVA方法的有效性，研究团队在多个主流多模态大模型上开展了系统性的实验评估。结果表明，CoLVA不仅显著提升视觉匹配能力，同时具备良好的泛化性与通用性，在多个关键任务上刷新性能记录。

1.MMVM Benchmark 实验结果：全面超越现有模型

在包含1510个真实视觉匹配样本的MMVMBench上，研究团队评估了30多个主流MLLM（涵盖开源与闭源模型），部分结果见表1，结果显示：

当前最强闭源模型GPT-4o准确率仅为**42.65%**，全部模型均未突破50%；
集成了CoLVA的InternVL2-4B模型准确率达到**49.80%，超越GPT-4o达7.15%，超越最强开源模型Qwen2-VL-72B达11.72%**，实现新SOTA；
CoLVA在主要匹配线索（颜色CL、相对位置RP）上的准确率也明显领先。

2.通用VQA能力无损，甚至进一步提升

CoLVA不仅强化了视觉匹配能力，而且在多个通用视觉问答（VQA）基准上表现稳定，甚至部分指标有所提升，见表2和表3：

在MMBench、MME、POPE、BLINK、NaturalBench等多个VQA基准上，CoLVA模型表现与原始模型基本一致或略有增强；
说明CoLVA是一种有增益且不削弱原始的模型理解能力补强机制。

3.消融实验与泛化性分析：方法有效且稳健

进一步的消融实验验证了CoLVA中各个组件的独立价值，见表4：

单独使用MMVM数据可将准确率从17.62%提升至32.38%；
增加对象级对比学习（OCL）与精细视觉专家（VE）后进一步提升至40.45%；
最终加入指令增强（IA）后达成最佳结果45.83%，整体提升28.21个百分点；

CoLVA还可灵活集成至多种MLLM架构（如Qwen2VL-2B、LLaVA1.5-7B等），在所有模型中均带来大幅性能提升，验证其广泛可迁移性与通用性，见表5。

5. 结论和未来工作展望未来：从基准出发，推动MLLM走向真正“看懂”世界研究团队指出，当前多模态大模型（MLLM）虽然在图文对齐、描述生成等任务中表现出色，但在视觉感知的根基能力上仍不完善。本研究不仅首次提出并系统评估了“视觉匹配”这一被忽视的重要能力，也借助MMVMBench明确揭示出：即使是GPT-4o这类最先进模型，在匹配两个图像中同一物体时，仍频繁出错，准确率不足50%。

这一发现具有重要意义：它提醒整个多模态研究社区，在继续追求大模型“会说话”“能理解”的同时，更应注重其“看得准”的基本功训练。为此，研究团队将MMVMBench定位为未来MLLM模型不可或缺的能力评测维度之一，类似于VQA任务在早期对图文理解的驱动作用。

展望未来，研究团队提出两大关键方向：

更密集、更细致的视觉感知能力
模型应能理解更复杂的视觉细节，如远处物体、细长结构、物体部件等，从而支撑更可靠的匹配与理解。
更具区分性的视觉推理能力
模型需能够进行实例级对比与逻辑判断，不仅要看到“相似”，更要理解“不同”，实现真正的视觉对齐与语义推理闭环。

最终目标是帮助MLLM真正具备“看清楚、认得出、说得明白”的完整多模态智能能力。

#Loopfree

一步推理高质量图像！用于蒸馏单步文生图扩散模型的时间无关统一编码器架构

本文提出“时间无关统一编码器”Loopfree：用 1 步 Encoder 并行驱动 4 步 Decoder，实现单步推理即可达到多步扩散模型的画质与多样性，兼顾速度和质量，为实时文本生图带来新范式。

论文地址：https://arxiv.org/pdf/2505.21960

代码链接：https://github.com/sen-mao/Loopfree

Background

生成任务最近2年已经获得了蓬勃的发展，尤其是基于扩散模型的开源图像和视频模型，包括图像生成模型StableDiffusion和视频生成模型CogVideoX。然而，这些模型的推理往往都需要几十步，这使得基于扩散模型的很多任务都是离线的，大大限制了扩散模型的使用。

扩散模型之所以需要几十步的推理步数，是因为其是一个逐渐加噪去噪的过程，如图所示，从右到左的训练过程是前向加噪过程，从左到右的采样过程是逐渐去噪过程，从高斯噪声逐渐去噪生成干净的图像，原始的扩散模型采用1000步的DDPM策略去噪。虽然后来提出非马尔可夫的DDIM采样策略，将采样步数降到50步，但这个过程仍然非常耗时，成为主要的效率瓶颈。

比如StableDiffusion生成一张512的图，采用DDPM 1000步采样需要37.6s，采用DDIM 50步采样也需要2.5s，50步生成一个视频则需要352s。

而相比于GANs，只需要一步采样，生成一张512图像仅需要0.02s。所以作者也同样希望Diffusion像GANs一样，用尽量少的步数进行采样，生成图像，甚至希望1步生成图像。

Analysis

作者首先对StableDiffusion不同的采样步数进行分析，分析不同采样步数对生成结果的性能影响以及规律。作者发现：

1. 采用特定范围内的步数进行采样时，比如选择15~50步中的任意步数进行采样，模型的生成性能基本相近，从指标(a-b)和生成图像(c)可以观察到，没有明显的质量退化，而且模型的feature也具有很高的相似度(c)。

2. 而当采用小于15的步数进行采样时，随着采样步数的减少，feature之间的相似度会迅速下降（c），同时伴随着性能的下降（a），图像质量也会迅速变差（b）。所以在步数小于15时，作者希望尽量采用比较大的时间步，更多的保持模型的生成能力。比如尽可能采用4步采样而不是1步采样，这样可以尽可能保持模型的生成能力，同时也具有更强的表达能力。

作者同样在已有的少步蒸馏模型上观察到这一规律，1步生成主要关注物体结构，当步数增加到4步时，会更多的关注图像纹理细节，生成更好的结果。

3. 此外，作者还观察到UNet中Encoder的特征在不同的采样步数下总是比Decoder更相似。所以在不同的采样步数下，不管是多步还是少步，Decoder总是比Encoder更重要，下图（c）。

Method

基于以上分析的启发，作者使用了一种新颖的设计，1步Encoder和多步Decoder（也就是时间无关统一编码器架构），因为多步Decoder可以并行处理，从而实现了1步推理。由于多步Decoder能够捕获更丰富的语义信息，所以生成质量与多步DM保持一致。具体来说，因为最近主流的少步模型一般都是4步模型，所以作者采用1步Encoder和4步并行Decoder，来实现一步推理。

与现有的一步蒸馏模型相比，所提出的时间无关统一编码器架构具有以下优势：

现有的1-step蒸馏模型已经打破了扩散模型的denoise过程，直接从Noise生成图像，退化成了参数量更大的GANs，所以会面临一系列问题，比如生成质量和多样性问题。相比于1-step模型，时间无关统一编码器架构仍然遵循多步扩散模型的denoise采样策略，也就是多步去噪，所以可以继承原始多步模型更多的采样能力和特性。
现有的多步模型的推理效率远低于一步模型。相比于多步模型，本文的方法生成质量与多步模型对齐，而推理时间接近1步模型。

作者使用VSD loss进行蒸馏，只需要文本数据，而不需要真实图像。Student模型首先接收noise和文本提示作为条件输入，生成图像，然后使用一个可学习的多步LoRA-Teacher，结合diffusion loss来学习student的分布，然后使用vsd loss来将Frozen的多步Teacher和LoRA-Teacher的分布差异利用梯度反向传播给student模型，进而让student来学习多步Teacher模型的生成能力。此外，作者还使用KL loss来使student的预测噪声接近高斯，符合扩散模型预测噪声的先验条件。

Experiments

已有一步蒸馏模型在生成质量和多样性上存在问题，比如InstaFlow，LCM和SwiftBrush生成质量较差，SD-Turbo使用了Billions级别的文本图像数据集，可以生成高质量的图像，但缺乏多样性。与现有的一步模型相比，本文的方法在生成质量和多样性达到了平衡，更接近多步模型的性能。

在相同尺度的训练数据集设定下，本文的方法在COCO2014和COCO2017两个数据集上的指标上取得了目前最好的结果

作者在四个数据集上评测模型的多样性，主要使用Density和Coverage来进行评测，在多个数据集上均取得了综合最好的性能。

对于SD-Turbo的多样性，因为其在蒸馏时使用了SDS loss，SDS loss为每一个prompt学习了分布的均值，所以会导致多样性问题，而SwiftBrushv2由SDTurbo预训练模型初始化，所以会继承其多样性问题。而本文的生成结果更接近多步教师模型的质量和多样性。

此外，作者还发现，当蒸馏得到4步的预训练模型时，可以使用不同的步数进行采样，最然会带来轻微的伪影，但这就能够很方便的基于4步预训练模型，微调到其他步数，获得更好的性能。

Take Aways

首先，作者通过分析，发现在多步扩散模型中，在一定步长阈值以下（例如，15步），图像生成质量会随着采样步长减少迅速下降。
在任意步长设置中，encoder特征始终表现出比decoder特征更高的相似性，所以decoder总是比encoder更重要。
基于以上分析，作者提出1步Encoder和4步Decoder的时间无关统一编码器架构，实现1步推理，多步生成性能。

#GlimpsePrune

南开提出动态剪枝，砍掉92%视觉Token性能反超10%！

本文介绍一篇由南开大学、Shanghai Innovation Institute、天津大学及vivo AI团队联合发表的最新研究，论文标题为《A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models》。

这项工作聚焦于大型视觉-语言模型（LVLM）在处理高分辨率图像时面临的效率瓶颈。研究者们提出了一个名为 GlimpsePrune 的动态视觉Token剪枝框架。其核心思想是模拟人类认知中的“惊鸿一瞥”，在模型生成答案前，快速地、数据驱动地识别并“剪掉”图像中与问题无关的视觉信息。实验结果惊人：该方法在平均剪枝掉 92.6% 的视觉Token后，依然能完全保持基线模型的性能。其增强版 GlimpsePrune+ 甚至在维持极高剪枝率的同时，将基线性能提升至 110%。

论文标题：A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models
作者：Quan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou
机构：南开大学；上海创智学院；天津大学；vivo
论文地址：https://arxiv.org/pdf/2508.01548v1
项目主页：https://github.com/HVision-NKU/GlimpsePrune

研究背景与意义

随着LVLM能力的不断增强，它们被要求处理越来越高分辨率的图像，以理解更丰富的视觉细节。然而，高分辨率图像会被视觉编码器转换为海量的视觉Token。例如，一张1344x1344像素的图像在通过ViT后可能会产生超过4000个视觉Token。这些冗长的Token序列极大地增加了后续语言模型处理的计算负担和内存开销，尤其是在自注意力机制中，其计算复杂度与Token数量的平方成正比。

为了解决这个问题，现有的压缩方法通常采用固定的压缩比（例如，保留50%的Token）。但这种“一刀切”的策略忽略了一个基本事实：不同图像和问题的复杂度千差万别。对于简单场景，固定比率可能保留了过多冗余信息；而对于复杂场景，则可能错误地丢弃了包含关键信息的Token，从而损害模型性能。

(上图直观对比了固定比率方法与本文动态方法的差异，后者能更智能地保留关键视觉Token)

此外，一些方法依赖于“简短提示”（brief prompt）来引导注意力，但这也带来了新的问题。如下图和表格所示，没有提示时，模型的注意力可能无法第一时间聚焦到关键区域；而这些方法的性能也对提示词本身高度敏感。

因此，开发一种能够根据输入动态调整压缩率、精确识别并保留关键信息的高效剪枝方法，对于构建更强大、更高效的LVLM至关重要。

GlimpsePrune 的核心方法

GlimpsePrune的设计灵感源于人类的认知机制：我们通常只需“一瞥”就能快速抓住场景的要点。该框架通过在正式生成答案前增加一个高效的“预计算”阶段（Prefilling Stage）来实现动态剪枝。

(GlimpsePrune框架概览)

上图展示了GlimpsePrune的整体流程：

(a) 预计算与剪枝：在预计算阶段，所有视觉Token和文本Token会先通过语言模型的前K层。
(b) 视觉Token重要性预测器 (VIP) ：在第K层之后，一个轻量级的VIP模块会介入。它利用一个可学习的“Glimpse Token”与所有视觉Token进行交互，快速计算出每个视觉Token对于当前任务的重要性得分。
(c) 动态剪枝：根据VIP的评分，设定一个阈值，动态地剪枝掉得分低的、不相关的视觉Token。为了保留空间信息，这里还引入了带有2D旋转位置编码（RoPE）的条件自注意力机制。
(d) 高效解码：在后续的解码（答案生成）阶段，语言模型只需处理经过剪枝的、数量大幅减少的视觉Token，从而极大地节省了内存和I/O带宽，提升了推理速度。

GlimpsePrune的训练过程分为两个阶段：

(GlimpsePrune的训练流程)

训练Glimpse Token和VIP：第一阶段的目标是让VIP学会如何准确评估Token的重要性。通过最小化剪枝后模型输出与原始模型输出之间的KL散度，来指导Glimpse Token和VIP的学习。
强化学习微调 (GlimpsePrune+) ：为了进一步提升性能，研究者们设计了GlimpsePrune+。由于剪枝降低了计算成本，使得通过强化学习（RL）对整个大模型进行微调成为可能。在第二阶段，将剪枝率和模型性能作为奖励信号，通过RL算法微调语言模型，使其更好地适应剪枝后的精简Token，从而实现性能反超。

实验结果与分析

研究团队基于Qwen2.5-VL-7B和LLaVA-1.5-7B等主流LVLM对GlimpsePrune进行了广泛测试。

1. 自由格式视觉问答（Free-form VQA）

在DocVQA、TextVQA等多个自由格式VQA基准测试中，GlimpsePrune在平均剪枝超过90%视觉Token的情况下，性能与基线模型持平或略有超出。而GlimpsePrune+则实现了显著的性能提升。

(在Qwen2.5-VL-7B上的自由格式VQA性能，GlimpsePrune+性能全面超越基线)

(在LLaVA-1.5-7B上的结果也验证了GlimpsePrune的普适性)

2. 短格式视觉问答（Short-form VQA）

在VQA-v2、GQA等短格式VQA任务上，GlimpsePrune同样表现稳健，在大幅剪枝的同时保持了与基线相当的性能。

3. 效率分析

如下表所示，所提出方法显著提升了推理效率。在A100 GPU上使用Qwen2.5-VL-7B模型对100个DocVQA样本进行测试（启用KV Cache和FlashAttention2），GlimpsePrune将计算密集型预填充阶段成本降至基线的69.1%。更重要的是，在内存密集的解码阶段，初始KV Cache长度从5,073.9个token压缩至202.5个token，使整个生成过程的峰值内存使用量降低至72.8%。

4. 消融实验

消融研究验证了框架中各个组件的有效性，例如Glimpse Token、VIP模块以及训练策略等。同时，实验也探讨了在不同层进行剪枝对性能和效率的权衡。

(消融实验验证了各组件的必要性)

(在不同层剪枝的性能与效率权衡)

论文贡献与价值

本研究为解决LVLM的效率瓶颈问题提供了一个全新的、高效的解决方案。其主要贡献包括：

提出GlimpsePrune框架：一个新的、受人类认知启发的动态视觉Token剪枝框架，能够根据输入自适应地剪枝，兼顾了效率和性能。
性能与效率双提升：在大幅降低计算和内存开销的同时，不仅保持了、甚至通过GlimpsePrune+超越了原始LVLM的性能，为构建更强、更高效的LVLM开辟了新路径。
开源社区贡献：项目代码已经开源，将有力地推动社区在LVLM效率优化方向上的进一步研究和应用。

总而言之，GlimpsePrune通过“惊鸿一瞥”的智慧，优雅地解决了LVLM在处理高分辨率视觉信息时的“消化不良”问题，是模型压缩与加速领域的一次重要探索。

#Qwen-Image

阿里发布：不止于图，“文图”并茂的AIGC新篇章！

近日，Qwen Team团队发布了其Qwen系列在图像生成领域的最新力作——Qwen-Image。这份技术报告详细介绍了一款在复杂文本渲染和精准图像编辑方面取得显著突破的基础模型。Qwen-Image不仅能生成风格多样的图片，更在图片中精准、清晰地渲染文字（尤其擅长中文），并能对图像进行高保真度的编辑，标志着文图生成技术迈向了新的高度。

论文标题: Qwen-Image Technical Report
机构: Qwen Team
论文地址: https://arxiv.org/pdf/2508.02324v1
项目地址: https://github.com/QwenLM/Qwen-Image

研究背景

当前的图像生成模型，如DALL-E 3、Midjourney等，虽然在生成富有创意和艺术感的图像方面表现出色，但在一个长期存在的挑战上仍有不足：在图像中准确地渲染文本。无论是简单的单词拼写，还是复杂的段落布局，或是像中文这样的语素文字，都常常出现错误。此外，对生成图像进行局部编辑时，如何确保编辑内容与原始图像在语义、风格和光影上无缝衔接，保持高度的一致性，也是业界的一大难题。Qwen-Image正是为了攻克这两大核心挑战而生。

核心方法

为了同时解决文本渲染和编辑一致性两大难题，Qwen-Image 团队设计了一套创新的架构和训练策略。

1. 针对复杂文本渲染的解决方案

为了让模型学会“写字”，研究团队从数据和训练方法两方面入手：

全面的数据处理流程：构建了一个包含大规模数据收集、过滤、标注、合成和平衡的综合数据管道。这确保了模型能接触到海量且高质量的图文并茂数据，为学习文本渲染打下坚实基础。

1.数据收集

团队系统性地收集并标注了数十亿图像-文本对以支撑图像生成模型的训练。与单纯追求原始数据规模不同，更注重数据质量与均衡分布，旨在构建一个贴近真实场景、均衡且具有代表性的数据集。如上图所示，该数据集被划分为四大核心领域：自然、设计、人物与合成数据。

2.数据过滤

为确保图像生成模型在迭代开发过程中始终使用高质量训练数据，团队提出如上图所示的七阶段渐进式过滤流程。

阶段1：初始预训练数据筛选
阶段2：图像质量增强
阶段3：图文对齐优化
阶段4：文本渲染增强
阶段5：高分辨率优化
阶段6：类别平衡与肖像增强
阶段7：多尺度平衡训练

3.数据标注

Qwen Image中使用的标注提示示例

数据标注流程中，采用高性能图像描述模型（如Qwen2.5-VL）同时生成全面的图像描述和结构化元数据，以捕捉关键图像属性与质量特征。不同于将描述生成与元数据提取视为独立任务，设计了联合标注框架：描述模型在输出视觉内容叙述的同时，以JSON等结构化格式生成详细参数。

该方案兼具高效性与可扩展性，无需依赖额外模型或后处理步骤即可支持大规模数据集处理，不仅为图像内容提供深度解析，更为训练鲁棒可靠的图像生成模型奠定了数据基础。

4.数据合成

针对现实图像中文本内容的长尾分布问题（尤其是中文等非拉丁语系中大量低频字符的存在），单纯依赖自然场景文本难以确保模型训练时充分接触这些稀有字符。为此，团队提出多阶段文本感知图像合成流程，通过以下三种互补策略提升文本渲染的鲁棒性：

纯背景基础渲染
场景化复合渲染
结构化模板渲染

通过简单性、真实性与结构复杂性的多维度渲染策略，系统解决了自然图像数据集中文本稀缺与分布不均的难题，最终实现跨场景的高质量文本渲染生成。

渐进式训练策略：采用了一种课程学习（Curriculum Learning）的方法。训练从不含文字的图像生成开始，逐步引入简单文本，然后过渡到复杂文本和段落级描述。这种由易到难的学习路径，极大地增强了模型的原生文本渲染能力。

通过这一系列精心设计，Qwen-Image不仅在英文等字母语言上表现优异，更在中文这类结构复杂的语素文字渲染上取得了显著进步。

2. 针对图像编辑一致性的解决方案

为了实现“指哪改哪、改得还真”的精准编辑，Qwen-Image引入了以下关键技术：

改进的多任务训练范式：在传统的文本到图像（T2I）和文本-图像到图像（TI2I）任务基础上，创新性地加入了图像到图像（I2I）重建任务。这使得模型的潜在表示（latent representations）在Qwen2.5-VL（视觉语言模型）和MMDiT（多模态扩散Transformer）之间得到有效对齐。

双编码机制：在编辑时，原始图像被分别送入Qwen2.5-VL和VAE编码器。前者用于提取高层语义信息（知道图里有什么），后者用于获取像素级的重建信息（知道图长什么样）。这种双编码机制使得编辑模块能够在“保留原图语义”和“维持视觉真实感”之间取得绝佳平衡。

模型架构：Qwen-Image采用了标准的双流MMDiT（Double-stream MMDiT）架构，并设计了一种新颖的多模态可扩展旋转位置编码（Multimodal Scalable RoPE, MSRoPE），以联合编码图像和文本模态的位置信息。

Qwen Image架构概述

Qwen-Image架构基于三个协同工作的核心组件，以实现高保真文生图功能。首先，多模态大语言模型（MLLM）作为条件编码器，负责从文本输入中提取特征；其次，变分自编码器（VAE）充当图像分词器，将输入图像压缩为紧凑的潜在表征，并在推理时解码还原；最后，多模态扩散Transformer（MMDiT）作为主干扩散模型，在文本引导下建模噪声与图像潜在变量间的复杂联合分布。

Qwen Image架构配置

实验结果与展示

Qwen Image与AI Arena平台上领先的闭源API的比较

Qwen-Image在多个公开基准测试中均取得了当前最佳（SOTA）性能，充分展示了其在图像生成和编辑方面的强大实力。

定量结果

定性结果

除了量化指标，模型在实际生成和编辑任务中的效果也同样惊艳，支持多样化的艺术风格生成、风格迁移、文本编辑、背景替换、物体增删替换以及姿态操控等多种复杂的编辑任务。

图像合成——英文提示渲染

图像合成——中文提示渲染

多目标合成

空间关系生成

文本和材料修改

目标修改（移除、添加、替换）

姿势处理

Chained Editing

新视图合成

通用图像生成展示：

通用图像编辑展示：

更有趣的是，模型还能完成一些通用的图像理解任务，如目标检测、分割、深度/边缘估计、新视角合成和超分辨率等，这些都可以被看作是广义上的图像编辑。

论文贡献与价值

Qwen-Image的发布具有重要的学术和应用价值：

技术创新：提出了针对复杂文本渲染的全面数据处理流程和渐进式训练策略，以及用于高一致性编辑的改进的多任务训练范式和双编码机制。
性能突破：在文图生成，特别是文本渲染和图像编辑方面，取得了SOTA性能，为相关领域的研究设立了新的标杆。
开源贡献：团队已经开源了Qwen-Image模型及代码，这将极大地推动社区在高质量文图生成与编辑技术上的发展和应用。

总而言之，Qwen-Image不仅是一个强大的图像生成工具，更通过其创新的技术路径，为解决AIGC领域的长期挑战提供了宝贵的思路和坚实的开源工具，有望在数字内容创作、广告设计、个性化艺术等领域发挥巨大潜力。

#H3R

浙大等提出：融合显式几何与隐式注意力，通用3D重建性能SOTA，收敛速度提升一倍

从几张任意视角的照片，就能“凭空”生成一个完整、逼真的3D模型——这是“通用三维重建”（Generalizable 3D Reconstruction）的终极目标。近年来，随着3D高斯泼溅（3D Gaussian Splatting）技术的兴起，我们离这个目标越来越近。然而，一个核心难题始终困扰着研究者：如何精准地建立不同视角的像素之间的对应关系（Multi-view Correspondence）？

现有的方法普遍陷入了一个“鱼与熊掌不可兼得”的困境：

显式方法 (Explicit Methods) ：严格遵循对极几何等数学约束，几何精度高，但在纹理缺失或重复的区域（如白墙、水面）容易“抓瞎”。
隐式方法 (Implicit Methods) ：利用强大的Transformer等神经网络来“学习”对应关系，鲁棒性更强，但往往收敛速度慢，且几何精度有所欠缺。

为了破解这一困境，来自浙江大学和新加坡科技设计大学的研究者们，提出了一种名为 H3R 的混合（Hybrid）框架。它巧妙地将显式方法的几何精度与隐式方法的鲁棒性融为一体，不仅在多个权威基准上取得了当前最先进（SOTA）的性能，还将收敛速度提升了整整一倍，并展现了惊人的跨数据集泛化能力。

论文标题: H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction
作者: Heng Jia, Linchao Zhu, Na Zhao
机构: 浙江大学；新加坡科技设计大学
录用信息: ICCV 2025
论文地址: https://arxiv.org/pdf/2508.03118v1
代码地址: https://github.com/JiaHeng-DLUT/H3R

H3R的核心方法：显式与隐式的“双管齐下”

H3R 的核心思想是“双管齐下”，它设计了两个互补的组件，分别扮演“显式几何学家”和“隐式学习者”的角色。

1. 高效潜在体素 (Efficient Latent Volume) - 显式几何约束

这是框架的“几何基石”。H3R首先利用强大的视觉基础模型（Foundation Model）从各个输入视角提取特征。然后，它严格遵循对极约束（epipolar constraints），将不同视角的特征进行匹配和聚合，构建一个三维的潜在体素（Latent Volume）。这一步通过硬性的几何规则，为后续的重建提供了精准的空间对应关系，确保了模型的几何精度。

2. 相机感知Transformer (Camera-aware Transformer) - 隐式关系细化

有了几何基石还不够，对于模糊区域，还需要模型能“智能”地进行推理。为此，H3R引入了一个创新的相机感知Transformer。这个Transformer的独特之处在于，它不仅处理视觉特征，还引入了普吕克坐标（Plücker coordinates）来编码相机的位置和朝向。普吕克坐标能更优雅地表示空间中的3D射线，让Transformer能够更好地理解相机之间的相对姿态，从而通过自注意力机制（self-attention）自适应地对潜在体素中的对应关系进行细化，极大地增强了模型在模糊区域的鲁棒性。

一个重要的发现：空间对齐 > 语义对齐

论文还有一个非常重要的洞见：在选择用于提取特征的基础模型时，空间对齐的模型（如Stable Diffusion的VAE编码器）性能显著优于语义对齐的模型（如DINOv2）。这是因为3D重建任务更关心像素级的空间位置和结构，而DINOv2这类为图像分类、分割设计的模型，其特征更侧重于高级语义，反而与重建任务的需求不匹配。这一发现为未来3D重建的研究指明了更合适的特征提取器选择方向。

实验结果：全面超越SOTA

H3R在多个主流3D重建基准（RealEstate10K, ACID, DTU）上进行了广泛的实验，结果令人信服。

1. 定量与定性结果

如下图所示，无论是定量的PSNR指标，还是定性的重建视觉效果，H3R都全面超越了现有的SOTA方法，重建的细节更丰富，伪影更少。在PSNR指标上，H3R在RealEstate10K、ACID和DTU数据集上分别取得了 0.59 dB、1.06 dB和0.22 dB 的显著提升。

定量评估

定性结果

RealEstate10K上不同输入视图与MVSplat的比较

2. 惊人的泛化能力

H3R展现了强大的“举一反三”能力。将在室内场景（RealEstate10K）上训练好的模型，直接用于测试室外场景（ACID）和物体级场景（DTU），无需任何微调，依然取得了SOTA的零样本（zero-shot）性能。

与最先进的通用3D重建方法进行比较

跨数据集泛化

3. 更快的收敛速度

得益于显式几何约束的引入，H3R的收敛速度比纯隐式方法快了 2倍，大大缩短了训练时间。

论文贡献与价值

提出了H3R混合框架：首次成功地将显式的几何约束与隐式的注意力机制无缝融合，解决了通用3D重建中精度与鲁棒性的核心权衡问题。
创新的相机感知Transformer：引入普吕克坐标来增强Transformer对相机位姿的理解，为多视角几何建模提供了新思路。
揭示了基础模型的选择之道：明确指出了空间对齐的特征对于3D重建任务的重要性，为社区提供了宝贵的实践指导。
树立了新的SOTA：在精度、泛化性和收敛速度上均取得了突破，为通用3D重建技术的发展设定了新的标杆，并已开源代码。

总而言之，H3R不仅是一个性能强大的新模型，更重要的是，它为如何结合传统几何视觉的“规则”与深度学习的“智能”提供了一个优雅而高效的范本。

#LongVie

南大&复旦&南洋理工等提出：突破一分钟界限，迈向可控的超长视频生成！

从Sora的惊艳亮相到Kling的开源，视频生成技术在2024年迎来了爆发。然而，无论是学术界还是工业界，生成几十秒的短片已是极限，想要生成一分钟以上、且内容、动态、风格都高度可控的超长视频，仍然是一个悬而未决的巨大挑战。

为什么长视频生成这么难？现有方法在拼接视频片段时，往往会出现恼人的“闪烁”、前后画风不一的时间不一致性，以及越到后面、画面越模糊崩坏的视觉质量下降问题。

为了系统性地解决这些顽疾，来自南京大学、复旦大学、南洋理工大学、英伟达和上海人工智能实验室的顶尖研究团队，联合提出了一个名为 LongVie 的端到端自回归框架。通过一系列直击痛点的核心设计，LongVie 成功生成了长达一分钟、高分辨率、高保真且时间稳定的可控视频，在长距离可控性、一致性和质量方面均达到了当前最先进（SOTA）的性能。

论文标题: LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
作者: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
机构: 南京大学；复旦大学；南洋理工大学；英伟达；上海人工智能实验室
论文地址: https://arxiv.org/pdf/2508.03694v1
项目主页: https://vchitect.github.io/LongVie-project/
代码地址: https://github.com/vchitect/LongVie

长视频生成的“三座大山”

在提出解决方案前，研究者首先通过实验，精准诊断了导致长视频生成失败的三个根本原因：

独立的噪声初始化 (Separate Noise Initialization): 现有方法在生成下一个视频片段时，会使用全新的随机噪声，这导致新旧片段之间缺乏底层连续性，产生闪烁和内容突变。
独立的控制信号归一化 (Independent Control Signal Normalization): 控制信号（如深度图、姿态骨骼）在每个片段内被独立归一化，导致整个视频的控制尺度不统一，动作和场景看起来会“漂移”。
单模态引导的局限性 (Limitations of Single-Modality Guidance): 单纯依赖一种控制信号（如只用深度图），在长时间生成中容易累积误差，导致细节丢失和视觉质量下降。

下图清晰地展示了这些问题：独立的噪声和归一化导致了时间上的不一致，而单一模态的控制导致了视觉质量的崩坏。

时间不一致和质量下降

时间不一致性分析

单模态控制引起的视觉退化

LongVie 的四大“神兵利器”

针对上述三大痛点，LongVie 提出了一个完整的解决方案，其核心框架如下图所示。它以自回归（Autoregressive）的方式，即逐个片段地生成视频，并引入了四大核心设计。

为确保时间一致性：

统一的噪声初始化策略: LongVie 不再为每个新片段使用随机噪声，而是将前一个片段的最终噪声状态作为下一个片段的起始噪声。这就像在两段胶片之间建立了平滑的底层连接，从根本上保证了生成过程的连续性。
全局控制信号归一化: 对所有控制信号在整个视频的时间维度上进行一次性的全局归一化。这确保了无论视频有多长，控制信号的“度量衡”都是统一的，从而避免了动作和场景的漂移。

为缓解视觉质量下降：

多模态控制框架: LongVie 不再依赖单一信息源，而是创造性地融合了密集控制信号（如深度图，提供丰富的几何信息）和稀疏控制信号（如人体关键点，提供精确的结构信息）。这两种信号互为补充，大大增强了对生成过程的约束力，有效防止了细节丢失。
退化感知训练策略: 这是一项非常智能的设计。在训练过程中，模型被教会去感知生成质量何时可能开始下降，并自适应地调整不同模态控制信号的权重。例如，当模型感觉画面要“糊”了的时候，它可能会更信任稀疏但稳定的关键点信号，从而将画质“拉”回正轨。

实验结果：眼见为实

LongVie 的效果令人印象深刻。无论是从3D动画模型生成逼真的视频，还是在真实场景中进行内容创作，LongVie 都能生成细节丰富、动作连贯、质量稳定的超长视频。

视频编辑

运动&场景迁移

网格-视频

定量结果表明，LongVie在所有基线中实现了最佳时序一致性和可控性，达到最先进性能。

在与现有顶尖方法进行的用户研究中，LongVie 在长距离可控性、时间一致性、视觉质量等所有五个维度的评比中，都获得了用户的最高偏好度，全面胜出。

消融实验也充分证明，上述提到的四大核心设计，每一个都对最终的卓越性能至关重要。

论文贡献与价值

系统性地诊断了长视频生成的核心难题，并提出了针对性的、完整的解决方案。
提出了 LongVie 框架，其四大核心设计（统一噪声、全局归一化、多模态控制、退化感知训练）为实现高质量、高稳定性的超长视频生成提供了全新的范式。
创建了 LongVGenBench，这是首个专为超长视频生成任务设计的综合性基准数据集，包含100个时长超过一分钟的高分辨率视频，极大地推动了该领域未来的研究。
实现了 SOTA 性能，将可控视频生成的时长和质量推向了一个新的高度，为视频AIGC的下游应用，如影视制作、游戏、虚拟人等，打开了更广阔的想象空间。

#AMOT

无人机多目标跟踪AMOT：让无人机在复杂动态中“看”得更稳、跟得更准

本文介绍一篇由中国科学院、阿德莱德大学、麦考瑞大学、加利福尼亚大学默塞德分校等机构的研究者们共同完成的最新成果，论文标题为《Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos》。

这项工作直面无人机（UAV）视角下多目标跟踪（Multi-Object Tracking, MOT）的严峻挑战，提出了一个名为 AMOT 的全新跟踪框架。无人机视频中，剧烈的视角变化和复杂的相对运动常常导致传统跟踪方法“跟丢”或“认错”目标。AMOT的核心创新在于，它不再孤立地看待目标的外观和运动，而是通过外观信息引导运动建模，将两者紧密结合。该方法在VisDrone2019等三大无人机跟踪基准数据集上均取得了SOTA性能，并且实现了即插即用和免训练，展现了极强的实用性。

论文标题：Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos
作者：Jianbo Ma, Hui Luo, Qi Chen, Yuankai Qi, Yumei Sun, Amin Beheshti, Jianlin Zhang, Ming-Hsuan Yang
机构：中国科学院；中国科学院大学；阿德莱德大学；麦考瑞大学；加利福尼亚大学默塞德分校
论文地址：https://arxiv.org/pdf/2508.01730v1
代码仓库：https://github.com/ydhcg-BoBo/AMOT
（** The code will be made publicly available upon acceptance**）

研究背景与意义

多目标跟踪（MOT）是计算机视觉的基础任务，旨在视频中持续追踪多个目标并保持其身份（ID）不变。在自动驾驶、智能监控等领域有广泛应用。然而，当摄像头被安装在无人机上时，MOT任务的难度会急剧增加。主要挑战来自：

不稳定的运动模式：无人机自身的快速移动、旋转、俯仰，叠加地面目标的运动，导致了复杂的、难以预测的相对位移。
剧烈的外观变化：频繁的视角和尺度变化，使得同一目标在不同帧之间的外观可能差异巨大。

传统的MOT方法通常采用“跟踪-通过-检测”（Tracking-by-Detection）范式，其核心是数据关联，即如何将当前帧检测到的目标与上一帧已有的轨迹进行匹配。这通常依赖于一个“代价矩阵”（Cost Matrix）来衡量检测与轨迹之间的相似度。现有方法主要通过两种独立的方式构建代价矩阵：

基于运动：使用卡尔曼滤波器（Kalman Filter）等模型预测轨迹在当前帧的位置，然后计算预测位置与检测位置的距离（如IoU）。这种方法在运动平稳时有效，但在无人机剧烈运动时，预测往往不准。
基于外观：提取每个目标的Re-ID（重识别）特征，通过计算特征的余弦相似度来判断ID是否一致。这种方法对位置变化不敏感，但当目标外观因视角、遮挡等因素剧烈变化时，也容易出错。

现有方法的最大问题在于，它们独立地处理运动和外观线索，忽略了两者之间内在的时空关联。当运动预测和外观匹配给出相互矛盾的信号时，跟踪器就很容易做出错误的决策。AMOT正是为了解决这一核心痛点而提出的。

AMOT 的核心方法

AMOT的整体跟踪流程如下图所示，它建立在高效的JDE（Joint Detection and Embedding）架构之上，并创新性地引入了两个即插即用的核心组件：外观-运动一致性（Appearance-Motion Consistency, AMC）矩阵 和 运动感知轨迹延续（Motion-aware Track Continuation, MTC）模块。

(AMOT跟踪流程图)

1. 外观-运动一致性 (AMC) 矩阵

这是AMOT的第一个核心创新，旨在构建一个更鲁棒的代价矩阵。它不再将运动和外观割裂，而是让外观信息来“指导”运动信息的评估。

具体来说，对于一个已有的轨迹和一个新的检测，AMC不只简单地看它们的位置远近或外观相似度，而是计算一种双向空间一致性。如下图所示：

(AMC矩阵中的双向空间距离示意图)

前向距离 (Forward Distance) ：首先，利用轨迹的外观特征（Re-ID embedding）在当前帧的特征图上进行密集匹配，找到一个响应最强的位置，这可以看作是由外观引导的轨迹位置预测。然后计算这个预测位置与实际检测位置之间的距离。
后向距离 (Backward Distance) ：反过来，利用检测的外观特征在上一帧的特征图上进行匹配，找到一个响应最强的位置，这相当于由外观引导的检测位置回溯。然后计算这个回溯位置与轨迹在上一帧的实际位置之间的距离。

只有当这对“前向”和“后向”距离都很小的时候，才认为该轨迹和检测是高度一致的。这种双向约束强有力地整合了时空信息，使得关联结果对突发的运动和外观变化更具鲁棒性。最终，AMC矩阵会与传统的IoU矩阵和外观相似度矩阵融合，形成一个统一的、更可靠的代价矩阵，用于第一阶段的高分检测关联。

2. 运动感知轨迹延续 (MTC) 模块

在MOT中，由于遮挡或检测器漏检，一些本应存在的轨迹在当前帧可能没有匹配到任何检测，成为“未匹配轨迹”。如果连续多帧都未匹配，这些轨迹就会被终止，导致轨迹断裂和ID切换。

MTC模块就是为了解决这个问题而设计的。对于一个未匹配的轨迹，MTC会同时进行两种预测：