航识无涯学术致力于成为您在人工智能领域的领航者,定期更新人工智能领域的重大新闻与最新动态,和您一起探索AI的无限可能。
2025深度学习发论文&模型涨点之——交叉注意+特征融合
近年来,交叉注意机制(Cross-Attention)与特征融合(Feature Fusion)的协同优化已成为多模态学习与跨域表征的核心研究方向。其理论优势在于通过可微分注意力权重动态建模异构特征间的非线性交互,克服了传统串联/相加式融合的归纳偏置限制。根据ICCV 2023最新综述,基于交叉注意的融合框架在跨模态检索任务中平均提升14.7%的mAP指标(vs. 传统方法),其关键在于三个方面:(1) 层次化注意力门控机制实现特征空间的软对齐;(2) 基于Transformer的交叉编码器架构建立长程依赖;(3) 可学习融合系数动态平衡模态贡献度。本合集将系统剖析CVPR/NeurIPS近三年顶会论文,重点讨论:① 双流交叉注意网络在医学影像分割中的特征互补性理论证明(如MICCAI 2022 MedFuse模型);② 基于图神经网络的层次化注意力融合方法(AAAI 2023 GraphFusion);③ 轻量化动态门控融合在边缘计算中的应用(CVPR 2024 EdgeCrossFormer)。通过对比分析不同范式下的计算效率与表征能力边界,旨在为研究者提供特征交互建模的方法论参考与性能基准。
论文精我整理了一些时间序列可解释性【论文+代码】合集,需要的同学公人人人号【航识无涯学术】发123自取。
论文精选
论文1:
ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection
ICAFusion:用于多光谱目标检测的迭代交叉注意力引导的特征融合
方法
双交叉注意力变换器框架:提出了一个基于双交叉注意力变换器的特征融合框架,用于模拟全局特征交互并同时捕获跨模态的互补信息。
迭代交互机制:引入迭代交互机制,通过在块级多模态变换器之间共享参数,减少模型复杂性和计算成本。
特征融合模块:设计了跨模态特征增强模块(CFE)和迭代跨模态特征增强模块(ICFE),用于增强RGB和热成像特征。
空间特征压缩(SFS):通过卷积和池化操作压缩特征图的大小,降低计算复杂度。
创新点
双交叉注意力变换器:通过查询引导的交叉注意力机制,增强了目标特征的可区分性,从而提高了性能。
迭代交互机制:与堆叠多个变换器块相比,迭代学习策略在不增加可学习参数的情况下,进一步提高了模型性能,同时减少了参数数量和计算复杂度。
性能提升:在KAIST、FLIR和VEDAI数据集上,该方法实现了优于现有技术的结果,同时获得了更快的推理速度。例如,在KAIST数据集上,MR从7.63%降低到7.17%,在FLIR数据集上,mAP50从77.5%提高到79.2%。
泛化能力:该方法可以集成到不同的检测框架中,并与不同的主干网络结合使用,具有良好的泛化能力。
论文2:
Rethinking Cross-Attention for Infrared and Visible Image Fusion
重新思考红外和可见光图像融合中的交叉注意力
方法
交替Transformer融合网络(ATFuse):提出了一个包含差异信息注入模块(DIIM)和交替公共信息注入模块(ACIIM)的融合网络。
差异信息注入模块(DIIM):通过修改交叉注意力机制,提取源图像之间的差异信息。
交替公共信息注入模块(ACIIM):交替使用交叉注意力机制,充分挖掘公共信息并整合长距离依赖。
分段像素损失函数:设计了一个分段像素损失函数,根据不同像素的重要性施加不同的约束,以平衡纹理细节和显著结构的保留。
创新点
差异信息提取:DIIM模块能够有效地提取源图像之间的差异信息,这在以往的Transformer融合方法中是缺失的。
公共信息整合:ACIIM模块通过交替提取公共信息,增强了融合结果中的背景细节。
性能提升:在RoadScene和MSRS数据集上,ATFuse在多个客观评估指标上优于其他现有方法。例如,在RoadScene数据集上,AG指标从5.6875提高到5.6864,Qabf指标从0.4493提高到0.6295。
分段像素损失函数:通过为不同重要性的像素施加不同的损失函数,该方法在保留细节和显著信息之间达到了良好的平衡。
论文3:
DynStatF: An Efficient Feature Fusion Strategy for LiDAR 3D Object Detection
DynStatF:一种用于LiDAR 3D目标检测的高效特征融合策略
方法
动态-静态融合(DynStaF):提出了一个双通道架构,将多帧(动态分支)提供的丰富语义信息与单帧(静态分支)提供的精确位置信息相结合。
邻域交叉注意力(NCA):在稀疏特征图上进行交叉注意力计算,仅考虑邻域位置,以减少计算开销并提高融合质量。
动态-静态交互(DSI):在特征图变得密集后,通过CNN模块进行更全面的交互,增强两个分支之间的特征融合。
双通道架构:分别处理多帧和单帧LiDAR输入的特征,并在2D主干网络中逐步融合。
创新点
邻域交叉注意力(NCA):通过限制交叉注意力的计算范围到邻域,有效地处理了BEV特征图的稀疏性,提高了融合效率。
动态-静态交互(DSI):在特征图变得密集后,DSI模块进一步增强了两个分支之间的特征交互,确保了丰富的语义信息和精确的位置信息的融合。
性能提升:在nuScenes数据集上,DynStaF显著提高了PointPillars和CenterPoint的性能。例如,PointPillars的NDS从57.7%提高到61.6%,mAP从44.6%提高到50.5%;CenterPoint的NDS从65.7%提高到67.7%,mAP从58.0%提高到61.0%。
兼容性:DynStaF可以作为即插即用模块应用于不同的基于LiDAR的3D目标检测算法,具有良好的兼容性。