SARATR-X: Toward Building A Foundation Model for SAR Target Recognition
摘要
尽管合成孔径雷达自动目标识别 (SAR ATR) 取得了显著进展,但近期的工作主要集中在检测和识别特定类别, 例如车辆、船舶、飞机或建筑物。目前表现最优的 SAR ATR 方法存在一个基本限制,即其学习范式是监督式的、task-specific、limited-category、closed-world learning,依赖大量由SAR专家精确标注的昂贵样本,且其泛化能力和扩展性有限。在本文中首次尝试构建面向SAR ATR 的基础模型,称为 SARATR-X。SARATR-X通过自监督学习(Self-Supervised Learning, SSL)学习具有可泛化能力的表示,为标签高效的模型适配提供基石(cornerstone),适用于通用的SAR目标检测和分类任务。具体来说,SARATR-X 在0.18M未标记的SAR目标样本上进行训练,这些样本由多个现有基准数据集汇集而成,构成了迄今为止最大的公开数据集。考虑到SAR图像的特点,精心设计了适用于 SAR ATR 的主干网络,并采用了结合多尺度梯度特征的两步自监督学习方法,保证了 SARATR-X 的特征多样性和模型可扩展性。在 few-shot and robustness 设置下的分类实验,以及跨不同类别和场景的detection实验中,SARATR-X 展现了令人印象深刻的性能,常常想当甚至优于之前的 fully supervised, semi-supervised, or self-supervised 算法。本文已将 SARATR-X 模型及汇集的数据集开源于 https://github.com/waterdisappear/SARATR-X,旨在促进SAR图像理解领域基础模型的研究。
I Introduction
合成孔径雷达(SAR)[1_Spaceborne_SAR, 2_Remote_Sensing, 3_Tutorial_SAR, 4_SAR_data] 源于微波波段的电磁散射,在主动式地球观测中发挥着至关重要的作用,能够在多种天气条件和光照环境下有效工作。随着SAR成像技术的快速发展,高分辨率SAR图像比以往更容易获得,从而为 SAR 图像的智能解译提供更多研究机会。SAR 自动目标识别(ATR)旨在对 SAR 图像中感兴趣的目标( 如车辆、轮船、飞机或建筑物)进行自动定位和分类,是SAR图像智能解译中一个长期存在且重要但具有挑战性的问题 [5_DL_SAR,6_Explainable_CNN,7_Self_supervised_learning,8_Physics_aware]。SAR ATR 在民用和国防应用中扮演着关键角色,例如现代机场管理、灾害管理、城市规划与基础设施监测、军事侦察和海上监视。因此,该领域在几十年间一直是一个活跃的研究方向[9_Road_Segmentation, 10_SAR_ATR_performance, 11_Adaptive_Boosting, 12_Target_classification, 13_Scattering_Model, 14_Uncertainty Exploration]。在过去十年里,深度学习为 SAR ATR 带来了巨大的成功[15_SAR_Ship, 16_Target_Recognition, 17_Comprehensive_Survey]。尽管取得了显著进展,要推动 SAR ATR 领域的发展,仍需解决以下一些基础性挑战。
首先,任务特定性。当前 SAR ATR 方法[25_Dual_Stream, 26_ChatGPT, 27_Learning_transferable, 28_SAM, 29_Sequential_modeling, 30_Foundation_models]的一个基本限制是,一个模型在一个特定的任务上进行训练和评估。检测和分类一个特定的粗略类别(如Fig.1中的车辆、船只、飞机或建筑物)都需要它们自己的深度模型。
因此,这些深度模型的任务特定性质给训练新任务或开发综合 SAR ATR 系统带来了巨大挑战,因为每个任务都必须从头开始独立学习,需要大量的标注数据。这导致计算效率低下、准确率降低以及不同模型之间结果不一致。其次,过于依赖监督学习。尽管 SAR ATR 的近期进展[23_SEFEPNet, 24_DiffDet4SAR, 25_Dual_stream]相当显著,但仅限于监督学习,它严重依赖于大量精确标注目标样本,需要由专业SAR分析员辛苦标记,且泛化能力和可扩展性有限。然而,专业SAR分析员的稀缺性无法满足这种复杂的要求,导致大量SAR图像未标注和未利用。第三,模型设计中忽视了SAR图像特性。SAR图像的成像特性与光学图像差异显著,导致自然图像与SAR图像之间存在显著的 domain gap。当试图从自然图像域迁移先验知识时,会带来重大挑战。SAR图像的不同强先验知识(strong prior knowledge),包括散斑噪声、离散目标外观(discrete target appearances)以及缺乏几何、纹理和轮廓线索,在设计和主干架构(backbone architectures)及学习策略(earning strategies)时需要特别考虑。目前多数主流的基于自然图像设计的骨干架构和方法于上述信息都不合适。最后,发展不足的开源生态。由于数据具有敏感性,整个领域的开源生态发展不足,公开共享代码和数据面临挑战。目前尚无大型且具有代表性的 SAR ATR 基准数据集。因此,这限制了目前深度学习技术在 SAR ATR 中的潜力,并大大减缓了该领域的发展。
最近,基础模型(Foundation Models, FMs)的卓越成功 [26_Chatgpt, 27_CLIP, 28_SAM, 29_LVM] 已经在人工智能领域引发了学习范式的转变。基础模型[30_FMs]通过 task-agnostic 的方式在大量数据上进行预训练(通常通过自监督学习),可以灵活地适应广泛的下游任务。自监督学习(Self-supervised learning, SSL)[31_Self_supervised, 32_Cookbook_of_SSL, 33_Visual_Feature, 34_MLMC, 35_Highly_Efficient]通过直接挖掘数据中的监督信息可以缓解标注效率低下的问题,从而减少对昂贵专家标注的依赖,同时高效地扩展数据和模型。FMs在自然语言处理、计算机视觉、语音识别和医学图像分析等多个领域表现出色。如表 I 所示,FMs 在遥感图像理解方面也已得到探索,但它们大多局限于光学数据的评测。
据目前所知,FMs在SAR图像解释方面的巨大潜力仍然完全未被发掘。
此前提出了名为 SAR imagery named SAR Joint-Embedding Predictive Architecture(SAR-JEPA)[37_Predicting_Gradient]的创新SSL方法用于SAR图像,并展示了其出色的结果。