【技术追踪】SynPo:基于高质量负提示提升无训练少样本医学图像分割性能(MICCAI-2025)

  SAM 新用法,无需训练,利用高质量负提示提升分割性能~


论文:SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts
代码:https://liu-yufei.github.io/synpo-project-page/


0、摘要

  大型视觉模型(Large Vision Models,LVMs)为小样本医学图像分割带来了新机遇。然而,现有基于 LVMs 的无训练方法未能有效利用负提示,在低对比度医学图像上表现不佳。(研究背景

  为此,本文提出 SynPo,一种基于 LVMs(如 SAM)的无训练小样本分割方法,核心思想是提升负提示的质量。

  本文设计了置信图协同模块,融合 DINOv2 与 SAM 的优势,生成更可靠的置信图。基于该置信图,选取前 k 个像素作为正提示点集,并基于高斯分布选取负提示点集,随后分别对两者进行 K-means 聚类。最终,这些高质量提示点被输入 SAM 进行分割。大量实验表明,SynPo 的性能可与当前最优的有训练小样本方法相媲美。


1、引言

1.1、研究意义与当前挑战

  (1)利用 SAM 进行无训练小样本分割的流程可概括如 图 1(1) 所示。该方法以支持-查询图像对及支持掩膜为输入,首先通过强预训练视觉编码器(如 DINO)提取支持-查询图像对的特征图,随后利用余弦距离计算查询特征与目标特征之间的二维置信图,并将置信图中的最大值作为点提示,引导 SAM 在查询图像上完成交互式分割;

  (2)置信图的利用仍有改进余地: DINOv2 作为该范式中常用的特征提取器,在语义特征提取方面表现出色,但其采用相对位置编码,削弱了对绝对空间位置的感知,可能导致正提示点选择错误,如 图 1(2) 左下 所示,这会影响解剖先验的利用,进而导致分割结果在解剖结构上不一致;而同样广泛使用的 SAM-ViT 采用绝对位置编码,具备更强的空间定位能力,能够有效避免该问题,如 图 1(2) 右上 绿框所示;

  (3)负提示的选择策略较为粗糙: 导致分割性能下降。现有方法将置信图中与目标区域相似度最低的像素作为负提示,使得大多数负提示集中在背景区域,而非解剖区域内,图 1(3) 中的先导实验表明,该方式违背直觉,效果不佳;
  
Figure 1 | 无训练少样本分割面临的挑战:(1) 无训练小样本点提示分割模型的通用流程;(2) 不同置信图(C. Map)与真实标签对比,DINOv2 特征生成的置信图误将右侧无关区域识别为“相似”;SAM-ViT 特征的置信图数值区分度较低,本文提出的协同置信图融合两者优势,弥补各自不足;(3) 先导实验:在解剖区域外设置负提示,即使正提示位置相同,分割性能仍低于在区域内设置负提示;

在这里插入图片描述

1.2、本文贡献

  (1)提出了一种新颖的无训练方法 SynPo,包含置信图协同模块点提示选择模块

  (2)借助 SAM 在低层空间信息捕捉方面的优势,弥补 DINOv2 特征的不足,设计了置信图协同模块,该模块融合 DINOv2 的高层语义特征与 SAM-ViT 的绝对空间信息,提升解剖结构的识别能力并优化分割边界;

  (3)点提示策略模块通过在解剖区域内启发式地选择负提示,提升了负提示的信息量,增强了提示引导效果,减少了冗余信息;

  (4)引入噪声感知优化模块,结合标准形态学操作与 SAM 对粗分割结果进行细化;


2、方法

2.1、总览

  SynPo方法,如 图 2 (1) 所示,由三个核心部分组成:置信图协同模块(CMSM)点选择模块(PSM)噪声感知优化模块(NRM)。给定一个支持-查询对,首先使用预训练的视觉模型(SAM-ViT 和 DINOv2)提取零样本视觉特征。

  在 CMSM 中,特征图与支持掩码 M S ∈ R H × W \mathcal M_S∈\mathbb R^{H×W} MSRH×W 共同用于计算协同映射 S y n M a p ∈ R H × W SynMap∈\mathbb R^{H×W} SynMapRH×W,并建模负置信度分布 P n e g P_{neg} Pneg,这些要素共同支撑提示信息的生成。

  在 PSM 中,协同映射中的像素按其置信度得分排序形成一个分级列表,该列表与置信度分布共同构成点提示选择的关键决定因素。

  最后,生成的点提示和查询图像 I Q I_Q IQ 被输入到 SAM 中,以预测粗略掩码 M c o a r s e ∈ R H × W \mathcal M_{coarse} ∈\mathbb R^{H×W} McoarseRH×W,此外,设计了额外的 NRM 来对 M c o a r s e \mathcal M_{coarse} Mcoarse 进行细化。

  
Figure 2 | :(1)SynPo 架构概述;(2)置信图协同作用示意图;(3)点选择模块图示;

在这里插入图片描述

2.2、置信图协同模块(CMSM)

  如 图 2 (2) 所示,CMSM 是一种创新方法,它包含两个分支来生成协同图,并附带生成负置信度分布。对于上分支,使用 M s \mathcal M_s Ms F s \mathcal F_s Fs 中提取与视觉概念中前景像素对应的支持特征:
在这里插入图片描述
  其中 T S i ∈ R 1 × c \mathcal T_S^i ∈ \mathbb R^{1×c} TSiR1×c ◦ ◦ 表示空间维度乘法运算。随后,通过计算 T S i \mathcal T_S^i TSi 与查询特征 F Q \mathcal F_Q FQ 之间的余弦相似度,为每个前景像素 i i i 生成 n n n 个置信度图:
在这里插入图片描述
  接下来,采用平均池化方法来聚合所有 n n n 个局部特征图,从而获得目标器官的整体置信度图 S ∈ R H × W \mathcal S ∈ \mathbb R^{H×W} SRH×W

  在生成负置信度图的下分支中,通过 M ˉ s \bar{\mathcal M}_s Mˉs F s \mathcal F_s Fs 中裁剪出视觉概念内背景像素的支持特征,其中 M ˉ s \bar{\mathcal M}_s Mˉs 表示 M s {\mathcal M}_s Ms 的逆矩阵:
在这里插入图片描述
  其中 B S i ∈ R 1 × c \mathcal B_S^i ∈ \mathbb R^{1×c} BSiR1×c ◦ ◦ 表示空间维度乘法运算。随后,将 B S \mathcal B_S BS 视为 F q \mathcal F_q Fq,并以相同方式计算负置信度图 S n e g \mathcal S_{neg} Sneg

  随后,将 S S A M \mathcal S_{SAM} SSAM S D I N O \mathcal S_{DINO} SDINO 结合生成 S y n M a p SynMap SynMap

在这里插入图片描述
  其中 ⊙ ⊙ 表示哈达玛积,且 δ S − D + δ S + δ D = 1 δ_{S-D} + δ_S + δ_D = 1 δSD+δS+δD=1。第一项捕捉了两个矩阵之间的非线性相互作用,有效地放大了结果矩阵中的极端值。这增强了对两个置信度图中显著偏差的敏感性,同时降低了中性或中等数值的影响。此外,后续项为每个矩阵的贡献提供了受控权重。接下来,对 S n e g S A M \mathcal S^{SAM}_{neg} SnegSAM S n e g D I N O \mathcal S^{DINO}_{neg} SnegDINO 应用相同流程,生成融合表征,随后将其展平以获得 S y n M a p n e g ∈ R ( H × W − 1 ) × 1 SynMap_{neg}∈ \mathbb R^{(H×W-1)×1} SynMapnegR(H×W1)×1

在这里插入图片描述
  对于 S y n M a p n e g SynMap_{neg} SynMapneg,采用高斯概率密度函数对其中的每个像素值 p i p_i pi 进行建模:

在这里插入图片描述
  其中 μ μ μ σ σ σ 通过最大似然估计得出。

2.3、点选择模块(PSM)

  将协同图中的每个像素点 p i = ( x i , y i , c i ) p_i = (x_i, y_i, c_i) pi=(xi,yi,ci) 按照该像素置信度分数 c i c_i ci 进行降序排列,其中 x i x_i xi y i y_i yi 表示该像素的坐标位置。

  对于正样本点,选取概率值 p i p_i pi 的前 γ 1 ⋅ K p γ_1·K_p γ1Kp 个点,其中 γ 1 γ_1 γ1 是聚类比例因子, K p K_p Kp 代表期望的正样本点数量。所选点的坐标集合可表示为:
在这里插入图片描述
  其中 p i ∈ R 2 p_i∈\mathbb R^2 piR2。接下来,对这些坐标进行 K 均值聚类并选取 K p K_p Kp 个中心点,从而得到 P p o s \mathcal P_{pos} Ppos
在这里插入图片描述
  其中 P p o s ∈ R K p × 2 \mathcal P_{pos}∈ \mathbb R^{K_p×2} PposRKp×2代表坐标集合。

  对于负样本点,最多从置信区域选取 γ 2 ⋅ K n γ_2·K_n γ2Kn 个与感兴趣区域更相关的像素点,其定义如下列方程所示:
在这里插入图片描述
  其中 µ µ µ σ σ σ 源自 S y n M a p n e g SynMap_{neg} SynMapneg α α α β β β 是用户定义的用于控制置信区间边界的常数。随后随机选取 γ 2 ⋅ K n γ_2·K_n γ2Kn 个像素点:
在这里插入图片描述
  随后,将类似的聚类方法应用于正样本点,得到 P n e g \mathcal P_{neg} Pneg

在这里插入图片描述
  最终,取两个集合的交集并为这些点分配标签,从而得到该集合:
在这里插入图片描述
  其被输入至 SAM 模型以生成粗分割结果 M c o a r s e \mathcal M_{coarse} Mcoarse

2.4、噪声感知优化模块(NRM)

  该模块首先通过初始腐蚀操作来优化由 PSM 生成的原始粗糙掩膜 M c o a r s e \mathcal M_{coarse} Mcoarse,以去除细小噪声,随后进行膨胀步骤以恢复主要结构区域。设 M j \mathcal M_j Mj 表示针对 M c o a r s e \mathcal M_{coarse} Mcoarse j j j 个连通区域 C j C_j Cj 所获得的掩膜,通过 M j \mathcal M_j Mj 对查询特征进行分割:
在这里插入图片描述
  其中 ∣ C j ∣ |Cj| Cj 表示 C j C_j Cj 区域内的总像素数。随后,将 T Q , C j T_{Q,Cj} TQ,Cj 视作 F q F_q Fq,并采用相同方式计算 C j C_j Cj 区域的置信度得分,得到 S C j \mathcal S_{C_j} SCj。接着在每个连通域内计算均值:

在这里插入图片描述
  选择得分最高的连通区域作为 M r e f i n e \mathcal M_{refine} Mrefine,并将其作为掩码提示输入 PSM 模型。结合点提示,这有助于进一步细化分割结果。随后再次通过相同步骤处理输出,最终生成分割结果 M f i n a l \mathcal M_{final} Mfinal


3、实验与结果

3.1、实验设置

  (1)数据集与评价指标:Synapse-CT 数据集:30 例腹部 CT 三维扫描;CHAOSMRI 数据集:20 例 T2-SPIR 磁共振三维扫描;五折交叉验证报告 Dice 系数的标准差;

  (2)实施细节:将图像转换为 256×256 大小的感兴趣区域,使用 DINOv2 模型(Sinder)提取特征,得到一个空间尺寸为 64×64 的特征图。接着应用 SAM 模型(Sam2.1 Hiera 大图预测)获取相同空间尺寸 64×64 的特征图,分别对应高度和宽度。所有实验都在 NVIDIA RTX-3090 上进行。至于超参数,对于 Synapse-CT 和CHAOS-MRI, δ S − D δ_{S-D} δSD δ S δ_S δS δ D δ_D δD 均设定为 0.8、0.1 和 0.1;

3.2、与最先进方法的比较

  
Table 1 | 与最先进方法的比较:除 PerSAM 和 SynPo 外,数据均来自其原始论文;

在这里插入图片描述

  
Figure 3 | 不同方法的质量结果:

在这里插入图片描述

3.3、消融实验

  
Table 2 | 消融模块研究:
Table 3 | CHAOS 任务中负提示策略的消融研究:

在这里插入图片描述

  
Figure 4 | 参数 α α α β β β 的实验, β = α − 1.5 β = α − 1.5 β=α1.5

在这里插入图片描述


  prompt 也很值得研究呀( •̀ ω •́ )✧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值