SAM 新用法,无需训练,利用高质量负提示提升分割性能~
论文:SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts
代码:https://liu-yufei.github.io/synpo-project-page/
0、摘要
大型视觉模型(Large Vision Models,LVMs)为小样本医学图像分割带来了新机遇。然而,现有基于 LVMs 的无训练方法未能有效利用负提示,在低对比度医学图像上表现不佳。(研究背景)
为此,本文提出 SynPo,一种基于 LVMs(如 SAM)的无训练小样本分割方法,核心思想是提升负提示的质量。
本文设计了置信图协同模块,融合 DINOv2 与 SAM 的优势,生成更可靠的置信图。基于该置信图,选取前 k 个像素作为正提示点集,并基于高斯分布选取负提示点集,随后分别对两者进行 K-means 聚类。最终,这些高质量提示点被输入 SAM 进行分割。大量实验表明,SynPo 的性能可与当前最优的有训练小样本方法相媲美。
1、引言
1.1、研究意义与当前挑战
(1)利用 SAM 进行无训练小样本分割的流程可概括如 图 1(1) 所示。该方法以支持-查询图像对及支持掩膜为输入,首先通过强预训练视觉编码器(如 DINO)提取支持-查询图像对的特征图,随后利用余弦距离计算查询特征与目标特征之间的二维置信图,并将置信图中的最大值作为点提示,引导 SAM 在查询图像上完成交互式分割;
(2)置信图的利用仍有改进余地: DINOv2 作为该范式中常用的特征提取器,在语义特征提取方面表现出色,但其采用相对位置编码,削弱了对绝对空间位置的感知,可能导致正提示点选择错误,如 图 1(2) 左下 所示,这会影响解剖先验的利用,进而导致分割结果在解剖结构上不一致;而同样广泛使用的 SAM-ViT 采用绝对位置编码,具备更强的空间定位能力,能够有效避免该问题,如 图 1(2) 右上 绿框所示;
(3)负提示的选择策略较为粗糙: 导致分割性能下降。现有方法将置信图中与目标区域相似度最低的像素作为负提示,使得大多数负提示集中在背景区域,而非解剖区域内,图 1(3) 中的先导实验表明,该方式违背直觉,效果不佳;
Figure 1 | 无训练少样本分割面临的挑战:(1) 无训练小样本点提示分割模型的通用流程;(2) 不同置信图(C. Map)与真实标签对比,DINOv2 特征生成的置信图误将右侧无关区域识别为“相似”;SAM-ViT 特征的置信图数值区分度较低,本文提出的协同置信图融合两者优势,弥补各自不足;(3) 先导实验:在解剖区域外设置负提示,即使正提示位置相同,分割性能仍低于在区域内设置负提示;
1.2、本文贡献
(1)提出了一种新颖的无训练方法 SynPo,包含置信图协同模块与点提示选择模块;
(2)借助 SAM 在低层空间信息捕捉方面的优势,弥补 DINOv2 特征的不足,设计了置信图协同模块,该模块融合 DINOv2 的高层语义特征与 SAM-ViT 的绝对空间信息,提升解剖结构的识别能力并优化分割边界;
(3)点提示策略模块通过在解剖区域内启发式地选择负提示,提升了负提示的信息量,增强了提示引导效果,减少了冗余信息;
(4)引入噪声感知优化模块,结合标准形态学操作与 SAM 对粗分割结果进行细化;
2、方法
2.1、总览
SynPo方法,如 图 2 (1) 所示,由三个核心部分组成:置信图协同模块(CMSM)、点选择模块(PSM)和噪声感知优化模块(NRM)。给定一个支持-查询对,首先使用预训练的视觉模型(SAM-ViT 和 DINOv2)提取零样本视觉特征。
在 CMSM 中,特征图与支持掩码 M S ∈ R H × W \mathcal M_S∈\mathbb R^{H×W} MS∈RH×W 共同用于计算协同映射 S y n M a p ∈ R H × W SynMap∈\mathbb R^{H×W} SynMap∈RH×W,并建模负置信度分布 P n e g P_{neg} Pneg,这些要素共同支撑提示信息的生成。
在 PSM 中,协同映射中的像素按其置信度得分排序形成一个分级列表,该列表与置信度分布共同构成点提示选择的关键决定因素。
最后,生成的点提示和查询图像 I Q I_Q IQ 被输入到 SAM 中,以预测粗略掩码 M c o a r s e ∈ R H × W \mathcal M_{coarse} ∈\mathbb R^{H×W} Mcoarse∈RH×W,此外,设计了额外的 NRM 来对 M c o a r s e \mathcal M_{coarse} Mcoarse 进行细化。
Figure 2 | :(1)SynPo 架构概述;(2)置信图协同作用示意图;(3)点选择模块图示;
2.2、置信图协同模块(CMSM)
如 图 2 (2) 所示,CMSM 是一种创新方法,它包含两个分支来生成协同图,并附带生成负置信度分布。对于上分支,使用
M
s
\mathcal M_s
Ms 从
F
s
\mathcal F_s
Fs 中提取与视觉概念中前景像素对应的支持特征:
其中
T
S
i
∈
R
1
×
c
\mathcal T_S^i ∈ \mathbb R^{1×c}
TSi∈R1×c ,
◦
◦
◦ 表示空间维度乘法运算。随后,通过计算
T
S
i
\mathcal T_S^i
TSi 与查询特征
F
Q
\mathcal F_Q
FQ 之间的余弦相似度,为每个前景像素
i
i
i 生成
n
n
n 个置信度图:
接下来,采用平均池化方法来聚合所有
n
n
n 个局部特征图,从而获得目标器官的整体置信度图
S
∈
R
H
×
W
\mathcal S ∈ \mathbb R^{H×W}
S∈RH×W。
在生成负置信度图的下分支中,通过
M
ˉ
s
\bar{\mathcal M}_s
Mˉs 从
F
s
\mathcal F_s
Fs 中裁剪出视觉概念内背景像素的支持特征,其中
M
ˉ
s
\bar{\mathcal M}_s
Mˉs 表示
M
s
{\mathcal M}_s
Ms 的逆矩阵:
其中
B
S
i
∈
R
1
×
c
\mathcal B_S^i ∈ \mathbb R^{1×c}
BSi∈R1×c ,
◦
◦
◦ 表示空间维度乘法运算。随后,将
B
S
\mathcal B_S
BS 视为
F
q
\mathcal F_q
Fq,并以相同方式计算负置信度图
S
n
e
g
\mathcal S_{neg}
Sneg。
随后,将 S S A M \mathcal S_{SAM} SSAM 与 S D I N O \mathcal S_{DINO} SDINO 结合生成 S y n M a p SynMap SynMap:
其中
⊙
⊙
⊙ 表示哈达玛积,且
δ
S
−
D
+
δ
S
+
δ
D
=
1
δ_{S-D} + δ_S + δ_D = 1
δS−D+δS+δD=1。第一项捕捉了两个矩阵之间的非线性相互作用,有效地放大了结果矩阵中的极端值。这增强了对两个置信度图中显著偏差的敏感性,同时降低了中性或中等数值的影响。此外,后续项为每个矩阵的贡献提供了受控权重。接下来,对
S
n
e
g
S
A
M
\mathcal S^{SAM}_{neg}
SnegSAM 和
S
n
e
g
D
I
N
O
\mathcal S^{DINO}_{neg}
SnegDINO 应用相同流程,生成融合表征,随后将其展平以获得
S
y
n
M
a
p
n
e
g
∈
R
(
H
×
W
−
1
)
×
1
SynMap_{neg}∈ \mathbb R^{(H×W-1)×1}
SynMapneg∈R(H×W−1)×1:
对于
S
y
n
M
a
p
n
e
g
SynMap_{neg}
SynMapneg,采用高斯概率密度函数对其中的每个像素值
p
i
p_i
pi 进行建模:
其中
μ
μ
μ 和
σ
σ
σ 通过最大似然估计得出。
2.3、点选择模块(PSM)
将协同图中的每个像素点 p i = ( x i , y i , c i ) p_i = (x_i, y_i, c_i) pi=(xi,yi,ci) 按照该像素置信度分数 c i c_i ci 进行降序排列,其中 x i x_i xi、 y i y_i yi 表示该像素的坐标位置。
对于正样本点,选取概率值
p
i
p_i
pi 的前
γ
1
⋅
K
p
γ_1·K_p
γ1⋅Kp 个点,其中
γ
1
γ_1
γ1 是聚类比例因子,
K
p
K_p
Kp 代表期望的正样本点数量。所选点的坐标集合可表示为:
其中
p
i
∈
R
2
p_i∈\mathbb R^2
pi∈R2。接下来,对这些坐标进行 K 均值聚类并选取
K
p
K_p
Kp 个中心点,从而得到
P
p
o
s
\mathcal P_{pos}
Ppos:
其中
P
p
o
s
∈
R
K
p
×
2
\mathcal P_{pos}∈ \mathbb R^{K_p×2}
Ppos∈RKp×2代表坐标集合。
对于负样本点,最多从置信区域选取
γ
2
⋅
K
n
γ_2·K_n
γ2⋅Kn 个与感兴趣区域更相关的像素点,其定义如下列方程所示:
其中
µ
µ
µ 和
σ
σ
σ 源自
S
y
n
M
a
p
n
e
g
SynMap_{neg}
SynMapneg,
α
α
α 和
β
β
β 是用户定义的用于控制置信区间边界的常数。随后随机选取
γ
2
⋅
K
n
γ_2·K_n
γ2⋅Kn 个像素点:
随后,将类似的聚类方法应用于正样本点,得到
P
n
e
g
\mathcal P_{neg}
Pneg:
最终,取两个集合的交集并为这些点分配标签,从而得到该集合:
其被输入至 SAM 模型以生成粗分割结果
M
c
o
a
r
s
e
\mathcal M_{coarse}
Mcoarse。
2.4、噪声感知优化模块(NRM)
该模块首先通过初始腐蚀操作来优化由 PSM 生成的原始粗糙掩膜
M
c
o
a
r
s
e
\mathcal M_{coarse}
Mcoarse,以去除细小噪声,随后进行膨胀步骤以恢复主要结构区域。设
M
j
\mathcal M_j
Mj 表示针对
M
c
o
a
r
s
e
\mathcal M_{coarse}
Mcoarse 第
j
j
j 个连通区域
C
j
C_j
Cj 所获得的掩膜,通过
M
j
\mathcal M_j
Mj 对查询特征进行分割:
其中
∣
C
j
∣
|Cj|
∣Cj∣ 表示
C
j
C_j
Cj 区域内的总像素数。随后,将
T
Q
,
C
j
T_{Q,Cj}
TQ,Cj 视作
F
q
F_q
Fq,并采用相同方式计算
C
j
C_j
Cj 区域的置信度得分,得到
S
C
j
\mathcal S_{C_j}
SCj。接着在每个连通域内计算均值:
选择得分最高的连通区域作为
M
r
e
f
i
n
e
\mathcal M_{refine}
Mrefine,并将其作为掩码提示输入 PSM 模型。结合点提示,这有助于进一步细化分割结果。随后再次通过相同步骤处理输出,最终生成分割结果
M
f
i
n
a
l
\mathcal M_{final}
Mfinal。
3、实验与结果
3.1、实验设置
(1)数据集与评价指标:Synapse-CT 数据集:30 例腹部 CT 三维扫描;CHAOSMRI 数据集:20 例 T2-SPIR 磁共振三维扫描;五折交叉验证报告 Dice 系数的标准差;
(2)实施细节:将图像转换为 256×256 大小的感兴趣区域,使用 DINOv2 模型(Sinder)提取特征,得到一个空间尺寸为 64×64 的特征图。接着应用 SAM 模型(Sam2.1 Hiera 大图预测)获取相同空间尺寸 64×64 的特征图,分别对应高度和宽度。所有实验都在 NVIDIA RTX-3090 上进行。至于超参数,对于 Synapse-CT 和CHAOS-MRI, δ S − D δ_{S-D} δS−D、 δ S δ_S δS 和 δ D δ_D δD 均设定为 0.8、0.1 和 0.1;
3.2、与最先进方法的比较
Table 1 | 与最先进方法的比较:除 PerSAM 和 SynPo 外,数据均来自其原始论文;
Figure 3 | 不同方法的质量结果:
3.3、消融实验
Table 2 | 消融模块研究:
Table 3 | CHAOS 任务中负提示策略的消融研究:
Figure 4 | 参数
α
α
α 与
β
β
β 的实验,
β
=
α
−
1.5
β = α − 1.5
β=α−1.5:
prompt 也很值得研究呀( •̀ ω •́ )✧