摘要
心脏图像分割是生成个性化心脏模型和量化心脏性能参数的关键过程。已经提出了几种卷积神经网络结构来从心脏核磁共振图像中分割心室。
本文提出了一种基于多任务学习(MTL)的正则化框架用于心脏磁共振图像分割。该网络被训练来执行语义分割的主要任务,以及同时进行的像素级距离图回归的辅助任务。
提出的距离图正则化块是添加到现有CNN架构的瓶颈层的解码器网络,便于网络学习鲁棒的全局特征。训练后去除正则化块,使网络参数的原始个数不变。我们表明,所提出的正则化方法在两个公开可用的心脏电影磁共振成像数据集上改善了二类和多类分割性能,分别获得了0.84±0.03和0.91±0.04的平均DICE系数。此外,我们还证明了距离图正则化网络在跨数据集分割上的改进的泛化性能,显示心肌DICE系数从0.56±0.28到0.80±0.14提高了多达42%。
介绍
我们的相关工作包括[29],其将图像及其语义分割作为输入,并预测对象实例的距离变换,使得距离图的阈值化产生实例分割。类似地,[30]使用截断的距离图表示对象实例的边界,该距离图用于细化实例分割结果。然而,与这些方法不同,我们的目标不是执行实例分割,而是使用距离图作为辅助任务来细化语义分割结果。与我们的工作最密切相关的是在[31]中提出的使用MTL框架从卫星图像中分割建筑物覆盖区的工作。在他们的研究中,截断的距离图在解码器网络的末端被预测,并被进一步用于细化预测分割的边界,导致模型复杂性增加。与这项工作不同,我们在FCN体系结构的瓶颈层强加了一个全局形状约束,使用MTL作为网络正则化器,而不增加模型的复杂性。所提出的模型是为心脏磁共振图像分割定制的,因为我们适应不包含前景像素的切片(在顶部和底部区域)。此外,通过改进的跨数据集分割结果,我们证明了所提出的网络具有更好的泛化性能。
[29] M. Bai and R. Urtasun, “Deep watershed transform for instance segmentation,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017
[30] Z. Hayder, X. He, and M. Salzmann, “Boundary-aware instance segmentation,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017.
[31] B. Bischke, P . Helber, J. Folz, D. Borth, and A. Dengel, “Multi-task learning for segmentation of building footprints with deep neural networks,” CoRR, vol. abs/1709.05932, 2017.
我们通过在MTL框架中包含距离图预测作为辅助任务来施加软约束。我们在两个公开的心脏电影磁共振成像数据集上广泛评估了我们提出的模型。我们证明了距离映射正则化块的增加改善了三种FCN体系结构的分割性能,而不增加模型复杂性和推理时间。我们采用了一种基于任务不确定性的加权方案,在训练过程中自动学习分割和距离图回归任务的权重,并表明该方法比固定的等权重方案提高了分割性能。此外,我们表明,所提出的正则化技术提高了在具有挑战性的心尖和基底切片中的分割性能,以及在几种不同的病理心脏条件下的分割性能。这种改善也反映在对心脏健康诊断重要的计算临床指数上。最后,我们使用所提出的正则化技术展示了更好的泛化能力,具有显著改善的跨数据集分割性能,而无需调整网络以适应新的数据分布。
A. CNN for Semantic Image Segmentation
用于图像分割的典型FCN架构(图2)由编码器和解码器网络组成。编码器网络包括在几个卷积和非线性激活层之后应用的多个pooling(最大/平均pooling)层(例如整流线性单元[32])。它编码对图像分割任务很重要的分层特征。为了获得每像素图像分割,需要使用解码器网络将瓶颈层获得的全局特征上采样到原始图像分辨率。上采样滤波器可以是固定的(例如最近邻或双线性上采样),或者可以在训练期间学习(反卷积层)。解码器网络的最终输出被传递到softmax分类器以获得每像素分类。
在SegNet 33架构中,解码器通过使用从其编码器传送的pooling indices对其输入进行上采样来产生稀疏特征映射。这些稀疏特征图随后与可训练滤波器组卷积以获得密集特征图,并最终通过softmax分类器以产生每像素图像分割。由于SegNet架构中的解码器仅使用在编码器的瓶颈层获得的全局特征,所以在上采样过程中,分割中的高频细节会丢失。
U-Net架构34通过将不同分辨率的编码器层的输出连接到相应分辨率的解码器层的输入,引入了跳跃连接,因此保留了对精确图像分割重要的高频细节。此外,已知跳跃连接通过引入梯度反向传播的多条路径来简化网络优化[35],因此减轻了消失/爆发梯度问题。类似地,跳跃连接还允许网络学习外层中的较低层细节,并专注于学习更深编码器层中的剩余全局特征。因此,U-Net体系结构能够使用有限的训练数据和增强产生优异的分割结果,并已广泛应用于医学图像分割。
我们观察到,在原始的U-Net架构中学习的反卷积滤波器可以被类似SegNet的解码器替换,以形成具有减少的网络参数的混合架构。在本文中,我们将这种修改后的体系结构称为U-SegNet(图2e),并将其用作基准FCN体系结构之一。
图3:距离图正则化添加到瓶颈层。距离地图通道的数量比类别的数量少一个。在解码期间,分段网络可选地使用虚线所示的pooling索引(是/否)和跳过连接(是/否):(a)DMR-分段网络:汇集索引(是),跳过连接(否);(b) DMR-USegNet:汇集指数(是),跳过连接(是);©DMR-联合国环境规划署:汇集指数(否),跳过连接(是)。
B. Distance Map Regularization Network
二元分割掩模的距离图可以通过计算每个像素离最近边界像素的欧几里德距离来获得[36]。这种表示提供了关于要分割的对象的边界、形状和位置的丰富、冗余和健壮的信息。对于二元分割掩码,其中 Ω = { x i : y i = 1 , i ∈ S } Ω=\{ xi:yi = 1,i ∈ S\} Ω={xi:yi=1,i∈S}是前景像素集, ∂ Ω ∂Ω ∂Ω表示边界像素, d ( . , . ) d(.,.) d(.,.)是任意两个像素之间的欧几里得距离,截断的有符号距离图D(x)计算如下:
我们在预定义的距离阈值T处截断有符号距离图,因此将该最大负距离分配给不包含任何前景像素的切片(即
Ω
∈
Ø
Ω∈Ø
Ω∈Ø),表示切片中的所有像素都远离前景(通常为心脏MR影像的顶端/基底区域)。
网络训练损失是用于分割的交叉熵损失和预测距离图和参考距离图之间的**平均绝对差(MAD)**损失的加权和。因为我们的目标是执行语义分割,所以在推理时不需要距离图预测。因此,我们在训练之后移除正则化块,使得原始的FCN架构保持不变。此外,我们发现预测距离图的质量(平均绝对差)不足以改善标准路径的预测分割(参见补充图S2)。