unet 的优点_Unet神经网络为什么会在医学图像分割表现好？

最新推荐文章于 2025-06-09 18:28:20 发布

weixin_39848097

最新推荐文章于 2025-06-09 18:28:20 发布

阅读量9.2k

点赞数 3

CC 4.0 BY-SA版权

文章标签： unet 的优点

本文链接：https://blog.csdn.net/weixin_39848097/article/details/111738723

UNet因其独特的U型结构和skip-connection在医疗图像分割中表现出色。结构特点包括4次下采样和上采样，确保多尺度预测和深监督，尤其适合医疗影像的简单语义和固定结构。此外，医疗影像数据量小、多模态特性以及对可解释性的需求，使UNet成为理想的基线模型。然而，UNet仍有改进空间，如参数量和对不同模态特征的提取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个问题在面试医疗影像算法岗位的时候，偶尔会提到，我这里提供一些个人的思考。问题中有两个关键词，【UNet】和【医疗影像】，接下来我们一一分析这两个关键词。

首先我们说说【UNet】。

UNet最早发表在2015的MICCAI上，短短3年，引用量目前已经达到了4070，足以见得其影响力。而后成为大多做医疗影像语义分割任务的baseline，也启发了大量研究者去思考U型语义分割网络。而如今在自然影像理解方面，也有越来越多的语义分割和目标检测SOTA模型开始关注和使用U型结构，比如语义分割Discriminative Feature Network(DFN)(CVPR2018)，目标检测Feature Pyramid Networks for Object Detection(FPN)(CVPR 2017)等。

我们言归正传，UNet只是一个网络结构的代号而已，我们究其细节，到底UNet是由哪些组件构成的呢？

UNet的结构，我认为有两个最大的特点，U型结构和skip-connection(如下图)。

UNet的encoder下采样4次，一共下采样16倍，对称地，其decoder也相应上采样4次，将encoder得到的高级语义特征图恢复到原图片的分辨率。

相比于FCN和Deeplab等，UNet共进行了4次上采样，并在同一个stage使用了skip connection，而不是直接在高级语义特征上进行监督和loss反传，这样就保证了最后恢复出来的特征图融合了更多的low-level的feature，也使得不同scale的feature得到了的融合，从而可以进行多尺度预测和DeepSupervision。4次上采样也使得分割图恢复边缘等信息更加精细。

其次我们聊聊【医疗影像】，医疗影像有什么样的特点呢(尤其是相对于自然影像而言)？

1.图像语义较为简单、结构较为固定。我们做脑的，就用脑CT和脑MRI，做胸片的只用胸片CT，做眼底的只用眼底OCT，都是一个固定的器官的成像，而不是全身的。由于器官本身结构固定和语义信