基于多任务学习的皮肤分割算法研究
1 引言
皮肤分割作为计算机视觉中的一项关键语义分割技术,旨在从图像中识别并分离出皮肤像素。它在生物识别、医学成像和视频监控等多个领域都有着广泛的应用。例如,在网络色情内容检测中,皮肤分割对于识别裸露身体起着重要作用。然而,皮肤的低特异性以及不同人种之间的显著差异,给准确的皮肤分割带来了巨大挑战。仅仅依靠颜色信息进行分割十分困难,因为图像中皮肤像素的外观会受到众多内外因素的影响。
早期的分割方法主要依赖像素级的低级视觉特征。近年来,深度学习方法如全卷积网络(FCNs)、编码器 - 解码器架构(如 U - Net)和基于 Transformer 的语义分割算法(如 Swin - Transformer)在多目标分割中取得了优异的成果。但这些技术受到标注皮肤数据的限制,收集大量的人体皮肤数据集既昂贵又耗时。
为了解决这一问题,有研究者提出利用人像作为皮肤分割任务中的弱语义监督。但该方法是将一个编码器的输出作为较弱的监督信号添加到另一个编码器中,导致训练过程是分步进行的。因此,采用基于查询的双任务学习方法进行端到端的解码过程,能够更好地利用任务之间的相互信息。
我们的网络采用编码器 - 解码器架构,通过共享骨干网络从输入图像生成共享特征图。该特征图再由两个不同的动态编码器和蒸馏解码器处理,以获得皮肤和人像任务的预测结果。动态卷积网络启发我们在骨干网络提取的初始特征上使用两个独立的动态编码器,便于分离与任务相关的特征。动态卷积在不增加网络深度和宽度的情况下提高了模型的表达能力,突出了当前任务的相关信息区域。为了增强任务间的交互,我们将前一步动态编码得到的皮肤特征和人像特征输入到信息交互模块,生成的特征再传入包含多头注意力操作的蒸馏模块