这篇文章提出了DEIM,一种用于加速基于Transformer架构(DETR)的实时目标检测的训练框架。主要内容如下:
-
问题背景:DETR模型在训练过程中存在慢收敛的问题,主要原因是其一对一(O2O)匹配机制导致正样本数量稀少,且存在大量低质量匹配。
-
创新方法:
-
密集O2O匹配(Dense O2O):通过增加每张图像中的目标数量,生成更多的正样本,从而提供更密集的监督信号,加速模型收敛。
-
匹配感知损失(MAL):一种新的损失函数,优化不同质量级别的匹配,特别是低质量匹配,提升模型性能。
-
-
实验验证:
-
在COCO数据集上的实验表明,DEIM显著加速了DETR模型的收敛,减少了50%的训练时间,同时提升了检测精度。
-
与现有的实时检测器(如YOLO系列和RT-DETR)相比,DEIM在性能和训练效率上均表现出色,尤其是在小目标检测方面有显著提升。
-
-
结论:DEIM通过密集O2O匹配和匹配感知损失,有效解决了DETR模型的慢收敛问题,提升了实时目标检测的性能,为该领域设定了新的基准。
DEIM通过增加正样本数量和优化低质量匹配,显著提升了DETR模型的训练效率和检测性能。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
官方发布了一系列的预训练模型:
DEIM-D-FINE
Model | Dataset | APval | #Params | Latency | GFLOPs | config | checkpoint |
---|---|---|---|---|---|---|---|
S | COCO | 49.0 | 10M | 3.49ms | 25 | yml | ckpt |
M | COCO | 52.7 | 19M | 5.62ms | 57 | yml | ckpt |
L | COCO | 54.7 | 31M | 8.07ms | 91 | yml | ckpt |
X | COCO | 56.5 | 62M | 12.89ms | 202 | yml | ckpt |
DEIM-RTDETRv2
Model | Dataset | APval | #Params | Latency | GFLOPs | config | checkpoint |
---|---|---|---|---|---|---|---|
S | COCO | 49.0 | 20M | 4.59ms | 60 | yml | ckpt |
M | COCO | 50.9 | 31M | 6.40ms | 92 | yml | ckpt |
M* | COCO | 53.2 | 33M | 6.90ms | 100 | yml | ckpt |
L | COCO | 54.3 | 42M | 9.15ms | 136 | yml | ckpt |
X | COCO | 55.5 | 76M | 13.66ms | 259 | yml | ckpt |
摘要
我们提出了DEIM,一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛。为了缓解DETR模型中一对一(O2O)匹配固有的稀疏监督问题,DEIM采用了密集O2O匹配策略。该方法通过使用标准数据增强技术引入额外的目标,增加了每张图像的正样本数量。虽然密集O2O匹配加快了收敛速度,但它也引入了大量低质量匹配,可能影响性能。为了解决这个问题,我们提出了匹配感知损失(MAL),这是一种新颖的损失函数,优化了不同质量级别的匹配,增强了密集O2O的有效性。在COCO数据集上的广泛实验验证了DEIM的有效性。当与RT-DETR和D-FINE集成时,它在减少50%训练时间的同时,持续提升了性能。值得注意的是,与RT-DETRv2结合时,DEIM在NVIDIA 4090 GPU上仅用一天的训练时间就达到了53.2%的AP。此外,经过DEIM训练的实时模型在性能上优于领先的目标检测器,DEIM-D-FINE-L和DEIM-D-FINE-X在NVIDIA T4 GPU上分别以124和78 FPS的速度实现了54.7%和56.5%的AP,且无需额外数据。我们相信DEIM为实时目标检测的进一步发展设定了新的基准。
1 引言
目标检测是计算机视觉中的一个基本任务,广泛应用于自动驾驶[6, 5]、机器人导航[9]等领域。对高效检测器的需求推动了实时检测方法的发展。特别是YOLO,由于其在延迟和精度之间的出色权衡,成为实时目标检测的主要范式[34, 32, 1, 28, 44]。YOLO模型被广泛认为是基于卷积神经网络的一阶段检测器。一对一(O2M)分配策略在YOLO系列中被广泛使用[34, 1, 28, 44],其中每个目标框与多个锚点相关联。这种策略被认为有效,因为它提供了密集的监督信号,加速了收敛并增强了性能[44]。然而,它为每个对象生成多个重叠的边界框,需要手工设计的非极大值抑制(NMS)来去除冗余,从而引入了延迟和不稳定性[32, 43]。
基于Transformer的检测(DETR)范式的出现[3]引起了广泛关注[39, 46, 4],利用多头注意力捕捉全局上下文,从而增强了定位和分类能力。DETR采用一对一(O2O)匹配策略,利用匈牙利算法[16]在训练期间为预测框和真实目标对象建立唯一对应关系,消除了对NMS的需求。这种端到端框架为实时目标检测提供了有吸引力的替代方案。
然而,慢收敛仍然是DETR的主要限制之一,我们假设原因有两个。⧫⧫稀疏监督:O2O匹配机制每个目标只分配一个正样本,大大限制了正样本的数量。相比之下,O2M生成更多的正样本。这种正样本的稀缺性限制了密集监督,阻碍了有效的模型学习——特别是对于小目标,密集监督对性能至关重要。⧫⧫低质量匹配:与传统方法依赖密集锚点(通常超过8000个)不同,DETR使用少量(100或300个)随机初始化的查询。这些查询缺乏与目标的空间对齐,导致训练中出现大量低质量匹配,匹配框与目标的IoU较低但置信度较高。
为了解决DETR中监督的稀缺性,最近的研究通过将O2M分配引入O2O训练,放宽了O2O匹配的约束,从而为目标引入了辅助正样本以增加监督。Group DETR[4]通过使用多个查询组,每个组独立进行O2O匹配,而Co-DETR[46]则从目标检测器(如Faster R-CNN[29]和FCOS[31])中引入了O2M方法。尽管这些方法成功增加了正样本的数量,但它们也需要额外的解码器,增加了计算开销,并可能生成冗余的高质量预测,如同传统检测器一样。相比之下,我们提出了一种新颖且直接的方法,称为密集一对一(Dense O2O)匹配。我们的关键思想是增加每个训练图像中的目标数量,从而在训练期间生成更多的正样本。值得注意的是,这可以通过经典的增强技术(如马赛克[1]和混合[38])轻松实现,这些技术在保持一对一匹配框架的同时,每张图像生成额外的正样本。密集O2O匹配可以提供与O2M方法相当的监督水平,而无需O2M方法通常伴随的复杂性和开销。
尽管通过先验知识改进查询初始化的尝试[18, 45, 39, 43]使得查询在目标周围更有效地分布,但这些改进的初始化方法通常依赖于编码器提取的有限特征信息[39, 43],倾向于将查询聚集在少数显著目标周围。相比之下,大多数非显著目标缺乏附近的查询,导致低质量匹配。当使用密集O2O时,这一问题变得更加突出。随着目标数量的增加,显著目标与非显著目标之间的差距扩大,尽管匹配数量总体增加,但低质量匹配的数量也随之增加。在这种情况下,如果损失函数在处理这些低质量匹配方面存在局限性,这种差距将持续存在,阻碍模型实现更好的性能。
现有的DETR损失函数[40, 19],如Varifocal Loss(VFL)[40],专为密集锚点设计,低质量匹配的数量相对较低。它们主要惩罚高质量匹配,特别是高IoU但低置信度的匹配,并丢弃低质量匹配。为了解决低质量匹配并进一步改进密集O2O,我们提出了匹配感知损失(MAL)。MAL通过将匹配查询与目标之间的IoU与分类置信度结合,根据匹配质量调整惩罚。MAL对高质量匹配的处理与VFL类似,但更注重低质量匹配,提高了训练期间有限正样本的利用率。此外,MAL比VFL具有更简单的数学公式。
所提出的DEIM结合了密集O2O和MAL,形成了一个有效的训练框架。我们在COCO[20]数据集上进行了广泛的实验,以评估DEIM的有效性。图1(a)的结果显示,DEIM显著加速了RT-DETRv2[24]和D-FINE[27]的收敛,并实现了性能提升。具体而言,仅使用一半的训练轮次,我们的方法在AP上分别比RT-DETRv2和D-FINE高出0.2和0.6。此外,我们的方法使得在单个4090 GPU上训练基于ResNet50的DETR模型,在一天内(约24轮)达到53.2%的mAP。通过集成更高效的模型,我们还引入了一组新的实时检测器,其性能优于现有模型,包括最新的YOLOv11[13],为实时目标检测设定了新的最先进水平(SoTA)(图1(b))。
本文的主要贡献总结如下:
-
我们提出了DEIM,一种简单且灵活的实时目标检测训练框架。
-
DEIM通过密集O2O和MAL分别提高了匹配的数量和质量,从而加速了收敛。
-
通过我们的方法,现有的实时DETR在减少训练成本的同时,实现了更好的性能。具体而言,我们的方法超过了YOLO,并与D-FINE中的高效模型结合,建立了实时目标检测的新SoTA。
2 相关工作
基于Transformer的目标检测(DETR)[3]代表了从传统CNN架构向Transformer的转变。通过使用匈牙利[16]损失进行一对一匹配,DETR消除了对手工设计的NMS作为后处理的需求,并实现了端到端目标检测。然而,它存在慢收敛和密集计算的问题。
增加正样本。一对一匹配限制每个目标只有一个正样本,提供的监督远少于O2M,阻碍了优化。一些研究探索了在O2O框架内增加监督的方法。例如,Group DETR[4]采用了“组”的概念来近似O2M。它使用K个查询组,其中K>1,并在每个组内独立进行O2O匹配。这允许每个目标分配K个正样本。然而,为了防止组间通信,每个组需要一个单独的解码器层,最终导致K个并行解码器。H-DETR[15]中的混合匹配方案与Group DETR类似。Co-DETR[46]揭示了一对多分配方法有助于模型学习更具区分性的特征信息,因此提出了一种协作混合分配方案,通过具有一对多标签分配的辅助头来增强编码器表示,如Faster R-CNN[29]和FCOS[31]。现有方法旨在通过增加每个目标的正样本数量来增强监督。相比之下,我们的密集O2O探索了另一个方向——增加每个训练图像中的目标数量,以有效提升监督。与现有方法不同,这些方法需要额外的解码器或头,从而增加了训练资源消耗,而我们的方法无需计算开销。
优化低质量匹配。稀疏且随机初始化的查询缺乏与目标的空间对齐,导致大量低质量匹配,阻碍了模型收敛。几种方法将先验知识引入查询初始化,如锚点查询[35]、DAB-DETR[21]、DN-DETR[18]和密集不同查询[41]。最近,受两阶段范式[29, 45]的启发,DINO[39]和RT-DETR[43]等方法利用编码器密集输出的顶级预测来细化解码器查询[36]。这些策略使得查询更接近目标区域,从而实现更有效的初始化。然而,低质量匹配仍然是一个重大挑战[22]。在RT-DETR[43]中,Varifocal Loss(VFL)用于减少分类置信度与框质量之间的不确定性,从而增强实时性能。然而,VFL主要为传统检测器设计,低质量匹配较少,且侧重于高IoU优化,低IoU匹配由于其微小且平坦的损失值而未得到充分优化。基于这些先进的初始化方法,我们引入了一种匹配感知损失,以更好地优化不同质量级别的匹配,显著增强了密集O2O匹配的有效性。
降低计算成本。标准注意力机制涉及密集计算。为了提高效率并促进与多尺度特征的交互,开发了几种先进的注意力机制,如可变形注意力[45]、多尺度可变形注意力[42]、动态注意力[7]和级联窗口注意力[37]。此外,最近的研究重点是创建更高效的编码器。例如,Lite DETR[17]引入了一个编码器块,在高级和低级特征之间交替更新,而RT-DETR[43]在其编码器中结合了CNN和自注意力。这两种设计都显著降低了资源消耗,尤其是RT-DETR。RT-DETR是DETR框架中的第一个实时目标检测模型。基于这种混合编码器,D-FINE[27]通过额外的模块进一步优化了RT-DETR,并通过迭代更新概率分布而不是预测固定坐标来细化回归过程。这种方法使得D-FINE在延迟和性能之间实现了更有利的权衡,略微超过了最近的YOLO模型。利用这些实时DETR的进展,我们的方法在减少训练成本的同时,实现了令人印象深刻的性能,在实时目标检测中大幅超越了YOLO模型。
3 方法
预备知识
O2M vs. O2O。O2M分配策略[10, 44]在传统目标检测器中被广泛采用,其监督可以表示为:
其中y∈{0,1}指定真实类别,p∈[0,1]表示前景类别的预测概率。参数γγ控制简单样本和困难样本之间的平衡,而αα调整前景和背景类别之间的权重。在FL中,仅考虑样本的类别和置信度,而不关注边界框质量,即定位。
提高匹配效率:密集O2O
一对一(O2O)匹配方案通常用于基于DETR的模型,每个目标仅与一个预测查询匹配。该方法通过匈牙利算法[16]实现,允许端到端训练并消除了对NMS的需求。然而,O2O的一个关键限制是它生成的正样本数量显著少于传统的多对多(O2M)方法,如SimOTA[44]。这导致稀疏监督,可能会在训练期间减慢优化速度。
为了更好地理解这个问题,我们在MS COCO数据集[20]上使用ResNet50骨干网络训练了RT-DETRv2[24]。我们比较了匈牙利(O2O)和SimOTA(O2M)策略生成的正样本数量。如图3a所示,O2O在每张图像中生成的正样本数量峰值低于10个,而O2M生成更广泛的分布,正样本数量有时超过80个。图3b进一步强调了在极端情况下,SimOTA生成的匹配数量大约是O2O的10倍。这表明O2O的正样本数量较少,可能会减慢优化速度。
我们提出了密集O2O作为一种高效的替代方案。该策略保留了O2O的一对一匹配结构(Mi=1),但增加了每张图像中的目标数量(N),从而实现了更密集的监督。例如,如图2c所示,我们将原始图像复制为四个象限,并将它们组合成一个复合图像,保持原始图像尺寸。这使得目标数量从1增加到4,在公式1中提升了监督水平,同时保持匹配结构不变。密集O2O实现了与O2M相当的监督水平,但无需额外的复杂性和计算开销。
提高匹配质量:匹配感知损失
VFL的局限性。Varifocal Loss(VFL)[40]建立在FL[19]的基础上,已被证明可以提高目标检测性能,特别是在DETR模型中[2, 24, 43]。VFL损失表示为:
这些问题对于传统检测器来说不太严重,因为它们的密集锚点和多重分配策略。然而,在DETR框架中,查询稀疏且匹配更严格,这些限制变得更加明显。
匹配感知损失。为了解决这些问题,我们提出了匹配感知损失(MAL),它在保留VFL优点的同时缓解了其不足。MAL将匹配质量直接纳入损失函数,使其对低质量匹配更敏感。MAL的公式为:
4 实验
训练细节
对于密集O2O,我们应用了马赛克增强[1]和混合增强[38],以生成每张图像的额外正样本。这些增强的影响在第4.5节中讨论。我们在MS-COCO数据集[20]上使用AdamW优化器[23]训练我们的模型。标准数据增强,如颜色抖动和缩放,如RT-DETR[43, 24]和D-FINE[27]中所使用的那样。我们采用平滑余弦学习率调度器[25],并提出了一种新颖的数据增强调度器。在训练的前几个epoch(通常为四个)中使用数据增强预热策略,以简化注意力学习。在训练轮次的50%后禁用密集O2O会导致更好的结果。按照RT-DETRv2[43],我们在最后两个epoch中关闭数据增强。我们的LR和DataAug调度器如图5所示。我们的骨干网络在ImageNet1k[8]上进行了预训练。我们在MS-COCO验证集上以640×640的分辨率评估我们的模型。有关超参数的更多详细信息,请参见补充材料。
与实时检测器的比较
我们将我们的方法集成到D-FINE-L[27]和D-FINE-X[27]中,构建了DEIM-D-FINE-L和DEIM-D-FINE-X。然后,我们评估这些模型,并将它们的实时目标检测性能与最先进的模型进行基准测试,包括YOLOv8[12]、YOLOv9[34]、YOLOv10[34]、YOLOv11[13],以及基于DETR的模型,如RT-DETRv2[24]和D-FINE[27]。表1比较了模型在epoch、参数、GFLOPs、延迟和检测精度方面的表现。补充材料中包含了更小型号(S和M)的额外比较。
我们的方法在训练成本、推理延迟和检测精度方面优于当前最先进的模型,为实时目标检测设定了新的基准。请注意,D-FINE[27]是一项非常新的工作,通过结合蒸馏和边界框细化,提升了RT-DETRv2[24]的性能,成为领先的实时检测器。我们的DEIM进一步提升了D-FINE的性能,在减少30%训练成本的同时,实现了0.7 AP的提升,且没有增加推理延迟。最显著的改进体现在小目标检测上,当使用我们的方法训练时,D-FINE-X[27]作为DEIM-D-FINE-X实现了1.5 AP的提升。
与YOLOv11-X[13]直接比较时,我们的方法优于这一最先进的YOLO模型,实现了略高的性能(54.7 vs. 54.1 AP),并将推理时间减少了20%(8.07 ms vs. 10.74 ms)。尽管YOLOv10[34]使用了混合O2M和O2O分配策略,但我们的模型始终优于YOLOv10,证明了我们密集O2O策略的有效性。
尽管与其他基于DETR的模型相比,我们的方法在小目标检测方面取得了显著改进,但与YOLO模型相比,我们的方法在小目标AP上略有下降。例如,YOLOv9-E[34]在小目标上比D-FINE-L[27]高出约1.4 AP,尽管我们的模型在总体AP上更高(56.5 vs. 55.6)。这一差距突显了DETR架构中小目标检测的持续挑战,并指出了进一步改进的潜在领域。
与基于ResNet的DETR的比较
大多数DETR研究使用ResNet[14]作为骨干网络,为了在现有DETR变体之间进行全面比较,我们还应用了我们的方法到RT-DETRv2[24],一个最先进的DETR变体。结果总结在表2中。与原始DETR不同,原始DETR需要500个epoch才能有效训练,最近的DETR变体,包括我们的,减少了训练时间并提高了模型性能。我们的方法显示出最显著的改进,在仅36个epoch后超越了所有变体。具体而言,DEIM将训练时间减少了一半,并在使用ResNet-50[14]和ResNet-101[14]骨干网络的RT-DETRv2[24]上分别提高了0.5和0.9 AP。此外,它在使用ResNet-50[14]骨干网络时,比DINO-Deformable-DETR[39]高出2.7 AP。
DEIM还显著增强了小目标检测。例如,尽管在总体AP上与RT-DETRv2[24]相当,我们的DEIM-RT-DETRv2-R50在小目标上比RT-DETRv2高出1.3 AP。这一改进在使用更大的ResNet-101骨干网络时更加显著,我们的DEIM-RT-DETRv2-R101在小目标上比RT-DETRv2-R101高出2.1 AP。将训练扩展到72个epoch进一步提高了整体性能,特别是在使用ResNet-50骨干网络时,表明较小的模型从额外的训练中受益。
在CrowdHuman上的比较
CrowdHuman[30]是一个基准数据集,旨在评估密集人群场景中的目标检测器。我们按照官方仓库1中的配置,将D-FINE和我们的方法应用于CrowdHuman数据集。如表3所示,我们的方法(使用DEIM增强的D-FINE-L)比D-FINE-L实现了显著的1.5 AP提升。特别是,我们的方法在小目标(APa)和高质量检测(AP75)上提供了显著的性能提升(超过3%的改进),展示了其在具有挑战性的场景中更准确地检测目标的能力。此外,这一实验强调了我们方法在不同数据集上的强大泛化能力,进一步证实了其鲁棒性。
分析
在以下研究中,我们使用RT-DETRv2[24]与ResNet50[14]配对进行实验,并在MS-COCO val2017上报告性能,除非另有说明。
实现密集O2O的方法。我们探索了两种实现密集O2O的方法:马赛克[1]和混合[38]。马赛克是一种数据增强技术,将四张图像组合成一张,而混合则以随机比例叠加两张图像。这两种方法都有效地增加了每张图像的目标数量,增强了训练期间的监督。
如表4所示,在12个epoch后,马赛克和混合都比不进行目标增强的训练带来了显著的改进,突显了密集O2O的有效性。此外,结合马赛克和混合加速了模型收敛,进一步强调了增强监督的好处。我们进一步跟踪了一个训练epoch中每张图像的正样本数量,结果如图6所示。与传统的O2O匹配相比,密集O2O显著增加了正样本的数量。
总体而言,密集O2O通过增加每张图像的目标数量来增强监督,从而加速了模型收敛。马赛克和混合是简单且计算高效的技巧,实现了这一目标,其有效性表明在训练期间增加目标数量的其他方法具有进一步的潜力。
MAL中γγ的影响(公式4)。表5显示了不同γγ值对MAL在24个epoch后的影响。根据这些实验,我们经验性地将γγ设置为1.5,因为它提供了最佳性能。
密集O2O和MAL的有效性。表6展示了两个核心组件的有效性:密集O2O和MAL。密集O2O显著加速了模型收敛,在仅36个epoch后实现了与基线相似的性能,而原始模型需要72个epoch。当与MAL结合时,我们的方法进一步提高了性能。这一改进主要归功于更好的框质量,与我们优化低质量匹配以提高高质量框预测的目标一致。总体而言,密集O2O和MAL在RT-DETRv2和D-FINE上都持续带来了性能提升,展示了其鲁棒性和通用性。
5 结论
在本文中,我们提出了DEIM,一种旨在通过改进匹配来加速基于DETR的实时目标检测器收敛的方法。DEIM结合了密集O2O匹配,增加了每张图像的正样本数量,以及MAL,一种新颖的损失函数,旨在优化不同质量级别的匹配,特别是增强低质量匹配。这种组合显著提高了训练效率,使得DEIM在较少的epoch内实现了比YOLOv11等模型更好的性能。DEIM在实时目标检测方面展示了明显的优势,优于RT-DETR和D-FINE等SoTA DETR模型,在检测精度和训练速度上实现了可衡量的提升,且不牺牲推理延迟。这些特性使DEIM成为实时应用的高效解决方案,并具有在其他高性能检测任务中进一步改进和应用的潜力。