论文标题 | YOLOv10: Real-Time End-to-End Object Detection |
---|---|
论文作者 | Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, Guiguang Ding |
发表日期 | 2024年05月01日 |
GB引用 | > Ao Wang, Hui Chen, Lihao Liu, et al. YOLOv10: Real-Time End-to-End Object Detection[J]. Advances in Neural Information Processing Systems(NIPS), 2024, 37:107984-108011. |
DOI | 10.48550/arXiv.2405.14458 |
论文地址:https://arxiv.org/pdf/2405.14458
摘要
本研究针对实时目标检测任务,提出了一种新的YOLOv10模型,旨在提升性能与效率之间的边界。首先,在后处理阶段引入了无NMS训练的一致双分配策略,显著提高了推理速度并保持了竞争力。其次,在模型架构方面,采用全面优化的方法从效率和准确性两方面改进YOLO组件,大幅减少了计算开销并增强了模型能力。实验结果显示,YOLOv10在多种模型规模下均达到了最先进的性能与效率。例如,YOLOv10-S比RT-DETR-R18快1.8倍,同时参数量和浮点运算数减少约2.8倍;而YOLOv10-B相比YOLOv9-C在相同精度下延迟降低46%,参数减少25%。代码及模型已开源。
全文摘要
YOLOv10: Real-Time End-to-End Object Detection 是一篇关于实时目标检测的研究论文,主要内容可以总结如下:
- 问题背景:YOLO(You Only Look Once)系列模型由于在计算成本和检测性能之间取得了有效平衡,已成为实时目标检测领域的主导范式。然而,YOLO模型依赖于非极大值抑制(NMS)进行后处理,这限制了模型的端到端部署并影响了推理延迟。此外,YOLO模型的各个组成部分缺乏全面和深入的检查,导致计算冗余和性能提升的潜力未能充分发挥。
- 研究目标:论文旨在从后处理和模型架构两个方面进一步推动YOLO的性能-效率边界。
- 主要贡献:
- 提出了一种一致的双重赋值策略,用于无需NMS的YOLO训练,以实现竞争性能和低推理延迟。
- 引入了全面效率-准确性驱动的模型设计策略,从效率和准确性两个角度综合优化YOLO的各个组成部分,减少了计算开销并提升了能力。
- 开发了YOLOv10,这是新一代的实时端到端目标检测模型,通过广泛的实验表明,YOLOv10在不同模型规模下实现了最先进的性能和效率。
- 方法细节:
- 一致的双重赋值:结合一对一和一对多的标签赋值策略,在训练时提供丰富的监督信号,在推理时避免使用NMS。
- 一致的匹配度量:采用统一的匹配度量标准,确保两个分支(一对一和一对多)的监督对齐。
- 效率驱动的模型设计:包括轻量级分类头、空间-通道解耦下采样和秩引导块设计,以减少计算冗余。
- 准确性驱动的模型设计:探索大核心卷积和部分自注意力模块,以增强模型性能。
- 实验结果:YOLOv10在COCO数据集上的实验表明,与先前的YOLO模型和其他先进检测器相比,YOLOv10在保持高精度的同时,显著降低了推理延迟。
- 代码开源:论文提供了YOLOv10的代码链接,以供研究社区进一步研究和使用。
- 结论:YOLOv10通过提出新的策略和架构改进,实现了实时目标检测领域的新进展,为未来的研究和应用提供了新的方向。 论文的研究成果不仅提升了YOLO模型的性能和效率,也为实时目标检测领域的进一步研究提供了有价值的参考。
研究问题
- 如何在不使用非极大值抑制(NMS)的情况下,同时实现YOLO模型的高性能和低推理延迟?
- 如何通过全面优化YOLO模型的各种组件,在效率和准确性之间找到最佳平衡点?
研究方法
实验研究: 提出了一种新的NMS-free训练策略,并通过双标签分配和一致匹配度量实现了高效的端到端检测,验证了其在不同模型规模下的性能。
比较研究: 与现有实时目标检测模型(如YOLO系列和RT-DETR)进行了全面对比,在COCO数据集上展示了YOLOv10在准确率和延迟方面的优越性。
混合方法研究: 结合效率驱动设计(如轻量级分类头、空间-通道解耦下采样、秩引导块设计)和精度驱动设计(如大核卷积、部分自注意力模块),提出了从多个角度优化模型的方法。
现象学研究: 通过可视化特征相似性分析,研究了锚点特征的可分辨性对一对一匹配的影响,为进一步提升端到端性能提供了方向。
系统分析: 对YOLOv10的各个组件进行了系统性的分析,验证了每种设计元素(如轻量级分类头、CIB块等)对参数、计算量和推理速度的改进效果。
研究思路
论文通过以下几个关键策略解决了实时目标检测中存在的问题:
- 一致的双重赋值策略(Consistent Dual Assignments):
- 引入了双重标签赋值,结合了一对一(one-to-one)和一对多(one-to-many)的优势。在训练期间,一对多分支提供丰富的监督信号,而在推理期间,一对一分支用于高效预测,无需NMS。
- 一致的匹配度量(Consistent Matching Metric):
- 为了减少两个分支之间的监督差距,提出了一致的匹配度量方法,确保一对一分支在推理期间能够与一对多分支的训练优化方向一致。
- 全面效率-准确性驱动的模型设计(Holistic Efficiency-Accuracy Driven Model Design):
- 从效率和准确性两个角度出发,全面优化YOLO模型的各个组成部分。这包括轻量级分类头、空间-通道解耦下采样、秩引导块设计等,以减少计算冗余并提高效率。
- 引入大核心卷积和部分自注意力模块(Partial Self-Attention, PSA),以增强模型性能,同时保持低计算成本。
- 实验验证:
- 通过在标准目标检测基准测试(如COCO数据集)上的广泛实验,验证了YOLOv10在不同模型规模下的性能和效率,与先前的最先进模型进行了比较。
- 模型变体:
- 论文还提出了YOLOv10的不同变体(如YOLOv10-N/S/M/B/L/X),以适应不同的计算能力和实时性要求。
一致的双重分配用于无NMS训练
在训练过程中,YOLOs [21, 65, 29, 70]通常利用TAL [15] 为每个实例分配多个正样本。采用一对一的分配方式可以产生丰富的监督信号,有利于优化并实现更好的性能。然而,这需要 YOLOs 依赖 NMS 后处理,导致部署时的推理效率不佳。而之前的工作 [55, 66, 80, 6] 探索了一对一匹配以抑制冗余预测,但它们通常会引入额外的推理开销或获得次优性能。在本文中,我们提出一种适用于具有双重标签分配和一致匹配度量的YOLOs的无NMS训练策略,实现了高效率和竞争力的性能。
双标签分配。不同于一对多的分配,一对一的分配只将一个预测分配给每个真实值,避免了NMS后处理。然而,这会导致弱监督,从而导致次优精度和收敛速度[82]。幸运的是,这种缺陷可以通过一对一的分配来补偿[6]。为了实现这一点,我们为 YOLOs 设计了双重标签分配,以结合两种策略的最佳部分。具体来说,如图 2(a) 所示,我们为 YOLOs 引入另一个一对一的头部。它保留相同的结构,并采用与原始的一对多分支相同的优化目标,但利用一对一匹配来获得标签分配。在训练期间,两个头部与模型一起联合优化,允许主干和颈部享受由一对多分配提供的丰富监督。在推理期间,我们丢弃了一对多头并使用一对一头进行预测。这使得 YOLOs 可以实现端到端部署而无需额外的推理成本。此外,在一对一匹配中,我们采用了top one选择,其性能与匈牙利匹配相同,但需要更少的额外培训时间。
一致匹配度量。在分配过程中,无论是一对一还是一对多的方法都利用一个度量来定量评估预测和实例之间的吻合程度。为了实现对两个分支的预测感知匹配,我们采用统一的匹配度量,即
m ( α , β ) = s ⋅ p α ⋅ I o U ( b ^ , b ) β , ( 1 ) m(\alpha,\beta)=s\cdot p^\alpha \cdot \mathrm{IoU}(\hat{b},b)^\beta,\quad(1) m(α,β)=s⋅pα⋅IoU(b^,b)β,(1)
其中,p 是分类得分, b ^ \hat{b} b^ 和 b 分别表示预测框和实例的边界框。s 代表空间先验,指示预测锚点是否位于实例中([21, 65, 29, 70])。α 和 β 是两个重要的超参数,它们平衡了语义预测任务和位置回归任务的影响。我们用 m o 2 m = m ( α o 2 m , β o 2 m ) m_{o2m}{=}m(\alpha_{o2m},\beta_{o2m}) mo2m=m(αo2m,βo2m) 和 m o 2 o = m ( α o 2 o , β o 2 o ) m_{o2o}{=}m(\alpha_{o2o},\beta_{o2o}) mo2o=m(α