CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking

最新推荐文章于 2025-07-21 20:24:24 发布

AI浩

最新推荐文章于 2025-07-21 20:24:24 发布

阅读量929

点赞数 23

CC 4.0 BY-SA版权

文章标签：人工智能

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/148911490

目标跟踪专栏收录该内容

21 篇文章

订阅专栏

https://arxiv.org/pdf/2505.01257

摘要

近年来，在线多目标跟踪领域主要由基于检测的跟踪（Tracking-by-Detection，简称TbD）方法主导，这些方法的最新进展依赖于日益复杂的启发式规则来实现轨迹片段（tracklet）表示、特征融合以及多阶段匹配。TbD方法的关键优势在于其模块化设计，这使得它能够集成专门化的现成模型，如运动预测器和行人重识别（re-identification）模型。然而，大量使用人工设计的规则来进行时间关联，使得这些方法在捕捉各种跟踪线索之间复杂相互作用的能力上存在固有局限。在本研究中，我们引入了CAMEL——一种用于上下文感知多线索利用（Context-Aware Multi-Cue ExpLoitation）的新型关联模块，该模块直接从数据中学习鲁棒的关联策略，摆脱了人工设计的启发式规则，同时保留了TbD方法宝贵的模块化特性。CAMEL的核心在于采用了两个基于Transformer的模块，并依赖一种新颖的以关联为中心的训练方案，以有效建模被跟踪目标与其各种关联线索之间的复杂交互。与端到端的基于跟踪的检测（detection-by-tracking）方法不同，我们的方法保持了轻量级和快速训练的特点，同时能够利用外部现成模型。我们提出的在线跟踪流水线CAMELTrack在多个跟踪基准测试上取得了最先进的性能。我们的代码可在https://github.com/TrackingLaboratory/CAMELTrack获取。

1. 引言

多目标跟踪（Multi-Object Tracking，简称MOT）旨在检测视频帧中的目标并保持其身份，这一任务对于从体育分析[16, 18, 25,53]到自动驾驶[21, 67]等应用至关重要。在线MOT要求在每帧到达时立即做出决策，这既具有挑战性又对实时处理至关重要。

*等贡献。

图1. 我们提出的用于在线跟踪的CAMEL关联模块，通过结合各种不完美的跟踪线索，学会生成解耦的轨迹片段和检测表示。

当前，该领域主要由两种范式主导：（i）基于SORT的方法，以及（ii）端到端（End-to-End，简称E2E）方法。

随着强大目标检测器[10,28]的出现，基于SORT[5, 61, 71]的方法——建立在基于检测的跟踪（TbD）范式之上——变得特别有影响。它们的成功源于模块化设计，其中专门化的组件——检测器[2]、行人重识别模型[51, 52]和运动预测器[8,40]——被独立优化，然后通过算法关联规则进行组合。在基于SORT的TbD流水线中，负责将新检测与现有轨迹片段进行匹配的关联模块，通常包含三类启发式规则：（i）轨迹片段表示，用于随时间聚合逐帧的检测线索；（ii）特征融合，用于将多个跟踪线索组合成一个轨迹片段-检测成本矩阵；（iii）多阶段匹配，用于执行顺序的二分匹配操作，每个操作都利用不同的线索或特征融合策略，并针对轨迹片段和检测的特定子集进行操作。特征融合作为关联模块中最关键的组件，通常依赖于运动和外观线索的静态组合[3,24,61, 65]。然而，正如[41, 49]所示，线索的可靠性会随上下文而波动——特别是在遮挡、长期关联或跟踪外观相似的目标时。尽管一些方法尝试进行上下文感知的特征融合[41, 49]，但它们的启发式性质无法完全捕捉（i）关联线索与（ii）被跟踪对象之间的复杂相互作用，这表明需要一种更原则化、数据驱动的方法。

为了量化这些关联启发式规则的局限性，我们在第4.4节中进行了一项基于“先知”（oracle）的研究，结果表明基于SORT的方法无法有效利用其强大的关联线索：在保持相同线索的情况下，如果将关联启发式规则替换为最优的“先知”规则，HOTA指标在DanceTrack和SportsMOT上分别提高了15.5%和8.3%。这表明在TbD范式内，关联性能仍有很大的提升空间，而TbD范式因其能够利用提供强大关联线索的现成模型而仍然具有吸引力。为了充分发挥TbD范式的优势，我们提出直接从数据中学习有效的上下文感知关联策略，而不是设计更复杂的启发式规则。然而，令人惊讶的是，在线TbD中的完全学习型关联模块在很大程度上仍未被探索。即使是基于Transformer的TransMOT[15]——这是该方向上最相关的先前工作，并取得了初步进展——仍然严重依赖于启发式规则（如第2节所述）。

为了摆脱这些启发式规则的束缚，最近的大部分文献都转向了基于DETR的端到端（E2E）范式，如MOTR[69]等方法为TbD方法提供了一种有前途的、数据驱动的替代方案。

尽管E2E方法具有优雅的设计和学习的关联能力，但与基于SORT的方法相比，它们面临几个局限性，这些局限性在第2节中有详细讨论。一个显著的缺点是，E2E方法旨在从头开始学习所有子任务（检测、行人重识别、关联），这迫使对抗性目标（一个众所周知的问题[27, 72]）进行联合优化，同时阻止了专门化外部模型的使用。这些根本性的局限性因此需要大量的训练数据和计算资源，通常需要在8个GPU上训练数天。

鉴于E2E和基于SORT的方法都存在局限性，我们通过提出CAMEL——一种用于上下文感知多线索利用的新型关联模块，来弥合这两种范式之间的差距。CAMEL用统一的可训练架构取代了传统的类似SORT的关联启发式规则。CAMEL紧凑而简约的架构包括：（i）一组时间编码器（Temporal Encoders，简称TE），用于将每个跟踪线索聚合为轨迹片段级别的表示；（ii）一个组感知特征融合编码器（Group-Aware Feature-Fusion Encoder，简称GAFFE），用于将所有线索联合转换为每个轨迹片段和检测的统一解耦表示。如图1所示，CAMEL能够通过动态平衡多个不完美的关联线索，在遮挡或目标外观相似的情况下正确区分匹配的轨迹片段和检测。这种能力源于其上下文感知的处理方式，该方式考虑了目标之间的交互以及每个线索的相对区分度。我们最终得到的无启发式规则的在线TbD跟踪器CAMELTrack在五个流行的MOT基准测试上取得了最先进的性能。

总体而言，我们将我们的贡献总结如下：

• 我们提出了CAMEL，据我们所知，这是第一个为TbD流水线设计的完全学习且线索无关的关联模块，其设计简洁明了。CAMELTrack以13 FPS的速度运行，比之前的基于Transformer的跟踪器更快。

• 我们引入了一种高效的以关联为中心的训练方案，在单个GPU上仅需不到一小时的时间，而E2E方法通常需要在多个GPU上训练数天。

• 我们表明，利用现成模型的学习型关联在五个具有挑战性的基准测试上优于E2E和基于SORT的方法，有效地结合了两种范式的优势。

• 我们发布了我们的框架和模型权重，以鼓励对学习型TbD关联模块的进一步研究。

2. 相关工作

我们回顾了与我们工作相关的关键在线多目标跟踪（MOT）方法，这些方法的类别在表1中进行了总结。

基于启发式SORT的跟踪器。在MOT领域，主导范式一直是基于检测的跟踪（Tracking-by-Detection，简称TbD），许多方法都建立在SORT[5]的基础上。这些方法主要关注于开发复杂的关联启发式规则[3,24,61, 71]，或者更强的运动建模[1, 2, 8,29, 32,40, 46, 62]和行人重识别（Re-identification，简称ReID）[30, 47, 49, 59]。基于SORT的方法主要在三个关键组件的手工设计规则上有所不同：（i）使用检测特征的均值[4]或指数移动平均（EMA）[60, 70]进行轨迹片段表示，（ii）使用静态[49]或自适应[41]加权平均对运动和外观线索进行特征融合，或者基于阈值的门控[3, 24]，（iii）使用单阶段[3]或级联匹配[61]进行多阶段匹配，根据置信度分数[71]或轨迹年龄[61]过滤候选对象。我们的方法则采取了不同的方向，用一个统一的可训练架构替换了这些数据关联的启发式规则，该架构有效地利用了所有可用的跟踪线索，以产生上下文感知的解耦表示，从而在单阶段内进行匹配。

图2. CAMELTrack的架构概述，这是我们的在线基于检测的跟踪流水线，它分三个步骤运行：（i）目标检测，（ii）线索提取，（iii）使用我们可训练的CAMEL模块进行单阶段关联，以及（iv）轨迹片段生命周期管理。CAMEL通过两个阶段处理各种不完美的线索：首先，时间编码器（Temporal Encoder，简称TE）将每个线索聚合为轨迹片段级别的表示。其次，组感知特征融合编码器（Group-Aware Feature Fusion Encoder，简称GAFFE）将所有检测和轨迹片段线索嵌入到一个统一的判别性嵌入空间中。最终得到的解耦轨迹片段和检测表示通过二分匹配进行配对。

基于学习的关联的跟踪-检测。虽然之前的一些工作已经通过图网络[6, 11]或Transformer[76]探索了数据驱动的跟踪，但大多数都是在离线状态下进行的，只有少数开创性的工作尝试将学习到的组件集成到在线TbD流水线中[15, 45, 58, 63]。值得注意的是，TransMOT[15]引入了一个用于轨迹片段表示的时空编码器和一个用于特征融合的Transformer。然而，它依赖于手工设计的多阶段匹配流水线，学习到的组件仅在第二阶段使用，而第一阶段和第三阶段仍然完全基于交并比（IoU）和行人重识别（ReID）的启发式规则。虽然这些工作代表了向学习型关联迈出的初步步伐，但它们仍然依赖于启发式规则。相比之下，我们的方法通过引入一个完全可训练的关联模块，与手工设计的规则做出了决定性的决裂。

在线端到端。最近，遵循检测-跟踪（Detection-by-Tracking，简称DbT）范式[4]的端到端（End-to-End，简称E2E）方法[13,21,26,27, 42,55,64, 66,69,72]已经作为一种有前途的、无启发式规则的TbD方法替代方案出现。这些方法建立在DETR[10]架构的基础上，联合学习目标检测和关联，使用跟踪查询来跨帧重新检测过去的目标。尽管它们的设计优雅，能够以与我们类似的数据驱动方式学习关联，但E2E方法面临几个局限性：（i）它们以检测器为中心的多帧训练使用短时间窗口，难以处理长期关联[7]；（ii）它们缺乏TbD利用专门化外部模型（例如，ReID、运动模型等）的模块化能力[27]；（iii）在共享模型中，检测和关联目标之间的固有冲突[72]限制了它们的整体性能；（iv）它们需要大量的训练数据和计算资源才能达到竞争性能（在8个GPU上需要几天时间[69]）。相比之下，我们的方法仅专注于学习关联策略，需要较少的训练计算量，并保持了TbD利用现成检测、运动和ReID模型的能力。

3. 方法论

在本节中，我们将详细介绍我们提出的在线跟踪方法CAMELTrack。首先，我们在3.1节中概述完整的跟踪流水线。然后，在3.2节中，我们详细介绍CAMEL，即可训练的上下文感知多线索利用模块，该模块直接从数据中学习轨迹片段与检测的关联。最后，在3.3节中，我们描述了以关联为中心的训练方案，旨在创建具有挑战性的关联场景。

3.1. CAMELTrack流水线

我们的跟踪流水线CAMELTrack遵循在线基于检测的跟踪范式，通过四个连续步骤处理每一帧输入视频：（i）目标检测，（ii）线索提取，（iii）通过我们的CAMEL模块进行轨迹片段与检测的关联，以及（iv）轨迹片段生命周期管理。以下段落详细描述了这一过程的一个完整迭代，如图2所示。

检测：我们首先使用目标检测器处理带有时间戳 $tcurt^{\mathrm{cur}}$ 的输入视频帧，以获得一组检测结果 $D\mathcal{D}$ ，其中每个检测 $dtcurd^{t^{\mathrm{cur}}}$ 由一个边界框及其置信度分数表示。

线索提取：对于 $D\mathcal{D}$ 中的每个检测，我们提取多个互补线索以指导关联过程，因为单个线索通常不足以进行可靠的跟踪。边界框坐标和置信度分数构成第一个线索 $c_{0}$ ，而 $K$ 个附加线索 ${c_{k}\}_{k=1}^{K}$ 则通过专门的现成模型提取。在本工作中，我们采用行人重识别特征和姿态关键点作为附加线索来补充目标位置信息。然而，我们的CAMEL关联模块可以接受任何类型和数量的输入线索，从而能够轻松集成额外的领域特定信息（例如，车辆跟踪中的车牌号）。因此，每个检测 $d$ 都由其完整的线索集表征，即 $dtcur={cktcur}k=0Kd^{t^{\mathrm{cur}}}=\{c_{k}^{t^{\mathrm{cur}}}\}_{k=0}^{K}$ 。

使用CAMEL进行关联：关联步骤的目标是将 $M$ 个现有轨迹片段 $T\mathcal{T}$ 与当前帧中的 $N$ 个活跃检测 $D\mathcal{D}$ 进行匹配。我们将所有考虑进行关联的轨迹片段和检测称为活跃对象集 $A=T∪D\mathcal{A}=\mathcal{T}\cup\mathcal{D}$ 。 $T\mathcal{T}$ 中的每个轨迹片段代表一个独特的被跟踪目标，并由一系列检测 $dtstart:tend=C[dtstart,…,dtend^]d^{t^{\mathrm{start}}:t^{\mathrm{end}}}\stackrel{\mathcal{C}}{=}[d^{t^{\mathrm{start}}},\ldots,d^{\hat{t^{\mathrm{end}}}}]$ 组成，其中 $tstartt^{\mathrm{start}}$ 和 $tendt^{\mathrm{end}}$ 分别表示轨迹片段中第一个和最后一个检测的帧索引。对于每个活跃轨迹片段，我们维护一个特征库，存储其最近 $W$ 个检测的线索，以便CAMEL能够利用丰富的线索历史来抵消单个检测中的潜在噪声或由关联错误导致的身份切换。CAMEL是我们工作的核心贡献。它接收所有活跃轨迹片段 $T\{d_{i}^{t_{i}^{\mathrm{start}}:t_{i}^{\mathrm{end}}}\}\mathrm{~for~}i\;\in\;\mathcal{T}$ 和检测 ${djtcur}\{d_{j}^{t^{\mathrm{cur}}}\}$ （对于 $j∈Dj\in\mathcal{D}$ ）作为输入，并在共享潜在空间中输出每个活跃对象（检测和轨迹片段）的单个判别性嵌入 $zperz_{\mathrm{per}}$ ，其中匹配/未匹配的配对在空间中彼此靠近/远离。最后，使用CAMEL的解耦表示来计算成本矩阵 $C∈R~M×N^C\in\mathbf{\widetilde{\mathbb{R}}}^{M\times\mathbf{\hat{N}}}$ ，其中每个条目 $c_{i,j}=||z_{i}-z_{j}||_{2}$ 衡量轨迹片段 $i$ 的归一化嵌入 $z_{i}$ 与检测 $j$ 的归一化嵌入 $z_{j}$ 之间的欧氏距离。最终分配通过匈牙利算法进行二分匹配获得。任何成本超过指定阈值的配对都将保持未匹配状态。CAMEL的上下文感知架构在3.2节中详细介绍，其训练过程在3.3节中描述。

生命周期管理：CAMELTrack通过标准方案管理轨迹片段生命周期：首先，在关联之前过滤掉低置信度检测。接下来，每个匹配的检测通过向其特征库添加新线索来扩展其分配的轨迹片段。未匹配的高置信度检测初始化新的轨迹片段，而未匹配的轨迹片段则被暂时暂停，并在长时间未匹配的情况下最终终止。

3.2. 我们的CAMEL架构

在本节中，我们详细介绍CAMEL，即可训练的上下文感知多线索利用关联模块，该模块的设计注重简洁性。如3.1节所述，CAMEL接收来自所有活跃对象 $A=T∪D\mathcal{A}=\mathcal{T}\cup\mathcal{D}$ 的所有线索作为输入，其中 $T\mathcal{T}$ 包括 $M$ 个现有轨迹片段， $D\mathcal{D}$ 包括 $N$ 个当前检测，并在解耦空间中输出它们的统一表示。因此，具有相同/不同身份的对象在空间中彼此靠近/远离。CAMEL用统一的、无需过多修饰的可训练架构替代了基于SORT的关联模块中传统使用的三个关键启发式规则——轨迹片段表示、特征融合和多阶段匹配。CAMEL基于两个Transformer组件构建：时间编码器（TE）和组感知特征融合编码器（GAFFE）。首先，TE通过对象内自注意力将检测级线索聚合为鲁棒的轨迹片段级表示，从而有效替代轨迹片段表示启发式规则。接下来，GAFFE通过将多个不完美但互补的线索融合为每个对象的统一表示。通过对象间自注意力，它通过最大化不同身份对象之间的判别性同时增强相同身份对象之间的相似性来替代特征融合启发式规则。两个模块的详细介绍如下。最后，由于CAMEL一次性处理所有轨迹片段、检测和线索以在单个统一阶段执行关联，因此多阶段匹配的需求自然消失。在附录A中，我们详细说明了CAMEL的架构如何从根本上不同于现有的基于Transformer的跟踪器，即MOTR类方法和TransMOT。

时间编码器（TE）：每个活跃对象由 $K + 1$ 个时间编码器处理，每个 $TEk\mathrm{TE}_{k}$ 处理特定类型的线索并具有专门的权重集。对于给定的活跃对象 $i∈Ai\in\mathcal{A}$ 和线索 $k$ ，时间编码器 $TEk\mathrm{TE}_{k}$ 处理时间序列 $ck,itstart:tend=[ck,itstart,…,ck,itend]c_{k,i}^{t^{\mathrm{start}}:t^{\mathrm{end}}}=[c_{k,i}^{t^{\mathrm{start}}},\dots,c_{k,i}^{t^{\mathrm{end}}}]$ 如下。首先，每个线索 $c_{k,i}^{t}$ 通过线性变换产生一个标记 $x_{k,i}^{t}$ 。这一关键步骤将低维线索（如边界框）嵌入到高维特征空间中。接下来，每个标记 $x_{k,i}^{t}$ 通过正弦位置编码（PE）进行增强，该编码编码了其相对于当前帧时间戳 $tcurt^{\mathrm{cur}}$ 的相对时间位置（即年龄），

$x~k,it=xk,it+PE(tcur−t).\tilde{x}_{k,i}^{t}=x_{k,i}^{t}+\mathrm{P E}(t^{\mathrm{cur}}-t).$

然后，将学习到的[CLS]标记前置到标记序列 $x~k,itistart:tiend\tilde{x}_{k,i}^{t_{i}^{\mathrm{start}}:t_{i}^{\mathrm{end}}}$ 中，并将得到的序列通过浅层多层Transformer编码器[20]进行处理。

最后，编码后的[CLS]标记作为TE的输出，为对象 $i$ 的线索 $k$ 提供单个时间表示 $y_{k,i}$ ，

$yk,i←TEk([[CLS],x~k,itistart,…,x~k,itiend]).y_{k,i}\gets\mathrm{TE}_{k}\big(\big[\left[\mathtt{CLS}\right],\tilde{x}_{k,i}^{t_{i}^{\mathsf{start}}},\dots,\tilde{x}_{k,i}^{t_{i}^{\mathsf{end}}}\big]\big).$

$T\mathcal{T}$ 中的轨迹片段和 $D\mathcal{D}$ 中的检测都经过时间编码——即使检测是长度为一的序列——以确保所有线索都嵌入在相同的潜在空间中，以便由GAFFE进行进一步处理。

组感知特征融合编码器（GAFFE）：该模块接收时间编码器产生的时序编码标记 $y_{k,i}$ 作为输入，其中每个标记对应于每个活跃对象 $Ai\;\in\;{\mathcal{A}}$ 的不同线索。GAFFE通过两个阶段处理这些标记，以产生每个对象的单个判别性嵌入。

在第一阶段，每个特定于线索的标记 $y_{k,i}$ 被线性投影到更高维空间中。然后，通过求和将投影后的标记融合，以形成每个活跃对象的单个多模态标记 $y^i\hat{y}_{i}$ ，

$y^i=∑k=0KLineark(yk,i).\hat{y}_{i}=\sum_{k=0}^{K}\mathrm{Linear}_{k}(y_{k,i}).$

在第二阶段，得到的 $N + M$ 个多模态标记序列 $y^i\hat{y}_{i}$ 通过浅层多层Transformer编码器[20]进行处理，该编码器执行组感知的对象间自注意力，

${zi}←GAFFE⁡({y^i}),∀i∈A.\{z_{i}\}\gets\operatorname{GAFFE}(\{\hat{y}_{i}\}),\quad\forall i\in\mathcal{A}.$

这些得到的嵌入 ${z_{i}\}$ 是每个活跃对象的最终解耦表示，然后用于如3.1节所述的匹配。

3.3. 以关联为中心的训练

现有的端到端（E2E）方法采用递归的多帧训练方案[27, 69]，其中模型逐帧处理短视频序列以联合学习检测和关联。相比之下，我们提出的以关联为中心的训练（ACT）策略将关联与检测和线索提取解耦，并如下工作。首先，我们通过（i）在所有训练序列上运行现成检测器，（ii）为每个检测分配其IoU最接近的真实标签，（iii）提取所有所需线索（例如，行人重识别、姿态）来生成无图像的训练集。然后，在训练期间，我们从预生成的数据集中采样以构建包含 $B$ 个训练样本的批次。每个训练样本对应于CAMEL的一个输入，并模拟一个具有 $P$ 个轨迹片段-检测配对的单个关联场景。通过选择一个随机帧、收集该帧中的所有检测以及来自之前帧的轨迹片段来构建单个场景。我们对来自不同视频的帧重复此过程，直到采样到 $P$ 个配对。这种跨视频采样以生成人工关联示例增加了训练多样性，并在经验上产生了更稳定的训练和更快的收敛。我们通过应用三种数据增强来进一步丰富训练，以生成更具挑战性和多样性的关联场景：（i）检测身份交换，（ii）检测丢弃，以及（iii）线索丢弃（均在附录E中详细说明）。最后，我们采用InfoNCE损失[44]作为训练目标，以最小化/最大化相同/不同身份的检测-轨迹片段对之间的距离。

与递归训练策略相比，ACT具有两个关键优势。首先，由于E2E方法具有繁重的图像处理架构，因此它们在计算上受到短序列的限制。相比之下，我们对预计算特征的轻量级处理使得能够在大时间窗口上进行高效建模，从而改进长期跟踪。其次，ACT的数据增强生成了模拟各种挑战性场景的合成训练样本：遮挡、外观相似的目标、场景重新进入、噪声特征和检测错误。如4.4节所示，接触这些困难示例显著提高了性能。

4. 实验

4.1. 数据集与评估指标

我们在五个数据集上评估了CAMELTrack。DanceTrack[56]数据集以复杂的舞蹈场景为特色，而SportsMOT[18]则专注于团队运动中的运动员。这两个基准测试集都提出了互补的跟踪挑战，并提供了全面的训练/测试划分。MOT17仍然是一个广为人知的数据集，尽管最近的工作[15, 26, 27,69, 72]指出，在评估学习的关联方法方面存在局限性。在附录B中，我们在广为人知的姿态跟踪基准测试集PoseTrack21[23]和具有挑战性的BEE24[9] MOT数据集上进行了评估。最后，我们使用HOTA[39]、MOTA[36]和IDF1[48]进行评估。我们将分析重点放在与关联相关的指标（AssA & IDF1）上，因为它们直接评估了我们贡献的影响，而与检测质量无关。

4.2. 实现细节

我们使用DiffMOT[40]提供的YOLOX[28]检测器。对于跟踪线索，我们利用针对特定数据集的BPBReID[51]模型进行外观特征提取，并使用现成的RTMPose[34]进行姿态估计。我们的跟踪流水线通过TrackLab[35]实现。我们的模型采用4层、8头的Transformer编码器，分别用于TEs和GAFFE，总共有4260万个参数。训练过程持续10个epoch。每个训练样本包含 $P = 32$ 个检测-轨迹片段配对。我们首先独立预训练TEs，然后再与GAFFE联合优化。在单个消费级GPU上训练CAMEL需要一个小时。整个流水线在MOT17上的平均运行速度为13 FPS：YOLOX耗时24.4ms，RTMPose耗时16.8ms，BPBReID耗时16ms，CAMELTrack耗时18ms。我们使用了一个包含 $W = 50$ 个检测的特征库。更多细节详见附录D。

表2. DanceTrack[56]测试集上的比较。为了公平比较，我们仅报告仅在DanceTrack上训练的方法。蓝色背景的方法使用相同的YOLOX检测器。

4.3. 与最先进方法的比较

我们的方法在大多数基准测试集上取得了新的最先进性能，超越了传统上在DanceTrack上占主导地位的端到端（E2E）方法[27, 69]，以及在SportsMOT上表现出色的基于SORT的方法[40,65]。此外，CAMELTrack在MOT17上超越了所有现有的学习方法[42,69]，同时与启发式方法[70, 75]相比也取得了具有竞争力的性能。CAMELTrack在PoseTrack21上的HOTA指标比最先进方法高出+7.6%，在BEE24.DanceTrack上高出+3.7%。如表2所示，E2E方法[26,27,69]在该基准测试集上占据主导地位，超越了现有的基于SORT的方法[8, 40, 41, 49, 65, 71]。这些基于SORT的方法性能不佳可归因于DanceTrack的挑战性场景——外观相似的舞者执行复杂动作并频繁发生遮挡——这导致运动和外观线索不可靠，正如我们在第4.4节中的基于“先知”的研究所示。基于启发式的关联对这类不可靠输入本质上更为敏感：因此会发生错误的关联，逐渐降低轨迹片段的表示质量，并导致更多的跟踪错误。虽然HybridSORT[65]尝试通过引入三个附加线索来解决这些问题，但它仍然受到静态特征融合的限制。相比之下，我们的数据驱动关联通过学习利用每个线索的判别能力，缩小了与E2E方法的性能差距。与我们的方法类似，MeMOTR[26]和MOTIP[27]的成功也可以归因于它们学习的关联。

最后，之前尝试[56]利用关键点仅取得了微小的收益（+0.4% HOTA），这可能是由于手工设计的规则在利用这一丰富信息方面的局限性。相比之下，我们的方法取得了显著改进（+3.2% HOTA），超越了E2E性能，同时保持了相似的推理速度，因为RTMPose速度很快。

表3. SportsMOT[18]测试集上的比较。蓝色背景的方法使用相同的YOLOX检测器。

表4. 在MOT17[43]测试集上的比较（私有检测设置）。为了公平起见，仅报告完全在线的方法。蓝色背景的方法使用相同的YOLOX检测器。

SportsMOT。如表3所示，基于SORT的方法[18, 33,40, 46]在SportsMOT的排行榜上占据主导地位，超越了E2E解决方案[26,27]。这种成功可以归因于在SportsMOT上外观和运动线索比在DanceTrack上更可靠。例如，尽管运动员穿着相似的队服，但我们在第4.4节中的消融研究表明，外观仍然是体育跟踪中非常有效的线索。这些区分性线索的有效性特别有利于TbD方法，因为它们专用的ReID模型比E2E的跟踪查询能更好地捕捉对象外观。另一方面，我们超越基于SORT的方法的原因与DanceTrack类似。我们的以关联为中心的训练使模型暴露于长期关联，这提高了处理场景重新进入的能力。总体而言，CAMELTrack比之前的最先进方法取得了显著改进（+3.2% HOTA）。然而，与DanceTrack不同，关键点在SportsMOT上降低了性能，这可能是由于更远的视角导致姿态估计噪声较大。

表5. 在每个数据集的验证集上的消融研究。App代表外观嵌入，EMA代表指数移动平均，Bb代表边界框，KF代表卡尔曼滤波器的预测框，Kp代表关键点，DA代表数据增强。

MOT17。测试集结果如表4所示。联合学习检测和关联的端到端（E2E）方法需要大量的训练数据[27]。这些方法中的大多数利用CrowdHuman[50]数据集进行联合训练以克服这一限制。尽管没有使用额外的训练数据，CAMEL仍然超越了这些E2E方法。如第2节所述，TransMOT[15]和TADN[45]代表了将学习组件集成到TbD流水线中的初步尝试。我们的方法超越了这两种方法。我们将此归因于我们从根本上不同的架构以及在比它们有限的5帧训练窗口更长的序列上进行训练。此外，CAMEL通过仅使用 $M + N$ 个以对象为中心的标记实现了更快的推理，避免了它们基于图的架构中 $M×NM\times N$ 个以边为中心的标记的二次复杂度（详见附录A）。基于SORT的方法长期以来一直在MOTChallenge基准测试中占据主导地位。如附录C所述，该数据集的结构本质上有利于这类手工设计的方法，因为它们只需要一个小的训练集来优化超参数。尽管MOT17本质上偏向于这类方法，但我们学习的CAMELTrack仍然取得了具有竞争力的性能。

4.4. 消融研究

我们在表5中对SportsMOT和DanceTrack验证集进行了广泛的实验，以分析CAMEL的设计。我们的研究评估了三个关键方面：（i）时间编码器与标准轨迹片段表示启发式规则的比较（实验1-5），（ii）我们的组感知特征融合编码器（实验6-8），以及（iii）我们的完整架构（实验9-10）。此外，我们设计了“先知”实验（实验11-12）以建立性能上限。

时间编码器与启发式规则。这些实验比较了我们的TE与使用不同线索的标准启发式规则。关于ReID特征，TE始终优于指数移动平均（EMA）（实验1-2）。这一改进尤其值得注意，因为外观在DanceTrack上是一个较弱的线索，但在SportsMOT上具有高度判别性。类似地，对于边界框线索，TE在DanceTrack的异常运动和频繁遮挡上优于卡尔曼滤波器（KF）的预测（实验3-4）。另一方面，KF有效地捕捉了SportsMOT中更可预测的运动员轨迹。姿态关键点提供了互补信息，特别是在遮挡期间区分舞者方面，但在SportsMOT上相对于边界框跟踪没有显示出改进，这可能是由于远距离视角导致的估计噪声（实验5）。

特征融合分析。我们评估了GAFFE学习的动态特征融合与静态规则的比较。使用运动和外观特征等权重的基础线（实验6）显示，与独立使用线索相比，没有显著收益，有时甚至降低了性能。添加GAFFE进行组感知特征融合（实验7）产生了一致的改进，证明了学习方法的优势。同时使用时间和组感知编码（实验8）提供了额外的收益，DanceTrack特别受益于这种组合。

完整架构与训练。在我们的以关联为中心的训练中消融数据增强（实验9）显著降低了性能，表明在多样化场景上进行训练的重要性。我们包含姿态信息的最终架构（实验10）在DanceTrack上取得了最强的结果，但在SportsMOT上没有显示出改进，这可能是由于其远距离的摄像头设置。

通过“先知”分析TbD关联。我们在附录F中详细描述了两个“先知”实验，以研究基于检测的跟踪（TbD）启发式关联的局限性，并评估运动和外观线索的判别能力。首先，我们设计了一个特征融合“先知”（实验11），它线性组合运动和外观线索，以产生一个最大化关联准确性的成本矩阵。这个“先知”揭示了两个关键见解：（i）运动和外观是跟踪中两个强大且高度互补的线索，但（ii）与标准融合方法（实验6）的显著差距表明，静态启发式规则未能充分利用它们的判别能力。其次，关联“先知”（实验12）将每个检测与其IoU最接近的真实轨迹匹配，建立了关联性能的绝对上限，其中检测质量是唯一的限制因素。特征融合“先知”与关联“先知”之间的性能差距在不同数据集上差异显著：SportsMOT上的小差距表明可靠的跟踪线索，而DanceTrack上的大差距则揭示了在这种挑战性场景中对更强线索的需求。总体而言，我们发现令人鼓舞的结果表明，我们学习的关联策略有助于缩小与“先知”性能的差距（实验10-11取得了接近的性能）。

图3. SportsMOT中v_00HRwkvvjtQ_c007序列的跟踪结果可视化。真实轨迹用水平线表示，颜色表示预测的身份。蓝色区域突出显示场景重新进入，红色区域显示遮挡。真实身份已离开场景的帧用黑线表示，缺失的预测留空。底部灰色图表显示随时间累积的跟踪身份数量。（c）帧显示在帧200左右id 7和8之间的高亮遮挡。

4.5. 潜在表示的定性分析

为了说明CAMEL的线索解耦能力，我们使用t-SNE[57]分析了轨迹片段-检测配对之间的相似性分布和潜在空间结构。我们将CAMEL的输出嵌入与标准启发式线索进行了比较：用于运动的卡尔曼滤波器（KF）和用于外观的ReID嵌入的指数移动平均（EMA）。

图4. 正样本（共享相同身份）和负样本（具有不同身份）轨迹片段-检测配对之间的相似性分布。（a）KF预测与检测之间的IoU。（b）EMA轨迹片段与检测ReID嵌入之间的余弦距离。（c）CAMEL输出嵌入对之间的余弦距离。

图5. dancetrack0019前150帧的t-SNE表示。每个身份被分配一个独特的颜色，浅色/深色分别表示检测/轨迹片段。

相似性分布分析。图4比较了共享相同身份（正样本）与具有不同身份（负样本）的轨迹片段-检测配对之间的相似性分布，针对标准运动/外观线索和CAMEL的输出。虽然KF运动线索能够有效地将大多数正样本与负样本区分开来，但仍有相当一部分正样本表现出不正确的低IoU值。这一局限性在DanceTrack上尤为明显，其中负样本频繁地与正样本重叠，凸显了KF的弱点。此外，外观单独使用时缺乏判别性，这从正样本和负样本之间不可忽视的重叠中可以看出，特别是在DanceTrack上。相比之下，CAMEL的输出嵌入能够有效地将正样本与负样本区分开来，展示了成功的线索解耦。

通过t-SNE进行潜在空间分析。图5展示了在包含严重遮挡的短序列上，运动、外观和CAMEL输出的t-SNE表示。运动嵌入组织成身份簇，但在遮挡期间显示出显著的重叠，而外观特征实现了更好但不完全的分离。另一方面，CAMEL的输出形成了具有最小重叠的清晰身份簇，展示了这些互补线索的有效组合和解耦。

4.6. 定性结果

图3比较了在具有场景重新进入和严重遮挡的挑战性SportsMOT序列上，使用相同检测的CAMELTrack与竞争性的DiffMOT[40]的跟踪性能。该图通过时间线展示了它们的跟踪性能，其中真实轨迹用水平线表示，不同身份用不同颜色表示。对于两种方法，一个累积图表显示了随时间创建的唯一身份总数。

两种方法在场景重新进入时表现出不同的行为：虽然DiffMOT生成了新的身份，但CAMEL通过其特征库成功恢复了已知身份，这从累积身份图中较低的斜率可以看出。类似地，在遮挡期间，两种方法最初都进行了身份切换，但CAMEL能够从这些错误中恢复过来，而DiffMOT则将这些错误传播下去。

5. 结论

我们引入了CAMEL，这是一个新颖的学习型关联模块，它用一个统一的、可训练的架构取代了传统的手工设计规则——轨迹片段表示、特征融合和多阶段匹配。凭借我们的最先进性能，我们将这项工作视为重新确立TbD作为在线跟踪强大范式的第一步，并鼓励从关联启发式规则向完全学习型方法的转变。我们公开了代码，以促进这一方向的未来研究。在CAMEL的基础上，未来的工作可以探索更复杂的训练目标和神经架构，或者将学习范式扩展到其他组件，如轨迹片段生命周期管理。

致谢。这项工作得到了Sportradar以及Pole MecaTech - 瓦隆大区ReconnAIssance项目的资助。计算资源由比利时科学研究基金（Fonds de la Recherche Scientifique de Belgique，简称F.R.S.-FNRS）资助的计算密集型设备联盟（Consortium des Équipements de Calcul Intensif，简称CÉCI）提供，资助编号为2.5020.11，并得到了瓦隆大区的支持。

CAMELTrack: 面向在线多目标跟踪的上下文感知多线索利用

补充材料

补充材料包括以下部分。

• 方法论比较：突出与之前基于Transformer的跟踪器的关键架构差异（附录A）。

• 在PoseTrack21和BEE24基准测试集上的扩展结果（附录B）。

• 对MOT17局限性的详细讨论以及与最先进方法的比较（附录C）。

• 扩展的实现细节，涵盖检测、姿态、重识别模型和生命周期管理（附录D）。

• 训练过程细节，包括预处理步骤、训练循环具体细节和数据增强策略（附录E）。

• 关于消融研究中实现的“先知”的更多细节（附录F）。

• 扩展的相关工作讨论及额外比较（附录G）。

• 一些额外的定性结果（附录H）。

我们的GitHub仓库在此处可用：https://github.com/TrackingLaboratory/CAMELTrack

A. 与之前基于Transformer的跟踪器的方法论差异

我们工作的核心目标是在在线基于检测的跟踪（TbD）中集成一个完全学习的、无启发式的关联模块。令人惊讶的是，尽管相关工作（第2节）讨论了端到端（E2E）范式的许多缺点，但之前的研究方向并未探索这一方向，研究人员更倾向于E2E范式。CAMELTrack证明，启发式规则可以用一个简单而优雅的解决方案完全替代，尽管其表面简单，但与现有的基于Transformer的跟踪方法存在根本差异。我们在本节中详细介绍了这些关键差异。

A.1. 与TransMOT和TransTAM的比较

CAMELTrack与之前基于Transformer的基于检测的跟踪方法（如TransMOT[15]和TransTAM[19]）存在显著差异。这些差异涉及架构设计的多个方面：

$\times M$ 边缘标记 vs $N + M$ 对象标记：TransMOT和TransTAM采用图启发式方法，使用 $\times M$ 边缘标记（每个轨迹片段-检测配对一个边缘标记），并采用标记级二元分类器预测每个标记的关联分数，从而近似轨迹片段-检测关联矩阵。CAMEL则基于深度度量学习采用了一种根本不同的方法。我们的方法将轨迹片段和检测（ $N + M$ 个标记）编码到一个共享的解耦潜在空间中，通过余弦距离比较确定关联。这种架构区别不仅简化了设计，而且证明更有效，消除了基于边缘表示的二次复杂度。
显式注意力偏差：TransMOT和TransTAM都在其空间图Transformer的注意力机制中引入了显式空间偏差，人为地限制了空间相邻且IoU非零的检测之间的通信。我们发现，在我们的架构中这种显式空间偏差是不必要的，通过无偏自注意力进行的全局轨迹片段-检测通信产生了更优的结果，从而证明了我们设计的改进学习能力。
线索融合：TransMOT简单地将重识别嵌入与代表边界框的4个标量向量连接起来。相比之下，CAMEL首先通过端到端可学习的前馈网络（FFN）将每个线索独立嵌入到更高维空间中，然后再求和。CAMEL还在融合前对每个线索进行独立的时间编码，而TransMOT和TransTAM则先进行融合，再进行时间编码。这种策略使我们的网络能够以不可知且平衡的方式处理每个线索，确保任何类型的线索都可以轻松添加到系统中，同时保持不同线索之间的同等重要性，以实现更好的特征融合。
以关联为中心的训练（ACT）：TransMOT在短时间窗口上进行训练，限制了其解决长期跟踪问题的潜力，没有对轨迹片段-检测配对进行数据增强，也没有像我们的ACT那样构建结合多个视频的合成关联训练样本。
启发式依赖：首先，TransMOT并非无启发式的。实际上，它依赖于手工设计的多阶段匹配流水线，其中学习的Transformer模块仅在第二阶段使用，而第一和第三阶段仍然完全基于启发式规则，第一阶段使用边界框IoU，第三阶段使用ReID余弦距离。相比之下，CAMELTrack完全无启发式，只有一个关联阶段。

表6. PoseTrack21[23]验证集上的比较。

TransTAM虽然尝试了一种无启发式的方法，但这是一篇未发表的arXiv论文，尽管结合了离线后处理技术，但其性能仍比TransMOT差。我们的CAMELTrack保持了完全在线的架构，但在MOT17上仍比这两种方法高出约2%的MOTA。不幸的是，TransMOT没有提供HOTA性能指标，也没有公开可用的代码进行进一步的比较分析。

A.2. 与基于DETR的E2E方法的比较

之前绝大多数基于Transformer的跟踪器都遵循基于DETR的端到端（E2E）范式。这些方法（以MOTR[69]为代表）与CAMEL在几个关键方面存在根本差异。首先，基于DETR的方法采用Transformer解码器，通过交叉注意力处理CNN特征图上的轨迹和检测查询，执行带有隐式关联的对象检测。相比之下，CAMEL利用Transformer编码器，通过自注意力处理高级轨迹片段和检测标记，不依赖于低级CNN特征图。其次，虽然基于DETR的方法在检测过程中隐式处理关联，但CAMEL使用匈牙利算法在编码标记上显式解决关联问题。DETR Transformer必须同时执行检测和关联，由于目标对抗，这导致了性能上的缺点，如之前的工作[27,72]中广泛讨论的那样。最后，CAMEL的架构能够处理和融合来自现成专家模型的各种输入线索，而基于DETR的方法则依赖于CNN特征图内的对象重新检测。

B. 在PoseTrack21和BEE24上的扩展结果

PoseTrack21。PoseTrack21[23]作为一个多样化的现实世界测试平台，我们通过有效的关键点集成展示了方法的模块化。

如表6所示，当前方法可以分为两类：使用私有检测的方法和利用公共检测并采用自定义姿态感知跟踪的方法[22, 23]。

与SportsMOT和DanceTrack不同，PoseTrack涵盖了多样化的现实世界场景，具有剧烈的摄像机运动、视角变化和运动模糊，使得检测和关联具有挑战性。

使用来自[22, 23]的公共检测，CAMEL通过外观、运动和姿态线索的有效融合，建立了新的最先进性能，取得了显著提升（+3.8% AssA）。使用更强的私有检测，CAMEL实现了更大的提升（+7.7% HOTA）。

BEE24。BEE24[9]是一个展示复杂运动、严重遮挡、困难重识别和长序列（最多5000帧）的新型MOT基准测试集。如表7所示，CAMELTrack至少比现有的最先进方法高出+3.7%的HOTA。特别是TOPICTrack[9]，它采用了专门设计的启发式规则来模拟快速蜜蜂飞行运动和地面严重遮挡之间的复杂动态。

BEE24实验证实了CAMELTrack在新领域中的有效可迁移性，且只需最少的适应要求。我们的实现仅使用边界框位置数据，因为重识别模型在区分单个蜜蜂方面效果不佳。这种仅位置的方法突出了我们框架的增量部署灵活性，可以在可用时添加额外线索，但对于稳健性能并非必需。

C. MOT17讨论

MOT17仍然是MOTChallenge基准测试集内一个广为人知的数据集，历史上一直是多目标跟踪的主要评估平台。然而，正如最近的工作[15, 26,27,69,72]所强调的，几个根本性限制使得MOT17特别不适合评估像CAMEL这样的学习型关联方法。这些限制，结合我们在SportsMOT、DanceTrack和PoseTrack21上的综合评估，促使我们选择在补充材料中呈现MOT17结果。为了完整性，我们在提供测试结果并与最先进方法进行比较之前，先讨论MOT17在评估基于学习的跟踪方法时的重要限制。

C.1. MOT17数据集限制

MOT17由7个训练序列组成，总计约5.9K帧（215秒的视频），测试集包含另外7个视频，其标注保持私有。结果必须通过官方评估服务器提交，该服务器强制要求提交之间有72小时的等待期，并且每种方法最多提交4次。

MOT17（以及类似的MOT20）的一个关键限制是缺乏适当的验证集，这严重阻碍了学习型MOT方法（如端到端（E2E）方法或CAMEL）的开发和评估。流行的工作[8, 15, 27, 49,71,72]通常使用所有训练序列的后半部分创建一个验证集。然而，我们认为这种方法在方法论上是不合理的，特别是对于学习型方法，因为两部分共享相同的场景特征，并且通常包含相同的跟踪身份，这容易导致过拟合。缺乏适当的验证集阻碍了有意义的消融研究和适当的模型验证。

因此，MOT17的数据集设计本质上有利于仅需要超参数优化的启发式方法，而不是需要适当训练和验证集的数据驱动方法。这种偏见在基准测试的排行榜上得到了体现，该排行榜由启发式跟踪器主导。另一方面，尽管在其他数据集上取得了成功，但学习型方法在MOT17上的表现通常不佳。

C.2. 与最先进方法的比较

MOT17测试集上的结果如表4所示。尽管存在上述限制，但CAMEL超越了所有现有的学习型方法，并与最先进的启发式方法取得了具有竞争力的性能。下面详细介绍了与先前工作中每种类型方法的比较。

端到端MOT。如MOTIP[27]所述，联合学习检测和关联的端到端（E2E）方法需要大量的训练数据。这些方法中的大多数利用CrowdHuman[50]数据集进行联合训练以克服这一限制。尽管没有利用额外的训练数据，但我们的方法仍然超越了这些E2E方法。

混合关联。如附录G所述，TADN[45]和TransMOT[15]代表了将学习组件集成到基于检测的跟踪（TbD）流水线中的初步尝试。然而，我们的方法优于这两种方法，这主要归因于我们的以关联为中心的训练通过（i）克服它们对短训练序列的依赖（例如，TransMOT的5帧）和（ii）利用数据增强来产生丰富多样的训练样本，解决了它们训练策略中的关键限制。此外，我们的方法可能受益于更具判别性的外观线索。TransMOT采用了一种保守的跟踪策略，该策略优先考虑身份保持，导致高IDF1分数，但由于其倾向于漏检（高假阴性），MOTA较低。

启发式关联。基于手工设计关联规则的SORT方法长期以来一直在MOTChallenge基准测试中占据主导地位。如前一节所述，数据集的结构本质上有利于这类方法，因为它们只需要一个小的训练集来优化超参数。尽管MOT17本质上偏向于这类方法，但我们学习的CAMELTrack仍然取得了具有竞争力的性能。

关于使用离线后处理的在线方法。为了与我们的完全在线CAMELTrack进行公平比较，我们在表4中仅报告了与其他完全在线方法的性能。我们排除了几个最先进的方法[3, 24, 40, 41, 65]，尽管它们具有在线性质，但采用了离线后处理机制来提升在MOT17上的性能。具体来说，ByteTrack[71]利用序列特定的检测阈值结合线性插值，正如GHOST[49]中详细分析的那样。然而，我们报告了GHOST[49]中报告的性能，该报告使用单一阈值且没有插值运行ByteTrack。尽管DiffMOT[40]的官方论文和仓库没有明确提及插值，但对其官方结果的仔细调查揭示了使用了此类技术：尽管使用了与ByteTrack相同的YOLOX检测（被流行方法广泛采用），但他们的提交包含了插值的特征检测。StrongSORT[24]结合了两个离线后处理模块，如其论文中详细所述：无外观链接（AFLink）和高斯平滑插值（GSI）。类似地，Hybrid-SORT2[65]和BoT-SORT3[3]在其官方GitHub仓库中记录了采用插值技术。

我们选择不报告使用插值的性能，主要基于两个原因：（i）我们专注于开发真正的在线跟踪解决方案，以及（ii）上述官方MOTChallenge评估服务器上的提交限制。

D. 扩展的实现细节

我们的完整实现，包括配置文件、模型权重和使用的检测，可在https://github.com/TrackingLaboratory/CAMELTrack上公开获取。我们鼓励读者参考我们的代码库以获取完整的方法论细节和可重复性。

检测。为了公平比较，我们使用与DiffMOT[40]相同的检测设置。具体来说，我们采用遵循ByteTrack[71]程序训练的YOLOX[28]模型：对于DanceTrack，我们使用原始基准测试[56]提供的权重；对于SportsMOT，我们使用MixSORT[18]提供的权重；对于MOT17，我们直接使用ByteTrack提供的权重。对于PoseTrack21，我们使用MMDetection[12]的方法论微调了一个YOLOX-x模型。为了鼓励专注于关联而非检测质量的研究，我们以标准化的MOT格式提供了所有检测结果。

姿态模型。对于姿态估计，我们利用MMPose[17]的预训练模型：DanceTrack和SportsMOT使用RTMPose[34]，MOT17使用在PoseTrack18上训练的HRNet[54]。对于PoseTrack21，我们遵循PoseTrack18训练协议但在PoseTrack21上微调了一个HRFormer[68]模型。

重识别模型。与之前最先进的基于SORT的工作[18, 22, 23,33, 40, 41, 49, 65]类似，这些工作为每个数据集训练了自定义的重识别模型，我们基于BPBReID[51]训练了自己的重识别模型以产生外观线索。在不考虑ReID模块性能的情况下比较方法是不可能的，因为一些在线TbD工作不使用外观线索[8, 71]，而其他工作（如E2E方法）则从检测骨干网络中隐式学习外观线索[26, 27,69]，并且大多数采用ReID模块的TbD流水线都训练了自己的自定义模型[18, 22, 23,33,40, 41,49,65]。

在DanceTrack[56]上，DiffMOT[40]采用了Deep-OCSORT[41]引入的重识别模型，GHOST[49]具有自己的带测试时域适应的模型，而Hybrid-SORT[65]在DanceTrack和CUHKSYSU[37]上联合训练了一个自定义模型。在SportsMOT上，DiffMOT[40]在FastReID[31]上训练了自己的模型，Deep-EIoU[33]训练了一个自定义的OSNet[74]模型，而MixSORT引入了一种新颖的外观模型。在PoseTrack21[23]上，CorrTrack-ReID[23]和GAT[22]都有自己的自定义外观模型。最后，在MOT17[43]上，DiffMOT[40]和Hybrid-SORT[65]采用了BoT-SORT提供的ReID模型，而GHOST在MOT17[43]和Market1501[73]上联合训练了一个基于ResNet50的自定义模型，MixSORT[18]则再次使用了其自定义外观模型。

如第4.2节所述，我们为每个数据集训练了一个BPBReID[51]模型。BPBReID是一个基于部分的重识别模型，为每个身体部位产生一个嵌入，以提高对遮挡的鲁棒性。我们首先从MOT数据集的每个训练集中构建一个重识别数据集，随机选取最多1000个轨迹片段，然后在时间维度上均匀采样，每个轨迹片段最多20张图像。我们还使用相应MOT验证集中的所有轨迹片段构建了一个验证集，然后在时间维度上均匀采样，每个轨迹片段最多10张图像。然后，我们使用与原始论文相同的配方在这些ReID数据集上训练BPBReID，使用5个身体部位和来自SOLIDER人物基础模型的Swin[38]Transformer骨干网络。

我们的最终ReID模型在SportsMOT上达到了81.8%的mAP，在DanceTrack上达到了34.4%的mAP，在PoseTrack21上达到了84.9%的mAP。SportsMOT和PoseTrack21上的性能低于最先进模型在流行的Market-1501数据集[73]上能达到的性能（即超过90%的mAP），这突出了在这些领域中进行重识别的困难，因为多个身份具有相似的外观且穿着相同的运动衫。此外，在DanceTrack上，我们得出了与原始论文[56]相似的结论，ReID性能非常低。上面提到的先前跟踪方法[3, 22, 40, 49]没有披露其自定义ReID模型的原始ReID性能，这使得与我们的模型进行比较变得困难。

最后，在训练CAMEL时，我们需要避免使用“完美”（过拟合）的ReID嵌入，因为产生这些嵌入的ReID模型是在相同数据上训练的。为了避免这个问题，我们按照第3.3节中介绍的方法生成以关联为中心的训练集的训练ReID嵌入。首先，我们在训练集的前半部分上训练一个ReID模型，然后使用它来生成后半部分的ReID嵌入。然后，我们反过来生成前半部分的ReID嵌入。验证集的ReID嵌入是用在完整训练集上训练的模型生成的。测试集的ReID嵌入是用在训练集和验证集上联合训练的模型生成的，类似于之前的工作[33, 40, 65]。

生命周期管理。不同数据集使用不同的参数。

检测置信度阈值：DanceTrack为0.4，SportsMOT为0.1，PoseTrack21为0.3，MOT17为0.5。

轨迹片段初始化最小置信度阈值：分别为0.9、0.4、0.4、0.55。

CAMEL的轨迹片段-检测相似度阈值：分别为0.1、0.1、0.45、0.5。

给定可靠的检测，除MOT17外，所有数据集的轨迹片段确认的最小命中数均设为0，在MOT17上，我们需要1次命中以过滤偶尔的检测器噪声。

E. 详细训练

我们在此补充第3.3节中的信息。感兴趣的读者鼓励查看代码以获取确切的训练过程。

E.1. 预处理

我们通过将真实检测和轨迹片段身份信息与上游模型的线索特定信息相结合来创建训练数据集。

我们对真实边界框和检测器之间的边界框执行匈牙利匹配，以便为每个预测的边界框赋予一个真实身份。
然后，将每个结果检测通过每个线索特定模型（重识别、姿态估计）。
我们计算同一帧内检测之间的边界框重叠。此信息稍后将被某些数据增强所需。
将所有结果信息保存在磁盘上。

E.2. 训练循环

在训练期间，我们从预生成的数据集中采样以构建包含B个训练样本的训练批次。通过以下步骤创建一个用于训练的样本，该样本包含P个轨迹片段-检测配对。

从随机视频中选择一个随机帧。
收集该帧中的所有检测以及之前帧中的所有检测。
对轨迹片段和检测执行数据增强（见附录E.3）。
仅保留每个轨迹片段的最后W个检测（在大多数实验中W=50）。
重复此过程，直到我们获得P个轨迹片段-检测配对。

然后，CAMEL接收批次中样本的所有检测和轨迹片段，并为每个检测和每个轨迹片段输出一个嵌入。然后，使用配对的轨迹片段-检测嵌入计算InfoNCE[44]损失，使用真实轨迹ID来匹配每个配对。

E.3. 数据增强

我们采用四种不同类型的数据增强。增强方式要么是完全随机的，要么基于观察到的特征。我们使用的主要检测特征是同一帧内与其他检测的IoU。

检测身份交换。为了生成现实的身份切换，我们随机选择一个轨迹片段，并找到与其重叠的另一个轨迹片段（即，两个轨迹片段至少有一对检测具有非零IoU）。然后，我们交换这些重叠检测的身份，以模拟在遮挡期间通常发生的跟踪错误。

检测丢弃。这种数据增强以概率 $p_{drop}$ 移除轨迹片段内的检测。为了模拟具有挑战性的关联场景，如长时间遮挡后的恢复、场景重新进入，我们对最近的检测应用更高概率的检测丢弃。

线索丢弃。我们在训练期间随机从检测中移除特定线索（外观、运动或姿态）。尽管这种增强在直观上对于提高对缺失线索的鲁棒性很有吸引力，但实验表明它对模型性能没有可测量的影响。

随机扰动。最后，我们设计了一种数据增强，通过扰动输入线索来提高模型泛化能力。具体来说，我们在外观嵌入、边界框坐标和关键点坐标上添加高斯噪声。

每个数据增强的最优参数通过在每个数据集的验证集上进行网格搜索来选择。

F. “先知”研究

我们为消融研究中引用的两个“先知”实验（第4.4节）提供了实现细节。

关联“先知”（实验12）。该“先知”建立了关联性能的绝对上限，仅受检测质量的限制。在在线TbD流水线的每个关联步骤中：

使用匈牙利算法将当前检测与真实边界框进行匹配；
使用IoU分数作为匹配度量，最小阈值为0.5；
每个匹配的检测继承其对应真实的轨迹身份。

特征融合“先知”（实验11）。该“先知”展示了最优特征融合的潜力，同时突出了当前基于启发式的关联规则的局限性。对于每个传入的帧，执行以下操作：

一个单一的权重因子将外观和运动成本线性组合成一个统一的成本矩阵。
结果成本矩阵由匈牙利算法处理以进行最终匹配。
通过特权访问真实标注，通过最大化关联准确率（正确轨迹片段-检测配对的百分比）来确定最优权重。

局限性与未来扩展。虽然我们简单的实现足以说明当前基于启发式的方法的局限性，但可以开发更复杂的“先知”。例如，计算每个轨迹片段的最优权重将更好地反映线索可靠性如何随目标变化。这对于以下场景特别相关：

外观线索在视觉上不同的目标中占主导地位（例如，足球中的守门员）；
运动线索在外观相似的目标之间能更好地进行区分（例如，同队球员）。

然而，开发如此高级的“先知”超出了我们当前的范围，因为我们简单的“先知”已经充分展示了特征融合策略中的改进潜力（见表5）。

G. 详细相关工作

在本节中，我们通过提供与我们工作相关的多目标跟踪（MOT）关键方法的更全面回顾来补充第2节，特别关注在线方法。图6说明了CAMELTrack在当前MOT分类法中的位置。

基于启发式的基于检测的跟踪

MOT中的主流范式一直是基于检测的跟踪（TbD），许多方法在SORT [5]的基础上进行构建。这些方法侧重于开发复杂的关联启发式规则[3, 24, 61, 71]，或更强的运动建模[1,2, 8,29, 32, 40,46,62]和重识别[30, 47, 49, 59]。不同的基于SORT的方法主要在三个关键组件的手工设计规则上有所不同：（i）轨迹片段表示：常见方法包括检测特征的均值[4]或指数移动平均[60, 70]，或到特征库的最小距离[61]。GHOST [49]对计算轨迹片段与单个检测之间距离的各种“代理”进行了全面分析，包括“指数移动平均特征向量”、“中值特征向量”、“最后一帧特征向量”等。（ii）特征融合：方法范围从运动和外观线索的加权平均[49]或附加线索[30, 65]，到自适应加权方案[41]和基于阈值的门控[3, 24]。GHOST [49]还进行了一项广泛的研究，考察了不同“运动权重”值（结合运动和外观成本矩阵的加权因子）如何影响各种数据集上的跟踪性能。（iii）多阶段匹配：跟踪器采用单阶段[3]或级联匹配[61]，根据置信度分数[71]或轨迹年龄[61]过滤候选者，同时在每个阶段使用不同的线索。如第1节所述，多阶段匹配涉及在每个阶段计算不同的关联成本矩阵，使用精心选择的活跃轨迹片段和检测的子集（通过检测置信度或轨迹片段年龄过滤）。每个阶段使用匈牙利算法进行二分匹配，未匹配的轨迹片段/检测在后续阶段进行处理。

大多数最近的最先进方法通常采用两阶段方法：首先使用自定义启发式规则（通常结合ReID特征）进行初始匹配阶段，然后使用卡尔曼滤波器预测的边界框与当前检测之间的IoU进行基于运动的阶段，遵循SORT [5]的原始设计。例如，DeepSORT使用ReID特征执行多个级联匹配阶段，按年龄顺序处理轨迹片段，然后以SORT的标准卡尔曼滤波器关联阶段结束。

我们的方法采取了不同的方向，用一个统一的、可训练的架构替代了这些用于数据关联的启发式规则，该架构更好地利用了所有可用的跟踪线索，以产生上下文感知的解耦表示，从而在单个阶段中进行匹配。

轨迹片段生命周期管理代表了基于SORT的流水线中的另一组重要启发式规则，负责处理轨迹片段的初始化、终止和误报检测过滤。虽然我们的工作侧重于用学习模块替换关联启发式规则，但我们保持了标准的生命周期管理启发式规则。CAMEL未来的扩展可能会通过专门的、代表待暂停轨迹片段、应启动新轨迹片段的检测以及应作为误报过滤的检测的状态标记来潜在地整合生命周期管理。这种能力代表了未来研究的一个有前景的方向。

基于学习的关联的基于检测的跟踪

虽然之前的一些工作已经探索了通过图网络[6]或Transformer[11,76]进行数据驱动的跟踪，但大多数工作是离线运行的，只有少数开创性工作尝试将学习组件集成到在线TbD流水线中[15, 45, 58, 63]。我们提出的CAMELTrack属于这一类MOT方法。

值得注意的是，TransMOT [15]引入了一个用于轨迹片段表示的时空编码器和一个用于特征融合的Transformer，但它依赖于手工设计的多阶段匹配流水线，其中学习组件仅在第二阶段使用，而第一和第三阶段仍然完全基于IoU和重识别（ReID）启发式规则。

TADN [45]引入了一个基于Transformer的决策网络，用于学习轨迹片段-检测关联，但在MOTChallenge上的性能有限，这可能与它们的递归训练设置有关，该设置无法对困难关联场景进行建模，也无法像我们的以关联为中心的训练那样进行数据增强。虽然BUSCA [58]提出了一个用于将轨迹片段与候选检测相关联的决策Transformer，但它仅作为传统TbD流水线上检测恢复的插件模块。

STRN [63]引入了用于数据驱动特征融合的时空关系网络，但其架构设计缺乏模块化，无法考虑任何类型的输入线索，并且其流水线仍然保留了其他启发式组件。虽然这些工作代表了向学习关联迈出的初步步骤，但它们仍然依赖于启发式规则。相比之下，我们的方法通过引入一个完全可训练的关联模块，与手工设计的规则实现了决定性的突破。

在线基于跟踪的检测

最近，遵循基于跟踪的检测（DbT）范式[4]的端到端（E2E）方法[13, 21, 26, 27,42, 55, 64, 66, 69, 72]作为一种有前景的、无启发式的TbD替代方案而出现。这些方法基于DETR [10]架构，联合学习对象检测和关联，使用轨迹查询来跨帧重新检测过去对象。尽管它们的设计优雅，以与我们类似的数据驱动方式学习关联，但E2E方法仍然难以在广泛的数据集上达到最先进（SotA）的性能。这是因为E2E方法面临几个限制：（i）它们以检测器为中心的多帧训练使用短时间窗口，难以处理长期关联[7]；（ii）它们缺乏TbD的模块化能力，无法利用专门的外部模型（例如，ReID、运动等）[27]；（iii）共享模型中检测和关联目标之间的固有冲突[72]限制了它们的整体性能；（iv）它们需要大量的训练数据和计算资源才能实现具有竞争力的性能（通常在8个GPU上训练几天）[69]。相比之下，我们的方法仅专注于学习关联策略，所需的训练计算量减少了一个数量级，并保持了TbD利用现成检测、运动和ReID模型的能力。

H. 额外的定性结果

图7在时间线视图中展示了CAMELTrack与DiffMOT之间的额外定性比较。使用相同的检测，我们将CAMELTrack与在DanceTrack和SportsMOT上都达到接近最先进性能的DiffMOT进行了比较。这些序列与图3中的序列类似，说明了在场景重新进入和遮挡等具有挑战性的场景下的跟踪行为。

(1) dancetrack0077时间线

图7. SportsMOT和DanceTrack验证集上额外视频的跟踪结果可视化。(a-c) SportsMOT中的视频v_4r8QL_wglzQ_c001。(d-f) SportsMOT中的视频v_OkUtTtmLaJA_c004。(g-i) 视频dancetrack0007。(j-l) 视频dancetrack0077.0