paper:ByteTrack: Multi-Object Tracking by Associating Every Detection Box
code:ByteTrack
一.摘要
多目标追踪的目的是识别视频中物体或对象的位置和身份,也就是说,不同于目标检测的是,追踪问题可以分为两个任务:1)确定当前帧所有对象的bounding box;2)确定当前帧中这些bounding box是之前帧中的谁,即身份的确定。
大部分追踪算法获取当前帧中的对象身份是将那些当前帧中高置信度的检测框(高置信度代表此检测框有物体的可能性更大)与当前帧之前那些帧的追踪结果进行身份匹配,这些高置信度检测框可以通过设置置信度阈值进行筛选得到。而那些低置信度检测框,即小于置信度阈值的那些检测框将被简单的丢弃掉,因为认为这些检测框中可能根本不存在物体,但这是不合理的,因为这些低置信度可能是由于运动模糊或对象被遮挡而导致的。如果由于某个对象被遮挡或运动模糊就将其删除,会导致此对象追踪的中断。
为了解决由于直接将低置信度检测框删除而导致的追踪中断现象,提出了一个新的身份关联方法,这个方法是通过关联当前帧几乎所有的检测框,而非仅仅关联那些高置信度检测框。对于那些低置信度检测框,通过使用其与之前帧的追踪对象的相似度进行身份匹配,从而通过相似度筛选出这些低置信度检测框哪些是真正的对象(有可能被遮挡,亦有可能运动模糊),而哪些又是背景。
二.数据关联
数据关联(或我本人习惯称之为身份关联或身份匹配)是多目标追踪中的核心,首先计算当前帧中所有检测框和之帧每个追踪目标