概述#
近年来,多目标目标跟踪技术主要分为了基于检测的跟踪范式(Tracking by Detection, TBD)
和端到端方法(End to End, E2E)。
TBD范式的常见流程为使用(R-CNN, Fast R-CNN, YOLO系列等)目标检测方法,得到目标的边界框,
再通过一些数据关联方法,将检测与轨迹相关联。
端到端方法通常以视频片段(video clips)或滑动窗口的方式输入连续若干帧图像,
通过时序建模模块(如Transformer、RNN)学习目标的时空一致性,并直接预测其轨迹。
基于检测的跟踪#
基于检测的跟踪方法结构简单,通常能够达到较好的推理速度和一定精度,适用于算力受限和实时性要求高的场景。 但是这种方法在跟踪时,忽略了中间的CNN特征,而主要关注检测之后的数据关联策略; 因此容易受到目标之间相互遮挡和检测失败的影响,对于追求高进度的场景有所不足。
目标检测算法#
基于深度学习的目标检测方法主要分为单阶段目标检测和双阶段目标检测。
双阶段检测先生成候选区域再利用CNN进行分类和回归校正,检测速度较慢,但精度高。
常用算法包括 R-CNN, Fast R-CNN, Faster R-CNN, R-FCN。
单阶段检测直接提取网络特征进行目标的分类和定位,速度更快,适用于实时应用场景。
常用算法包括 SSD, Retinanet, YOLO系列。
数据关联方法#
数据关联涉及将当前帧识别到的目标和前一帧的目标的轨迹相关联,可大致分为相似度计算和匹配策略两个阶段。
相似度检测主要分为运动和外观两方面。
基于外观特征的数据关联,通过特征提取,评估检测和轨迹的相似度,计算出一个相似度分数。
基于运动轨迹的数据关联,通常包括卡尔曼滤波器和粒子滤波器,通过物体的运动模型和检测之间的位置关系,
来生成后续帧中的潜在候选区域来建立联系。
卡尔曼滤波器基于基于先验状态估计进行后验更新,这种做法在遮挡期间会导致误差累计从而导致运动方向出现重大偏差。 一种OC-SORT方法通过有目标检测器提供的目标观察结果,在遮挡期间计算虚拟轨迹,允许在遮挡期间的时间步长内进行更有效的校正。
多目标跟踪中的匹配策略可以大致分为寻求单个分配问题最优解和综合考虑全局关联最优。
寻求单个分配问题的最优解方法包括匈牙利算法和最近邻算法。匈牙利算法将数据关联建模为一个二分图匹配问题,
在观测与轨迹之间寻找全局最优的一对一分配,通常基于代价矩阵(如马氏距离)。
最近邻算法为每个轨迹选择距离(如欧氏距离、马氏距离)最近的观测作为其关联结果。
综合考虑全局关联最优方法显式地考虑多种可能的关联假设,通过概率融合或多假设树的方式,
综合评估不同历史路径的合理性,实现更鲁棒的全局最优或近似最优。代表算法有 JPDA 和 MHT 。
JPDA 对当前时刻的所有可能关联假设进行概率加权融合,更新轨迹状态。
MHT 维护多个关联假设的历史路径,形成假设树,随时间积累证据,逐步剪枝或合并。
端到端多目标跟踪方法#
基于 CNN 的多目标跟踪#
UTM 是一个集成了目标检测、特征嵌入和身份关联的统一框架。 UTM 的核心是身份感知特征增强模块,该模块旨在通过利用身份感知的见解来增 强检测和嵌入过程。
基于 Transformer 的多目标跟踪#
在目标ReID领域,传统的 CNN 通常单独处理局部特征信息,可能会丢失细粒度信息。 Transformer 方法从每个局部提取特征,从而得到一个代表整个图像的综合全局特征向量, 利用其自注意力机制能够有效捕捉不同对象之间的空间和时间关系,丰富对于对象动态的理解。 基于 Transformer 的多目标跟踪方法主要分为时序方法和图方法。 Trackformer 和 TransTrack 属于时序方法, 3DMOTFormer 和 ColTrack 属于使用图神经网络的方法。
TransTrack 通过利用两套检测结果和框匹配建立短轨迹。通过两种策略减轻跟踪框匹配的影响。 1.通过双向最优匹配将初始跟踪框与前一帧的对象框进行匹配。 2.通过双向最优匹配监督跟踪的输出与当前对象框。
Transformer 架构由编码器和解码器组成。编码器用于捕获自注意力,在 Transformer 模型中表示查询、键和值。解码器强调交叉注意力,使用静态目标查询初始化新对象,跟踪现有轨迹并从跟踪查询中更新位置。
端到端方法的优势包括全局信心关系建模、并行性和适合顺序任务。 Transformer通过其自注意力机制,捕捉输入序列中各个位置之间的依赖关系,有效地建模长距离依赖关系。 这一特性使得Transformer在需要理解全局上下文的任务中表现出色。
数据集和评估指标#
数据集#
当前主流的研究集中在多目标跟踪和视频对象跟踪上,其中 MOTChallenge 是使用最广泛的数据集。
KITTI#
自动驾驶场景数据集,支持对象检测和3D跟踪的3D任务, 数据集包含双目灰度图像序列、双目彩色图像序列、3D Velodyne点云、3D GPS/IMU数据、校正文件、3D 目标检测标签。
VOTS2023/24#
VOTS2023/24数据集包含144个序列和总共341个目标。序列的平均长度约为2000帧
MOTChallenge#
主要为行人多目标跟踪任务,包含MOT15、MOT16、MOT17、MOT20等一系列数据集。 MOT15数据集是其前身的增强版本,提供了一系列分辨率,以适应多样化的计算分析。 MOT16数据集行人群体和跟踪难度更复杂,视频分辨率标准化为 1920×1080 和 640×480 。 MOT17数据集整合了三个额外的检测模型,拓展了范围。 MOT20数据集深入研究了密集环境中的复杂性,成为需要复杂跟踪解决方案的数据集的基准。
TAO#
TAO数据集具有广阔的跟踪目标类别,包括行人、车辆、动物等。
3D-ZeF#
3D-ZeF数据集是一个基于立体视觉的3D RGB数据集,专门为神经系统疾病研究中的多对象斑马鱼跟踪研究量身定制。
CroHD#
CroHD数据集专门针对高人群密度的拥挤场景中的头部跟踪进行定制。该数据集特别面向行人跟踪,包含多种分辨率的视频。
DanceTrack#
DanceTrack数据集主要致力于行人的跟踪,是一个庞大的多目标跟踪数据集, 旨在解决涉及个体在遮挡、频繁交叉、相似服装和多样化身体姿态等具有挑战性的条件下的复杂跟踪场景。
SN-Tracking#
SN-Tracking涵盖了11个足球动作类别,代表了足球中的具有挑战性的跟踪场景。
评估指标#
MOTP (Multiple Object Tracking Precision),它通过测量跟踪器定位对象的准确性来量化得分。MOTP值越高,表示跟踪精度越高。
MOTA (Multiple Object Tracking Accuracy),是MOT中最常用的评估指标之一。 它全面评估了跟踪算法在跟踪多个对象时的性能,综合考虑了假阴性(FN)、假阳性(FP)和ID切换(IDS),MOTA 的值越高,表示跟踪算法的性能越好。
IDP (Identification Precision),更高的 IDP 值表示跟踪算法对识别的分配更加精确。
IDF1 (Identification F1),考虑了检测和跟踪的准确性和漏检率,更高的IDF1表示跟踪算法在保持一致的对象识别更有效。
IDTP (Identification True Positives),表示准确分配给确切识别帧的数量。
IDFP (Identification False Positives),表示错误家境未知对象标识符关联起来。
HOTA (Higher Order Tracking Accuracy), 为了解决MPTA在ID频繁切换场景的不足而提出的评估指标。 除了考虑传统的因素(假阴性、假阳性、ID切换),还进一步考虑了轨迹的质量和目标跟踪精度。