本文主要介绍TransTrack, TrackFormer, MORT三种算法,但考虑到三篇文章中都与 DETR 高度相关,这里对DETR也做一个简单的介绍。
DETR#

TransTrack#
注意力机制在MOT的应用#
下面分别是基于检测的多目标跟踪、基于注意力机制的单目标跟踪、基于注意力机制的多目标跟踪流程。



在单目标跟踪领域,注意力机制将上一帧的目标作为Query,下一帧作为Value,很容易就能实现对于单目标的跟踪。 但是对于多目标,这样的方法无法处理新生的目标,存在局限性。需要设计额外的流程来处理新生的轨迹。
主要流程#

- 通过一个 CNN 网络 (ResNet50) 提取图像特征,特别的,将每个时刻特征保存到下一时刻;
- 再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征;
- 将组合特征作为 Key 输入到解码器中,将对象查询和上一帧的对象特征作为轨迹查询作为 Query 并行输入到两个解码器中,得到检测特征和跟踪特征;
- 再通过并行的全链接层得到检测框和跟踪框,使用匈牙利算法进行IoU匹配得到最后的预测框。
TrackFormer#
主要流程#

实现细节#
使用 ResNet50 提取原始图像的特征,
MORT#
在 DETR 的基础上设计,与同期的 TransTrack 和 TrackFormer 相比,无需非极大值抑制和IoU匹配的后处理。
轨迹块感知标签分配 (TALA)#
在 DETR 中,使用的是固定长度的对象查询,检测可以分配给任意对象。
而 MOTR 中引入了轨迹块感知标签分配 (TALA) 使检测查询仅用于检测新生成的对象,跟踪查询预测跟踪对象,如下图所示。

查询交互模块 (QIM)#
QIM 的输入是 Transformer 解码器产生的隐藏状态和对应的预测分数。在训练过程中,对于跟踪查询得到的对象,如果匹配的对象在真实值中消失或预测边界框与目标之间的交并比(IoU)低于0.5的阈值,则移除已终止对象的隐藏状态;对于对象查询的到的对象,只保留得分高于入门阈值的结果。
特别的,过滤后的对于跟踪查询得到的对象,通过时间聚合网络(TAN)后,与新生对象连接。
主要流程#

- 通过一个 CNN 网络 (ResNet50) 提取图像特征,并将特征通过编码器进一步处理;
- 将处理后的特征作为 Value ,检测查询和跟踪查询连接起来作为 Query 输入到解码器,生成隐藏状态;
- 利用隐状态分别生成下一时刻的最终查询和当前时刻的跟踪结果。