基于 Transformer 的多目标跟踪算法 • Rinne's Blog

本文主要介绍TransTrack, TrackFormer, MORT三种算法，但考虑到三篇文章中都与 DETR 高度相关，这里对DETR也做一个简单的介绍。

DETR#

DETR的网络结构

TransTrack#

注意力机制在MOT的应用#

下面分别是基于检测的多目标跟踪、基于注意力机制的单目标跟踪、基于注意力机制的多目标跟踪流程。

TBD多目标跟踪的流水线

基于注意力机制的单目标跟踪流水现

基于注意力机制的多目标跟踪流水现

在单目标跟踪领域，注意力机制将上一帧的目标作为Query，下一帧作为Value，很容易就能实现对于单目标的跟踪。但是对于多目标，这样的方法无法处理新生的目标，存在局限性。需要设计额外的流程来处理新生的轨迹。

主要流程#

TransTrack的结构

通过一个 CNN 网络 (ResNet50) 提取图像特征，特别的，将每个时刻特征保存到下一时刻；
再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征；
将组合特征作为 Key 输入到解码器中，将对象查询和上一帧的对象特征作为轨迹查询作为 Query 并行输入到两个解码器中，得到检测特征和跟踪特征；
再通过并行的全链接层得到检测框和跟踪框，使用匈牙利算法进行IoU匹配得到最后的预测框。

TrackFormer#

主要流程#

TrackFormer的结构

实现细节#

使用 ResNet50 提取原始图像的特征，

MORT#

在 DETR 的基础上设计，与同期的 TransTrack 和 TrackFormer 相比，无需非极大值抑制和IoU匹配的后处理。

轨迹块感知标签分配 (TALA)#

在 DETR 中，使用的是固定长度的对象查询，检测可以分配给任意对象。
而 MOTR 中引入了轨迹块感知标签分配 (TALA) 使检测查询仅用于检测新生成的对象，跟踪查询预测跟踪对象，如下图所示。
TALA策略图示

查询交互模块 (QIM)#

查询交互模块 QIM 的输入是 Transformer 解码器产生的隐藏状态和对应的预测分数。在训练过程中，对于跟踪查询得到的对象，如果匹配的对象在真实值中消失或预测边界框与目标之间的交并比(IoU)低于0.5的阈值，则移除已终止对象的隐藏状态；对于对象查询的到的对象，只保留得分高于入门阈值的结果。
特别的，过滤后的对于跟踪查询得到的对象，通过时间聚合网络(TAN)后，与新生对象连接。

主要流程#

MOTR主要流程

通过一个 CNN 网络 (ResNet50) 提取图像特征，并将特征通过编码器进一步处理；
将处理后的特征作为 Value ，检测查询和跟踪查询连接起来作为 Query 输入到解码器，生成隐藏状态；
利用隐状态分别生成下一时刻的最终查询和当前时刻的跟踪结果。