多目标跟踪简介

多目标跟踪(Multiple Object Tracking / Multiple Target Tracking)是指在视频中识别与跟踪多个目标。与VOT算法不同,通常的MOT算法都是基于目标检测算法的,即tracking-by-detection。这些算法一般可以分为四部分构成:

  • Detection stage:检测当前帧中的物体以给出检测对象的bounding boxes。一般可采用Faster R-CNN、SSD、YOLO等检测端。
  • Feature extraction/motion prediction stage:根据检测端给出的定位框提取特征。
  • Affinity stage:计算前后帧之间各定位框所框对象之间的相似度。
  • Association stage:根据相似度矩阵给出当前帧各检测框所对应的ID。

在计算MOT算法的benchmark时,我们需要考虑以下信息:

  • 最多跟踪路径(MT):number of ground-truth trajectories that are correctly tracked in at least 80% of the frames
  • 最多丢失路径(ML):number of ground-truth trajectories that are correctly tracked in less than 20% of the frames
  • Fragments:trajectory hypotheses which cover at most 80% of a ground-truth trajectory
  • ID switches:当对象被正确跟踪,但相应的ID与其他对象错误交换的总次数

基于这些信息,我们可以计算以下矩阵:

  • MOTA:
    M O T A = 1 − ( F N + F P + I D S W ) G T ∈ ( − inf ⁡ , 1 ] MOTA = 1 - \dfrac{(FN + FP + IDSW)}{GT} \in (-\inf, 1]MOTA=1GT(FN+FP+IDSW)(inf,1]
    其中,GT为真实的定位框总数,IDSW为ID switches的总数。

  • MOTP:
    M O T P = ∑ t , i d t , i ∑ t c t MOTP = \dfrac{\sum_{t, i} d_{t, i}}{\sum_{t} c_{t}}MOTP=tctt,idt,i
    其中,c t c_{t}ct表示第t tt帧中准确跟踪的总数,d t , i d_{t, i}dt,i为被跟踪对象的跟踪框i ii和其对应的真实定位框之间的交叠。

  • 识别精度:
    I D P = I D T P I D T P + I D F P IDP = \dfrac{IDTP}{IDTP + IDFP}IDP=IDTP+IDFPIDTP

  • 识别召回率:
    I D R = I D T P I D T P + I D F N IDR = \dfrac{IDTP}{IDTP + IDFN}IDR=IDTP+IDFNIDTP

  • 识别F1:
    I D F 1 = 2 1 I D P + 1 I D R IDF1 = \dfrac{2}{\dfrac{1}{IDP} + \dfrac{1}{IDR}}IDF1=IDP1+IDR12
    以上所有公式中,T P TPTPF N FNFN分别表示true positive和false negative。

为计算MOT算法的benchmark,我们一般采用以下数据集: MOT15、MOT16/17、MOT19、KITTI、PETS2009等。


版权声明:本文为qq_40995448原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。