MDNet视频目标跟踪算法中的重检测机制分析

1. 论文基本信息


本文的参考代码为上述高亮版本的代码。




2. 网络结构图


论文的详细网络结构如下图所示:
在这里插入图片描述




3. 重要变量


MDNet算法在tracking阶段,为了获得更强的鲁棒性,算法采用了检测机制,对不同的情况进行处理。首先看源码中设置的几个关键变量:

  1. result. 它是一个数组,表示计算出来的目标预定位位置[ x , y , w i d t h , h e i g h t ] [x, y, width, height][x,y,width,height]
  2. result_bb. 它是一个数组,表示基于上述预定位位置的回归位置[ x ′ , y ′ , w i d t h ′ , h e i g h t ′ ] [x', y', width', height'][x,y,width,height]
  3. success. 它是一个布尔Flag,表示当前的预定位的目标图像是否可靠,1表示可靠,0表示不可靠。



3. 重检测流程


MDNet在的重检测可以看作为两个阶段:预定位阶段和边框回归阶段。算法首先利用MDNet最终的分类得分输出对目标进行预定位,具体做法是对256个候选目标的pos probability得分进行排序,取前5个,然后对这5个样本各自的[ x , y , w i d t h , h e i g h t ] [x, y, width, height][x,y,width,height]取平均值,这就是预定位的position。

接下来计算预定位是否可靠,方法是:对上述具有最高得分的前5个候选样本,计算得分平均值,如果平均得分大于0,,则认为得分可靠,否则认为预定位不可靠。

如果预定位结果可靠,就调用MDNet自己的回归器对上述5个候选样本进行一次边框回归(Bounding box regression),以期得到更加精确的定位[ x ′ , y ′ , w i d t h ′ , h e i g h t ′ ] [x', y', width', height'][x,y,width,height]

如果预定位结果不可靠,就准备在下一帧中扩大搜索范围,以期找回目标。

重检测流程图如下图所示:

Created with Raphaël 2.2.0开始预定位预定位是否可靠?采集前k个高分样本(k=5)利用回归器进行边框回归结束调大采样范围参数,用于在下一帧进行全局搜索直接用预定位的位置作为当前帧目标的位置yesno

版权声明:本文为discoverer100原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。