1. 论文基本信息
- 论文标题:Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
- 论文作者:Hyeonseob Nam(Dept. of Computer Science and Engineering, POSTECH, Korea)等人
- 论文出处:CVPR 2016
- 在线阅读:https://arxiv.org/pdf/1510.07945v2.pdf
- 源码链接1:https://github.com/HyeonseobNam/MDNet (MATLAB版本)
- 源码链接2:https://github.com/HyeonseobNam/py-MDNet (Python 3.6版本)
本文的参考代码为上述高亮版本的代码。
2. 网络结构图
论文的详细网络结构如下图所示:
3. 重要变量
MDNet算法在tracking阶段,为了获得更强的鲁棒性,算法采用了检测机制,对不同的情况进行处理。首先看源码中设置的几个关键变量:
- result. 它是一个数组,表示计算出来的目标预定位位置[ x , y , w i d t h , h e i g h t ] [x, y, width, height][x,y,width,height]。
- result_bb. 它是一个数组,表示基于上述预定位位置的回归位置[ x ′ , y ′ , w i d t h ′ , h e i g h t ′ ] [x', y', width', height'][x′,y′,width′,height′]。
- success. 它是一个布尔Flag,表示当前的预定位的目标图像是否可靠,1表示可靠,0表示不可靠。
3. 重检测流程
MDNet在的重检测可以看作为两个阶段:预定位阶段和边框回归阶段。算法首先利用MDNet最终的分类得分输出对目标进行预定位,具体做法是对256个候选目标的pos probability得分进行排序,取前5个,然后对这5个样本各自的[ x , y , w i d t h , h e i g h t ] [x, y, width, height][x,y,width,height]取平均值,这就是预定位的position。
接下来计算预定位是否可靠,方法是:对上述具有最高得分的前5个候选样本,计算得分平均值,如果平均得分大于0,,则认为得分可靠,否则认为预定位不可靠。
如果预定位结果可靠,就调用MDNet自己的回归器对上述5个候选样本进行一次边框回归(Bounding box regression),以期得到更加精确的定位[ x ′ , y ′ , w i d t h ′ , h e i g h t ′ ] [x', y', width', height'][x′,y′,width′,height′]。
如果预定位结果不可靠,就准备在下一帧中扩大搜索范围,以期找回目标。
重检测流程图如下图所示:
版权声明:本文为discoverer100原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。