1. 论文基本信息

论文标题：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
论文作者：Hyeonseob Nam（Dept. of Computer Science and Engineering, POSTECH, Korea）等人
论文出处：CVPR 2016
在线阅读：https://arxiv.org/pdf/1510.07945v2.pdf
源码链接1：https://github.com/HyeonseobNam/MDNet （MATLAB版本）
源码链接2：https://github.com/HyeonseobNam/py-MDNet （Python 3.6版本）

本文的参考代码为上述高亮版本的代码。

2. 网络结构图

论文的详细网络结构如下图所示：
在这里插入图片描述

3. 重要变量

MDNet算法在tracking阶段，为了获得更强的鲁棒性，算法采用了检测机制，对不同的情况进行处理。首先看源码中设置的几个关键变量：

result. 它是一个数组，表示计算出来的目标预定位位置 $[x, y, w i d t h, h e i g h t]$ 。
result_bb. 它是一个数组，表示基于上述预定位位置的回归位置 $[x^{'}, y^{'}, w i d t h^{'}, h e i g h t^{'}]$ 。
success. 它是一个布尔Flag，表示当前的预定位的目标图像是否可靠，1表示可靠，0表示不可靠。

3. 重检测流程

MDNet在的重检测可以看作为两个阶段：预定位阶段和边框回归阶段。算法首先利用MDNet最终的分类得分输出对目标进行预定位，具体做法是对256个候选目标的pos probability得分进行排序，取前5个，然后对这5个样本各自的 $[x, y, w i d t h, h e i g h t]$ 取平均值，这就是预定位的position。

接下来计算预定位是否可靠，方法是：对上述具有最高得分的前5个候选样本，计算得分平均值，如果平均得分大于0，，则认为得分可靠，否则认为预定位不可靠。

如果预定位结果可靠，就调用MDNet自己的回归器对上述5个候选样本进行一次边框回归（Bounding box regression），以期得到更加精确的定位 $[x^{'}, y^{'}, w i d t h^{'}, h e i g h t^{'}]$ 。

如果预定位结果不可靠，就准备在下一帧中扩大搜索范围，以期找回目标。

重检测流程图如下图所示：

原文链接：https://blog.csdn.net/discoverer100/article/details/100028039