【Deep Learning】SKNet : Selective Kernel Networks 学习

1. SKNet 论文思维导图

该思维导图使用 MindMaster 软件做出，源文件可以点击链接进行下载。

在这里插入图片描述

2. Selective kernel 结构介绍

本节主要介绍这篇论文的核心部分，即 Selective kernel 的相关内容

在这里插入图片描述
上图给出的是 Selective Kernel Convolution 的示意图，可以看出，此结构主要由三个部分组成，即：

Split：
- 这部分的主要作用的将原特征分为几个不同的形状大小完全相同的特征，在本文中分为了两部分，分别是 $3 * 3$ 和 $5 * 5$ 的卷积。且文中说明，所使用的卷积都是分组/可分离卷积的形式。对于 $5 * 5$ 的卷积，可以采用膨胀因子是 2 的 $3 * 3$ 的膨胀卷积；
- 假设在 Split 部分前的特征为 $X\in\mathbb R^{H'\times W'\times C'}$ ，在本文中经过两个操作生成形状相同的两部分特征，即
  $\tilde{\mathcal F}:\bold X\to\tilde{\bold U}\in\mathbb R^{H\times W\times C}$ 和 $\hat{\mathcal F}:\bold X\to\hat{\bold U}\in\mathbb R^{H\times W\times C}$ ，其中 $\tilde{\mathcal F}$ 和 $\hat{\mathcal F}$ 都是由顺序连接的分组/可分离卷积构成的。
Fuse：
- 这部分的基本思想使用门来控制从不同分支流入的多尺度的信息流然后送入到下一层神经元。为了实现这个目标，需要进行如下操作：
  1. 各个分支的特征进行元素间的相加：
    $\bold U = \tilde{\bold U}+\hat{\bold U}$
  2. 然后使用全局平均池化来获得提特征的全局信息，具体操作如下所示：
    $s_c=\mathcal F_{gp}(\bold U_c)=\frac 1 {H\times W}\sum_{i=1}^H\sum_{j=1}^W\bold U_c(i,j)$
  3. 然后，生成一个压缩后的特征向量 $\bold z\in\mathbb R^{d\times1}$ ，这部分是通过一个缩减维度的全连接操作完成的，具体如下：
    $\bold z=\mathcal F_{fc}(\bold s)=\delta(\mathbb{\mathcal B}(\bold W\bold s))$
    其中， $\delta$ 指的是 ReLU 激活函数， $\mathbb{\mathcal B}$ 指的是 BN 操作， $\bold W\in\mathbb R^{d\times C}$ ，为了研究缩减后的维度 $d$ 对最后网络性能的影响，文中使用缩减比例系数 $r$ 来进行控制：
    $d = m a x (C / r, L)$
    上式中 $L$ 指的是网络中 $d$ 能够达到的最小值，通常默认取 32。
Select：
- 经过上述两步后，得到了一个压缩的单维度的向量，接下来 select 模块的作用就是将这个向量重新分为两个（本文情况）或多个（更多的情况）特征向量，然后分别与相应的 split 之后的特征向量进行相应通道的相乘操作，然后再通过这种加权共同构成输入到下一个神经元的特征向量。
- 具体的实现方法是利用一个 soft attention across channels 的思想，即平滑后的通道间的注意力思想，以此能够让网络有自适应的选择特征的不同尺度信息，它由特征 $\bold z$ 生成。
- 具体的，是将 softmax 操作应用于通道方向上，公式如下：
  $a_c=\frac{e^{\bold A_c\bold z}}{e^{\bold A_c\bold z}+e^{\bold B_c\bold z}},\ \ b_c=\frac{e^{\bold B_c\bold z}}{e^{\bold A_c\bold z}+e^{\bold B_c\bold z}}$
  其中 $\bold A,\bold B\in\mathbb R^{C\times d}$ ， $\bold a,\bold b$ 分别表示 $\tilde{\bold U},\hat{\bold U}$ 的平滑注意力向量。其中 $\bold A_c\in \mathbb R^{1\times d}$ 表示 $\bold A$ 的第 $c$ 行， $a_c$ 表示 $\bold a$ 的第 $c$ 个元素值。对于向量 $\bold B$ 同理。
- 当仅存在两个分支的时候，可以看到，矩阵 $\bold B$ 是多余的，因为有 $a_c+b_c=1$ ，网络最终的特征图 $\bold V$ 可以由不同的注意力权重对相应特征进行加权后得到。公式如下所示：
  $\bold V_c=a_c\cdot\tilde{\bold U}_c+b_c\cdot\hat{\bold U}_c，\ \ a_c+b_c=1$
  其中， $\bold V=[\bold V_1,\bold V_2,...,\bold V_C],\bold V_c\in\mathbb R^{H\times W}$ 。
思考：
- 这部分的 fuse 和 select 部分与 SENet 网络中的 SE block 结构都存在着相似之处，只是 SENet 中仅使用一个分支。
- 在 select 模块中，我个人目前的理解是通过两个矩阵( $\bold A,\bold B\in\mathbb R^{C\times d}$ )，使用类似于 softmax 的操作，也就是公式 5，但是与平时所使用的 softmax 操作不同的是，这个操作是在通道方向进行的，也就是对于每个类别，都进行以此 softmax 操作，softmax 输出的个数与类别无关，而与最开始 split 为几个不同尺寸的卷积核相关。在本文中使用的是2，则每个类别出都输出的是2维。同理，如果使用 3 种不同的卷积核，则每个类别输出的均为 3 维。只有这样才能解释为什么使用两种不同的卷积核时会有 $a_c+b_c=1$ 。在使用 3 中卷积核时，同理应该有 $a_c+b_c+c_c=1$ 。

3. SKNet 网络结构

本文中使用的 SKNet 网络的主要结构如下所示：

在这里插入图片描述

4. 实验部分

本文的实验部分主要在 ImageNet 2012 数据集和 cifar 数据集上完成，关于这部分内容的分析可以查看作者在知乎上的分析，这里就不再赘述。知乎链接为：SKNet——SENet孪生兄弟篇

5. 本文参考文章

原文链接：https://blog.csdn.net/qq_34784753/article/details/89381947