金字塔卷积 – 源码巴士

上述这种空间变大巨大的表现形式是标准卷积所无法有效提取的，而CV的终极目标是：提取输入的多尺度信息。在这方面最为知名的当属SIFT，它可以从不同尺度提取特征描述算子。然而深度学习中的卷积却并未具有类似SIFT这种提取多尺度特征的能力。

最后，我们再来说明一下作者为解决上述挑战而提出的几点创新：

(1) 作者引入一种金字塔卷积(PyConv)，它包含不同尺度与深度的卷积核，进而确保了多尺度特征的提取；
(2) 作者为图像分类任务提出了两种网络架构并以极大优势优于baseline，同时具有更少的参数量与计算复杂度；
(3) 作者为语义分割任务提出了一个新的框架：一种新颖的Head用于对backbone提取的特征可以从局部到全局进行上下文信息特征提取，并在场景解析方面取得了SOTA性能；
(4) 作者基于PyConv而设计的网络架构在目标检测与视频分类任务上取得了性能的极大提升。

最后一点区别：PyConv为尽可能的降低计算量，在每一组内部还进行了分组卷积。经过前述一系列的组合确保了PyConv的计算量与标准卷积相当，但实际上推理速度还是标准卷积更快，三层时推理速度，比如下图配置时，pyconv在cpu上比标准卷积慢一倍之多，呵呵。

首先，第一点区别：PyConv不是通过分辨率的下采样达到感受野提升的目的，而ScaleNet、OctNet、Big-LittleNet以及SCN都是通过调整特征的分辨率方式