小目标检测常用解决方法

1 定义

通用的定义来自 COCO 数据集，定义小于 32x32 pix 的为小目标。

首先小目标本身分辨率低，图像模糊，携带的信息少。由此所导致特征表达能力弱，也就是在提取特征的过程中，能提取到的特征非常少，这不利于我们对小目标的检测。

另外通常网络为了减少计算量，都使用到了下采样，而下采样过多，会导致小目标的信息在最后的特征图上只有几个像素（甚至更少），信息损失较多。

在 COCO 挑战赛上，小目标的检测精度( $AP^S$ )通常只有大目标( $AP^L$ )的一半。

在这里插入图片描述

提高模型的输入分辨率，也就是减少或者不压缩原图像
tiling，将图像切割后形成batch，可以在保持小输入分辨率的同时提升小目标检测，但是推理时也需要 tiling，然后把目标还原到原图，整体做一次 NMS。

适合小目标的 Anchor

锚框设计难以获得平衡小目标召回率与计算成本之间的矛盾，而且这种方式导致了小目标的正样本与大目标的正样本极度不均衡，使得模型更加关注于大目标的检测性能，从而忽视了小目标的检测。

通过多尺度可以将下采样前的特征保留，尽量保留小目标

比如对于 YOLOv5 的 stride 为 32，可以调整其 stride 来减小下采样率，从而保留某些比较小的特征。

增加感受野，对小目标有效果，SPP size 的设置解决输入 feature map 的size 可能效果更好。

小目标大权重，此外也可以尝试 Focal Loss。

可以考虑的方法：加入 CBAM 模块， TPH-YOLOv5，或者可以关注 VisDrone Challenge 2021 比赛。