CV领域常用词及其含义
一、backbone
在神经网络中,尤其是CV领域,一般先对图像进行特征提取(常见的有vggnet,resnet,inception等等),这一部分是整个CV任务的根基,因为后续的下游任务都是基于提取出来的图像特征去做文章(比如分类,生成等等)。所以将这一部分网络结构称为backbone十分形象,仿佛是一个人站起来的支柱。
详细说backbone是用来做特征提取的网络,代表网络的一部分,一般是用于前端提取图片信息,生成特征图feature map,供后面的网络使用。因为这些backbone特征提取能力是很强,并且可以加载官方在大型数据集(Pascal 、Imagenet)上训练好的模型参数,然后接自己的网络,进行finetune微调即可。
二、head
head是获取网络输出内容的网络,利用之前提取的特征,head利用这些特征,做出预测。
三、neck
是放在backbone和head之间的,是为了更好的利用backbone提取的特征。
四、bottleneck
瓶颈的意思,通常指的是网络输入的数据维度和输出的维度不同,输出的维度比输入的小了许多,就像脖子一样,变细了。经常设置的参数 bottle_num=256,指的是网络输出的数据的维度是256 ,可是输入进来的可能是1024维度的。
五、GAP
在设计的网络中经常能够看到gap这个层,我之前不知道是干啥的,后了解了,就是Global Average Pool全局平均池化,就是将某个通道的特征取平均值,经常使用AdaptativeAvgpoold(1),在pytorch中,这个代表自适应性全局平均池化,说人话就是将某个通道的特征取平均值。
self.gap = nn.AdaptiveAvgPool2d(1)
六、embedding
深度学习方法都是利用使用线性和非线性转换对复杂的数据进行自动特征抽取,并将特征表示为“向量”(vector),这一过程一般也称为“嵌入”(embedding)。
七、pretext task和downstream task
用于预训练的任务被称为前置/代理任务(pretext task),用于微调的任务被称为下游任务(downstream task)
八、warm up
Warm up指的是用一个小的学习率先训练几个epoch,这是因为网络的参数是随机初始化的,一开始就采用较大的学习率容易数值不稳定。
九、end to end
在论文中经常能遇到end to end这样的描述,那么到底什么是端到端呢?其实就是给了一个输入,我们就给出一个输出,不管其中的过程多么复杂。比如分类问题,你输入了一张图片,肯定网络有特征提取,全链接分类,概率计算什么的,但是跳出算法问题,单从结果来看,就是给了一张输入,输出了一个预测结果。
end to end的方案,即输入一张图,输出最终想要的结果,算法细节和学习过程全部丢给了神经网络。
十、pipeline
深度学习的pipeline就是模型实现的步骤,从数据收集开始至输出我们需要的最终结果,深度学习现在的pipeline一般都比较强调模型的组件构成流程。
十一、baseline
相当于一个基础模型,可以以此为基准来比较对模型的改进是否有效。