细粒度分析(Fine-grain image analysis)
简介:
细粒度性质会引起的小的类间变化和大的类内变化,我们将现有的 FGIA 技术研究分为三大类:细粒度图像识别、细粒度图像检索和细粒度图像生成。FGIA 的目标是检索、识别和生成属于超类别的多个从属类别的图像。
问题背景:
- 细粒度特征,考量图片中微小的区别。
- 小的类内变化 vs 大的类间变化
常用数据集:
其中CUB200-2011是最流行的细粒度数据集之一。多种类型的监督包括:图像标签、部分注释(也称为关键点定位)、对象边界框(即绿色边界框)、属性标签(即“ATR”)和自然语言的文本描述。
细粒度识别范式:
具有定位分类子网络的细粒度识别
- 使用两个子网络,为定位子网络和分类子网络。
- 定位子网络来定位关键部分,可以获得更多有区别的中间级别(部分级别)表示。进一步增强了分类子网络的学习能力。这些方法将多个部分级特征连接为一个整体图像表示,并将其输入到下面的分类子网络中进行最终识别。
- 分类子网络跟随并用于识别。这两个协作子网络的框架形成了第一个范式,即具有定位分类子网络的细粒度识别。
- 然而,需要人工注释关注的部分,限制了可拓展性。趋势:先找到对应的部分,然后比较它们的外观。希望捕获语义部分(例如,头部和躯干)以在细粒度类别之间共享,同时希望发现这些部分表示之间的细微差异。
具有端到端特征编码
倾向于通过开发强大的深度模型进行细粒度识别来直接学习更具辨别力的特征表示。
双线性 CNN :将图像表示为来自两个深度 CNN 的特征的池化外积,因此对卷积激活的高阶统计进行编码以增强中级学习能力。由于其高模型容量,双线性 CNN 实现了显着的细粒度识别性能。然而,双线性特征的极高维数仍然使其在实际应用中不切实际,尤其是对于大规模应用。
具有外部信息
由于注释的难度(总是需要领域专家)和无数的细粒度类别(即元数据中有数千个从属类别-类别)。因此,一部分细粒度的识别方法试图利用免费但嘈杂的网络数据来提高识别性能。
现有的大部分作品可以大致分为两个方向。其中之一是将测试类别的噪声标记网络数据作为训练数据进行爬网,这被视为网络监督学习。
这些方法的主要工作集中在:(1)克服容易获取的网络图像和标准数据集中标记良好的数据之间的数据集差距; (2) 减少噪声数据带来的负面影响。为了处理上述问题,经常使用对抗学习的深度学习技术和注意力机制。
使用网络数据的另一个方向是从经过良好训练的辅助类别中转移知识,通常采用零样本学习和元学习。
随着多媒体数据(如图像、文本、知识库等)的快速增长,多模态分析引起了人们的广泛关注。
在细粒度识别中,它需要多模态数据来建立联合表示/嵌入以结合多模态信息。它能够提高细粒度的识别精度。与细粒度图像的强监督(例如部分注释)相比,文本描述是弱监督。经常使用的多模态数据包括文本描述(例如自然语言的句子和短语)和图形结构的知识库。
在实践中,文本描述和知识库都可以有效地作为更好的细粒度图像表示学习的额外指导。收集文本描述,并通过结合文本和图像引入结构化联合嵌入,用于零样本细粒度图像识别。
人类参与的细粒度识别通常是一个由机器和人类用户组成的迭代系统,它结合了人类和机器的努力和智能。此外,它要求系统尽可能以人类劳动经济的方式工作。一般来说,对于这些类型的识别方法,每一轮的系统都在寻求理解人类是如何进行识别的,例如,通过要求未经训练的人类标记图像类别并挑选困难的例子,或者通过识别关键部分定位并选择判别特征进行细粒度识别。
第一范式和第二范式仅利用与细粒度图像相关的监督来限制自己,例如图像标签、边界框、部分注释等。
研究人员逐渐尝试将外部但廉价的信息(例如,网络数据、文本描述)纳入细粒度识别,以进一步提高准确性,这对应于细粒度识别的第三范式。
细粒度图像检索:
除了图像识别,细粒度检索是 FGIA 的另一个重要方面,并成为热门话题。
它的评估指标是共同平均精度(mAP)。在细粒度图像检索中,给定相同子类别(例如鸟类或汽车)和查询的数据库图像,它应该返回与查询相同种类的图像,而不求助于任何其他监督信号。
与基于内容相似性(例如纹理、颜色和形状)检索近似重复图像的通用图像检索相比,而细粒度检索侧重于检索相同类型的图像(例如,动物使用相同的从属物种,汽车使用相同的型号)。细粒度图像中的对象只有细微的差异,并且在姿势、尺度和旋转方面有所不同
细粒度图像生成:
细粒度生成将合成细粒度类别中的图像,例如特定人的面部或从属类别中的对象。它部署了深度生成模型,例如 GAN [Goodfellow et al., 2014],以学习合成看起来真实的逼真图像。
CVAE-GAN:在条件生成过程下将变分自动编码器与生成对抗网络相结合来解决这个问题。具体来说,CVAE-GAN 将图像建模为概率模型中标签和潜在属性的组合。然后,通过改变输入生成模型的细粒度类别,它可以生成特定类别的图像。
展望:
AutoML(自动机器学习)旨在自动化将机器学习应用于实际任务的端到端过程。而 NAS(神经架构搜索)是自动化神经网络架构设计的过程。
因此,利用 AutoML 或 NAS 技术开发的自动细粒度模型也有望找到更好、更量身定制的深度模型,同时反过来推动 AutoML 和 NAS 的研究。
人类能够在很少监督的情况下学习新的细粒度概念,例如,一种鸟类的示例图像很少,但我们最好的深度学习细粒度系统需要数百或数千个标记示例。更糟糕的是,细粒度图像的监督既耗时又昂贵,因为细粒度对象应始终由领域专家准确标记。因此,需要开发细粒度的小样本学习。
FGFS 的任务要求学习系统以元学习的方式从少数示例(只有一个或少于五个)中为新颖的细粒度类别构建分类器。稳健的 FGFS 方法可以极大地增强细粒度识别的可用性和可扩展性。
在像细粒度图像检索这样的实际应用中,很自然会提出一个问题,即在参考数据库非常大的情况下,找到精确最近邻的成本过高。
哈希表,作为最流行和最有效的近似最近邻搜索技术之一,具有处理大规模细粒度数据的潜力。因此,细粒度散列是一个值得进一步探索的有前途的方向。
这些设置不能满足当今各种现实世界应用的日常需求,例如,通过在受控环境中收集的图像训练的模型识别存储架中的零售产品 和识别/检测野外的自然物种 。
因此,新的细粒度图像分析主题,需要与现实结合的更为紧密。如具有领域适应的细粒度分析、具有知识转移的细粒度分析、具有长尾分布的细粒度分析和细粒度分析运行在资源受限的嵌入式设备上——值得对更先进和实用的 FGIA 进行大量研究。