Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection学习笔记

知识储备

RGB-D(深度图像

深度图像 = 普通的RGB三通道彩色图像 + Depth Map
Depth Map(深度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。其中,Depth Map 类似于灰度图像,只是它的每个像素值是传感器距离物体的实际距离。通常RGB图像和Depth图像是配准的,因而像素点之间具有一对一的对应关系。
图像深度
图像深度 是指存储每个像素所用的位数,也用于量度图像的色彩分辨率。

图像深度 确定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。它决定了彩色图像中可出现的最多颜色数,或灰度图像中的最大灰度等级。比如一幅单色图像,若每个像素有8位,则最大灰度数目为2的8次方,即256。一幅彩色图像RGB三通道的像素位数分别为4,4,2,则最大颜色数目为2的4+4+2次方,即1024,就是说像素的深度为10位,每个像素可以是1024种颜色中的一种。
**

目前遇到的问题

1.现有的基于SOD的CNN网络主要用于处理RGB图像,当目标和背景拥有相似的外观时容易分辨不清。
2.如何有效的利用深度信息,尤其在深度神经网络方面仍然有很多未被探索。
3.现有的RGBD通过简单的串联将RGB和深度特征进行融合,不管是在前期中期还是后期。这种直接的交叉融合会产生两个问题:
1)缺乏高质量的Depth maps,相比于RGB图像产生更多噪音并且结构不清。缺少良好的pre-trained网络从depth maps提取特征。
2)RGB图像和深度图像存在内在差异,当仅仅使用简单融合会产生不兼容问题。


解决问题的方案

1.为了提高深度信息采用对比先验(contrast prior),然后将获得的enhanced depth map与RGB特征融合形成高质量的检测结果;在对比提升网络中采用了对比损失在显著区域和非显著区域以及他们的连贯性。设计对比损失并利用对比先验,RGBD模型利用了传统对比先验和深度神经网络特征。
2.对于特征融合兼容性问题,设计了流形金字塔融合通过分层的方式去交叉融合RGB和深度信息。
**

新的技术

CPFP模型的骨干网络是VGG-16,VGG-16由5层卷积层组成(如图2所示),当RGB图像经过卷积层后,再将图像传送给池化层进行池化,然后将得到的图像输入进特征增强模组进行图像增强,这个流程一共重复5轮,第一轮产生5个增强特征F˜1, F˜2, F˜3, F˜4, F˜5,第二轮产生4个由此递减,最后一轮产生1个,然后将这些增强特征传输到流体金字塔网络中,然后我们将第二层的 F˜2, F˜3, F˜4, F˜5通过上取样来得到跟第一层大小相同的特征图像,然后将第三层的F˜3, F˜4, F˜5通过上取样得到第二层大小相同的特征图像,由此递推。流体金字塔网络将所有高层的图像特征传输到低层的图像从而得到更丰富的特征。
1.特征增强模组
特征增强模组由对比增强网络和交叉模型融合组成,在对比增强网络中设计一个对比损失,对比损失包括三个要素:前景分布损失lf,背景分布损失lb和整体深度损失lw,如图1所示。
图1.前景和背景分布损失

图2.整体分布损失
图1
交叉模型融合通过enhanced depth map来调节RGB特征,我们将来自每个block的RGB特征图片和经过加强的深度图片叉乘来提高显著区域和非显著区域的的对比,然后再加上残余连接去保护原始的RGB图像特征,将这些特征图片乘坐增强特征F˜。
图3/CPFP模型
图2
2.流体金字塔网络模型
流体金字塔模型用来解决图像交叉融合的兼容性问题,通过不断地上取样操作,将不同规模的交叉模组特征取得了联系,帮助提高了多规模层次的兼容性。
**


版权声明:本文为choucdaf原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。