RXDNFuse: A aggregated residual dense network for infrared and visible image fusion
(RXDNFuse: 用于红外和可见光图像融合的聚合残余密集网络)
RXDNFuse被设计为结合了ResNeXt和DenseNet的结构优势的端到端模型
我们的方法将图像融合问题建立到IR/VIS图像的结构和强度比例保持问题中(思考IPMG)。采用综合特征提取与组合,RXDNFuse自动估计相应源图像的信息保存度,提取层次特征,实现有效融合。此外,我们设计了两种损失函数策略来优化相似性约束和网络参数训练,从而进一步提高了详细信息的质量。我们还推广了RXDNFuse,以融合具有不同分辨率的图像和RGB比例图像。
介绍
图像融合是一种重要的现代增强技术,旨在将多个输入图像融合为一个健壮且信息性强的图像,并提供更复杂和详细的场景表示,这可以促进后续处理或帮助决策。图像融合技术已用于增强人类视觉感知,物体检测和目标识别方面的性能。特别是,红外和可见光图像融合在视频监控系统的场景检测和跟踪性能中起着特别重要的作用。这两类图像可以从不同方面提供互补的场景信息。红外图像由于具有明显的区分性热辐射,因此可以轻松地将目标与背景区分开,这可以在白天/夜晚以及在所有天气条件下都可以很好地工作。但是,红外图像通常缺乏纹理,因此无法有效地描述细节。相比之下,可见图像包含具有高空间分辨率的纹理细节,有利于增强目标识别能力,符合人类视觉系统。因此,如何有效地组合互补信息成为融合方法的主要焦点。近年来,通过不同的方案开发了图像融合任务。现有的融合方法大致可以分为两类。
i) 传统方法。最典型的是,多尺度变换方法已用于提取图像显着特征,例如离散小波变换 (DWT)、基于表示学习的方法也引起了极大的关注,例如稀疏表示 (SR)和联合稀疏表示 (JSR) 、基于子空间的方法 、基于显著性的方法 和混合模型。
ii) 基于深度学习的方法。鉴于深度学习技术的飞速发展,卷积神经网络 (CNN) 用于获取图像特征并重建融合图像。基于CNN的方法由于神经网络的强大拟合能力,在图像处理中获得了更好的性能。因此,它在融合任务领域得到了广泛的应用。马等提出了一种无监督网络来生成融合的决策,马等人提出了一种称为FusionGAN的端到端模型,该模型生成具有主要红外强度和额外可见梯度的融合图像。尽管现有方法可以在相应的融合任务中取得更好的效果,但它们仍然存在一些缺点,这些缺点会影响图像融合性能。首先,大多数当前方法中的当前融合规则越来越复杂,并且以手动方式设计,这些规则将某些伪像引入到融合结果中。其次,在基于CNN的融合方法中,仅使用最后一个特征提取层的输出作为图像融合组件。这种方法无疑丢弃了中间卷积提取层获得的大量有用信息,这直接影响了最终的融合性能。最后,现有的融合方法由于其计算复杂度和参数量大,通常在时间和存储空间方面缺乏竞争力。
为了克服上述挑战,我们提出了一种端到端网络,即RXDNFuse,以执行红外和可见光图像融合任务。该网络不需要手动设计的融合规则,并且可以有效地利用从源图像中提取的深层特征。更具体地说,红外热辐射信息的特征是像素强度,而可见图像中的纹理细节信息典型的特征是边缘和梯度 ,源图像中细节的保留通常决定了融合图像的清晰度。为了进一步提高这种性能,我们设计了两种损失函数策略,即像素策略和特征策略,以迫使融合图像具有更多的纹理细节。此外,还设计了一个新的特征提取模块RXDB,以进一步减轻融合框架,从而提高图像融合的时间效率。
贡献
1)我们提出了一种基于聚合残差密集网络的端到端融合架构,以解决红外和可见光图像融合问题。我们的方法有效地避免了手动设计复杂的图像分解测量和融合规则的需要,并充分利用了源图像的层次特征。
2)我们提出了两种损失函数策略来优化模型相似性约束和详细信息的质量,其中像素策略直接利用源图像中的原始信息,并且特征化策略基于预先训练的VGG19网络计算更详细的损失函数 。
3)我们对公共红外和可见光4月图像融合数据集进行了实验,并与最新方法进行了定性和定量比较。与现有的五种方法相比,所提出的RXDNFuse的融合结果在背景信息中获得了出色的视觉质量,同时还包含突出显示的热辐射目标信息。
4)我们将RXDNFuse概括为融合具有不同分辨率的图像和RGB比例图像,使其能够生成清晰自然的融合图像。
相关工作
在本节中,我们简要回顾了图像融合领域的进展和相关工作,包括传统的红外和可见光图像融合方法、VGG网络深度学习模型、典型的基于深度学习的图像处理技术及其改进方式。
传统的融合方法。随着图像表示需求的快速增长和进步,已经提出了许多红外和可见光图像融合方法。由于重建通常是提取的逆过程,因此这些算法的关键在于两个重要因素: 特征提取和融合。作为最常用的融合方案,基于多尺度变换的方法假定源图像可以分解为具有不同尺度的分量。每个组件代表每个比例的子图像,现实世界的对象通常包括不同比例的组件 。用于分解和重建的流行变换包括离散小波变换 (DWT) 和非子采样shearlet变换 (NSST)。此外,基于稀疏表示的方法也引起了极大的关注。源图像可以在过度完整的字典中用稀疏基的线性组合稀疏地表示,因此,潜在地增强有意义的和稳定的图像的表示。
尽管这些基于稀疏表示的方法在特定领域取得了良好的融合性能,但构建合适的过度完整词典的难度和时间效率仍然是主要缺点。基于子空间的方法将高维输入图像投影到低维空间或子空间中。冗余信息存在于大多数自然图像中,并且低维子空间可以帮助捕获原始图像中的固有结构。因此,基于子空间的方法,包括独立分量分析 (ICA),主成分分析 (PCA),非负矩阵分解 (NMF),已成功应用于红外和可见光图像融合。特别是其他图像融合方法可以为图像融合提供新的思路和前景,这些方法基于显着特征,总变化 ,模糊理论,熵等。
基于深度学习的图像模型。近年来,深度学习方法在图像识别和检测等图像处理领域得到了广泛关注,并取得了巨大的性能提升。说明了深度学习方法在图像融合中的可行性和优势。深度学习模型对于图像融合特别有利,因为它们可以从源图像中提取足够详细的特征,并保留比传统方法更丰富的后处理信息。因此,我们相信深度学习也将是图像融合任务的重大突破。针对多焦点图像融合任务,liu等人提出了一种基于卷积神经网络 (CNN) 的融合方法。在他们的论文中,将两个源图像逐个串联起来,然后馈入预先训练的CNN模型中,以共同检测焦点并构建决策图。然后,融合图像是通过使用像素加权平均策略将决策图和源图像组合在一起获得的。我们进一步扩展了该模型以融合红外和可见光图像,但未能达到令人满意的效果。
VGG深度学习网络模型。VGGNet增加网络深度可以在一定程度上提高最终的网络性能。随后,不同的基于VGGNet的应用程序受到了相当大的关注。Gatys等人提出了一种基于VGGNet的图像样式传输方法。该网络用于从 “内容” 图像和 “样式” 图像中提取不同级别的深层特征。然后,通过适当的特征融合,以相应样式图像的样式重建内容图像。该方法产生了良好的程式化图像,并且具有出色的提取图像特征的能力。但是,即使使用GPU,其时间效率也极低。对于红外和可见光图像融合任务,Li等人 提出了使用更深层次的学习框架融合方法,并采用VGG-19提取特征,而不是传统的预先训练的CNN。然后,他们使用l1-norm和max选择策略来重建融合图像。他们的方法取得了出色的性能。ResNet深度学习网络模型在传统的卷积网络中,每次传输图像特征信息时都会发生信息丢失,从而导致梯度消失或爆炸,并导致深度网络训练困难。随着网络深度的增加,中间层提取的信息越来越没有得到充分利用。因此,训练集的准确性降低。为了解决这个退化问题,He等人 提出了一种新的体系结构ResNet。ResNet将一些输入信息直接传输到输出,以保护信息的完整性。整个网络只需要学习输入和输出之间的差异作为残差表示,这简化了学习,并随着深度的增加而允许更好的准确性。 下图展示出了残差块的基本架构随后又提出了一种改进的ResNet变体,即ResNeXt 。事实证明,它比ResNet具有更高效的性能。
DenseNet深度学习网络模型Huang等人 引入了一种新颖的体系结构,其密集块允许任何层直接连接到所有后续层。通过其功能重用和旁路设置,DenseNet不仅大大减少了网络参数的数量,而且减轻了梯度消失的问题,从而简化了网络训练。下图显示了密集块的基本架构。
残差密集网络 (RDN) 模型。Zhang等人提出了一种新的残差密集网络 (RDN) 来解决图像超分辨率 (SR) 问题。拟议的网络充分利用了所有卷积层的层次特征。具体来说,他们提出了一种残余密集块 (RDB),该块通过密集连接的卷积层提取丰富的局部特征。RDB允许每个先前的RDB直接连接到当前RDB的所有层,从而通过RDB中的本地特征融合自适应地学习更高效的特征,并进一步稳定更深层次的网络训练。通过实验,他们表明该网络实现了最先进的图像SR性能,所提出的体系结构如下图所示。
方法
我们的融合目标是融合两种图像类型以构建融合图像,从而同时保留红外图像中目标的显着性和可见图像中的丰富细节信息,而无需手动操作。在CNN培训过程中,地面真相对于监督至关重要,但是,在我们的图像融合方法中,融合图像的地面真相不再存在。通过考虑上述限制,我们提出了一种无监督图像融合网络,其中需要一个损失函数来指导回归过程和相似性约束。为了更精确地重建融合的结果,我们用合适的策略组合训练我们的网络,以最小化损失函数L。
问题表述(Problem formulation)

在训练阶段,所有输入图像对都经过处理以进行预配准。
在特征处理流程中,将Ir和Iv堆叠在通道维度中,以获得Iv,r,然后我们将堆叠的Iv,r图像放入BFEnet中,从而提取基本的浅层特征。BFEnet的输出形成了RXDBs的输入,RXDBs进一步提取层次特征。随后,我们进行了全局特征融合 (GFF),该融合充分利用了前面所有层的特征来获得输入图像的全局层次特征。最后,RBnet重构了所有的全局特征信息。在训练阶段,优化VGG-19模块以最小化损失函数,在定义损失函数时应用了像素 (Ir,Ivand If) 和特征 (φ r,φ v和 φ f) 的组合。在此损失函数的指导下,如果具有突出的锐化边缘目标和更丰富的详细纹理,我们可以获得最终的融合图像。
网络架构(Network architecture)

(模块和管道中显示的数字表示相应特征图的通道)
基于聚合残差密集网络组成,the network architecture mainly consists of four parts: the basic feature extraction network (BFEnet),the aggregated residual dense block (RXDB), the global feature fusion (GFF),and the reconstruction block network (RBnet).在所有卷积层中,填充设置为相同,stride设置为1。结果,这些卷积层保持原始图像的大小。
基本特征提取网络 (Basic feature extraction network (BFEnet))–提取浅层特征
第一个卷积层从串联的输入图像Iv,r中提取特征,我们进行residual connection以实现特征重用。我们继续提取浅层特征,然后将上述特征输入到RXDBs中,充分提取图像的层次特征。
聚集残余密集块 (Aggregated Residual dense block (RXDB))–提取深层特征
RXDB作为利用拆分转换合并策略的多分支体系结构,并且我们模块中的分支执行一组转换,每个转换都在低维嵌入中,其输出通过求和进行汇总。(RXDB as multi-branch architecture exploiting the split-transform-merge strategy, and a branch in our module performs a set of transformations, each on a low-dimensional embedding, whose outputs are aggregated by summation. )
我们将聚合变换的基数设置为2,其中我们的模块由残差块和残差密集块组成。所提出的聚合残余密集块 (RXDB) 架构如下图所示。特别是,我们在RXDNFuse框架中堆叠了六个RXDB。
更准确地说,每个RXDB包含三个分支,以改善提取的特征的多样性,从而允许其充分利用块内每个卷积层提取的深层特征。每个分支中的前1 × 1层生成低维特征图,用于降低输入特征的维数,从而降低模块中内部特征的卷积计算成本。
全局特征融合 (Global feature fusion (GFF))
用RXDBs提取层次特征后,我们进行GFF进一步整合提取的图像特征信息,该信息包含两部分 (DFF和GRL)。密集特征融合 (dense feature fusion(DFF)) 通过融合所有RXDB(浅层特征)中的特征来提取密集特征。此外,我们使用全局残差学习 (global residual learning (GRL) ) 在BFEnet和RXDBs之间建立信息残差连接,因此用于图像重建的最终图像特征取决于先前深层特征以及浅层特征的输出。
重建块网络 (Reconstruct block network (RBnet))
我们的重建块RBnet网络体系结构是一个简洁的三层卷积神经网络,可在全局特征上发挥作用,其中第一层和第二层使用3 × 3滤波器,最后一个卷积层的内核大小为1 × 1,激活函数设置为tanh。我们使用这种简单有效的体系结构来重建融合的图像。
损失函数
为了进行网络训练,我们需要准确评估融合图像和输入图像对之间的信息相似性,最大限度地减少信息损失,以有效地保留来自红外图像Ir的热辐射信息和来自可见图像Iv的纹理细节信息。它由两部分组成,定义如下:
Lstructure表示两个图像的结构相似性,旨在将来自输入图像Ir,Iv的丰富纹理细节保留到融合图像If中。此外,Lintensity约束融合图像以保持与源图像相似的强度分布。这里我们使用一个正的参数 α 来控制权衡。
评估损失函数的策略
最小化损失函数L,以迫使融合图像近似结构相似性和源图像的强度分布相似性,并获得最先进的融合性能。为了更有效地最小化损失值并获得更准确的近似最优解,我们设计了两种评估损失函数的策略。
1) Pixel-wise Strategy(像素化策略):
作为一种常见的图像处理策略,像素化损失策略在计算机视觉中得到了广泛的应用。在像素级别,结构相似性指数度量 (SSIM)是最流行,最有效的度量模型的失真根据光,对比度和结构信息的相似性。因此,我们选择它来限制输入图像Ir,Iv和输出图像If之间的结构相似性。图5示出了像素策略的示意图。
从形式上讲,Lstructure定义如下

2)Feature-wise Strategy( 特征策略):
为了获得更详细的损失信息,我们考虑采用感知损失进行优化。我们提出了特征策略,该策略基于高性能VGG-19网络评估损失函数L。在这项工作中,我们应用归一化VGG-19模型从Ir,Iv和If中提取分层特征信息。最后,我们利用这个特征空间来计算损失。通常,每个网络层都定义了一个非线性滤波器组,其复杂性和抽象性随着该层在网络中的加深而增加。因此,对于VGG-19卷积神经网络的每个滤波器层,我们通过编码给定的输入图像来获得滤波器在图像中响应的特征图。图像样式转移方法证明了输入图像被转换为对图像的实际内容越来越敏感的表示沿着网络的处理层次结构,从较低层的重建简单地再现原始图像的精确像素值。相反,网络中的高层根据对象及其在输入图像中的排列方式来捕获高级抽象语义内容。因此,我们将输入和融合的图像复制到三个通道中,然后将它们输入VGG-19。我们在最大池化层之前选择卷积层的特征图,以估计结构相似性和强度分布。该策略的过程如下图所示。
浅卷积层的特征图表示纹理和形状细节。相比之下,较高层的特征图主要保留内容和空间结构。因此,浅层特征和深层特征的结合形成了基本信息的全面表示。在深度学习框架中,梯度是一种基于局部空间结构的有效度量,具有较小的感受域,同时在计算和存储方面效率更高。因此,我们将结构相似性约束问题转化为特征策略中梯度信息的维护问题。结构损耗L形式化为:

Lintensity 表示第i个最大池化层之前的卷积层对特征图的强度损失项,强度损失的定义表示为:

PS:Frobenius norm,简称F-范数,是一种矩阵范数,记为||·||F。矩阵A的Frobenius范数定义为矩阵A各项元素的绝对值平方的总和开根,