专利 一种基于多模式特征的红外与可见光图像融合方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210244332.9 (22)申请日 2022.03.14 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人刘向增　高豪杰　苗启广　宋建锋　纪建　 (74)专利代理机构西安恒泰知识产权代理事务所 61216 专利代理师李郑建 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/46(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于多模式特征的红外与可见光图像融合方法 (57)摘要本发明公开了一种基于多模式特征的红外和可见光图像融合方法，包括： 1.提取多模式特征的编码器 ‑解码器网络， 2.使用熵、梯度和显著性对多模式特征进行度量并设计自适应loss函数， 3.构建嵌入Transformer融合策略的融合权重学习模型， 4.将红外图像的显著性图作为 label，加入该label作为融合网络优化的区域选择， 5.将所述嵌入Transformer融合策略的融合权重学习模型与编码器解码器级联，构建红外与可见光图像融合网络并训练。该方法利用 Transformer捕获多尺度特征的全局关联性，兼顾局部与全局信息，提升融合图像整体视觉效果；利用多模式自适应融合策略，保留图像多模式特征信息，提高融合图像的质量。权利要求书3页说明书8页附图3页 CN 114639002 A 2022.06.17 CN 114639002 A 1.一种基于多模式特征的红外与可见光图像融合方法，其特征在于，包括以下步骤：步骤1，构建特征提取和图像重构网络，基于多尺度卷积网络，通过loss函数的的引导，优化生成一个多模式特征编码器 ‑解码器网络；步骤2，通过所述编码器 ‑解码器网络提取红外与可见光多模式特征，使用熵、梯度和显著性对所述多模式特征进行度量，并设计多模式自适应l oss。步骤3，构建嵌入Transformer融合策略的融合权重学习模型，并为所述融合模型的权重赋值；步骤4，获取红外图像的显著性图作为l abel，加入显著性label作为融合网络优化的区域选择；步骤5，将所述嵌入Transformer融合策略的融合权重学习模型与编码器解码器级联，构建红外与可见光图像融合网络，并采用所述显著性label和多模式loss对所述红外与可见光图像融合网络进行训练。 2.如权利要求1所述的方法，其特征在于，步骤1中所述编码器的结构包含： 1个1 ×1卷积层和4个编码卷积模块ECB10、 ECB 20、 ECB30和ECB40，每个编码卷积模块包含2 个3×3卷积层和一个最大池化层；步骤1中所述解码器的结构包含： 1个1 ×1卷积层和6个解码卷积模块DCB30、 DCB20、 DCB21、 DCB10、 DCB1 1和DCB12，每个解码卷积模块包含两个3×3卷积层。 3.如权利要求1所述的方法，其特征在于，步骤1中所述解码器网络具体连接方式如下：在第一、第二尺度中采用横向密集跳转连接，采用通道连接方式，将第二尺度的最终融合特征跳转连接到DBC21的输入，将第一尺度的最终融合特征跳转连接到DCB11和DCB12的输入，将DCB10的输出跳转连接到DCB12的输入；通过横向密集跳转连接，所有中间层的深度特征都被用于特征重构，提高多尺度深度特征的重构能力；在解码子网络中，在所有尺度中建立纵向密集连接，采用上采样方式，将第四尺度的最终融合特征连接到DCB30的输入，第三尺度的最终融合特征连接到DCB20的输入，第二尺度的最终融合特征连接到DCB10的输入，将 DCB30的输出连接到DCB21的输入， DCB20的输出连接到DCB11的输入， DCB21的输出连接到 DCB12的输入，通过纵向密集上采样连接，所有尺度特征被用于特征重构，进一步提高多尺度深度特征的重构能力。 4.如权利要求1所述的方法，其特征在于：编码器 ‑解码器网络的loss函数LED，其为输入图像与输出图像之间的像素一致性和结构相似性，如公式(1)所示： LED＝Lp+β Lssin (1) 其中Lp为像素一致性loss， Lssin为结构相似性 loss；像素一致性lossLp如公式(2)所示：结构相似性 lossLssin如公式(3)所示： Lssim＝1‑ssim(O， I) (3) 其中， O为网络输出图像， I 为输入图像。 5.如权利要求1所述的方法，其特征在于，步骤2中所述使用熵、梯度和显著性对所述多模式特征进行度量包含以下步骤：权　利　要　求　书 1/3 页 2 CN 114639002 A 2步骤2.1，计算所述编码器输出的特征的熵，比较各个尺度特征的熵值，熵最高的特征包含最多的内容与细节，将其归类为内容特征；步骤2.2，使用Sobel梯度算子计算所述编码器输入图像的梯度，将该梯度进行下采样后与各特征做差，并求均值，所得均值最小的特征包含更多的轮廓、边缘等结构性特征，将其归类为边缘结构性特征；步骤2.3，使用显著性提取算法计算所述编码器输入图像的显著性图，将该显著性图进行下采样后与各特征做差，并求均值，所得均值最小的特征对前景目标与背景有一定的区分，将其归类斑块特征。 6.如权利要求1所述的方法，其特征在于：步骤2中所述多模式自适应loss函数包含内容loss，相关性 loss和类显著性 loss，如公式(4)所示： Lfea＝Lcon+λLcorr+ρ Lsil‑l (4) 其中， Lcon为内容loss， Lcorr为相关性loss， Lsil‑l为类显著性loss， λ和ρ 为超参数，用于平衡三个l oss的权重；内容lossLcon增强对特征的融合，如公式(5)所示：其中， wir和wvi为自适应权重， wvi＝1‑wir；相关性lossLcorr增强对边缘结构性特征的融合，如公式(6)所示：其中， cov( ·)为协方差函数， σ 为标准差函数。类显著性 lossLsal‑l增强对斑块特征的融合，如公式(7)所示：其中， Φir为红外特征， Φvi为可见光特征， Φf为将红外和可见光特征通过融合网络融合后的特征， Mir和Mvi为去除特征中噪声的Mask，如公式(8)和(9)所示：其中， θ 为常数。 7.权利要求1所述的方法，其特征在于，步骤3中所述的融合网络结构如下：包含4个 Transformer模块，每个Transformer模块由2个1 ×1卷积层和1个Focal Transformer模块组成；第1个卷积层调整特征通道， Focal Transformer模块结合局部与全局信息对特征进权　利　要　求　书 2/3 页 3 CN 114639002 A 3

专利 一种基于多模式特征的红外与可见光图像融合方法

专利一种基于多模式特征的红外与可见光图像融合方法