专利 一种基于全卷积神经网络的RGB-D显著性检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221026847 7.2 (22)申请日 2022.03.18 (71)申请人上海应用技术大学地址 201418 上海市奉贤区海泉路10 0号 (72)发明人李琦　戴蒙　史悦　 (74)专利代理机构北京奥肯律师事务所 1 1881 专利代理师张奔 (51)Int.Cl. G06V 10/25(2022.01) G06V 10/56(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称一种基于全卷积神经网络的RGB-D显著性检测方法 (57)摘要本发明公开了一种基于全卷积神经网络的 RGB‑D显著性检测方法。通过端到端的全卷积神经网络可以实现任意尺度图片的显著性检测，这是运用深度学习实现计算机视觉相关技术的一种有效方法。提出的方法主要包括使用多尺度卷积与注意力机制解决在跨模态融合过程中低质量深度图对特征融合的干扰，为了获取更丰富的全局信息，在顶层使用了一个全局信息感知融合模块。在其他层使用新的融合策略进行跨模态融合，同时在最低层中对前四层特征进行整合并加以利用来进行最终结果的预测。通过上述方式，本发明能够有效过滤掉深度信息中的冗余信息，对前四层特征的有效整合使得在最底层的融合过程中可以利用到更多更有效的全局信息与局部信息。权利要求书1页说明书3页附图5页 CN 114663649 A 2022.06.24 CN 114663649 A 1.一种基于全卷积神经网络的RGB ‑D显著性检测方法，其特征在于包括以下步骤： S1：输入彩色图与深度图； S2：通过两个相同的VG G‑16作为骨干网络提取彩色图特征与深度图特征； S3：将主干网络按照块分成五个层次，整个网络自顶向下进行跨模态融合； S4：对每一层主干网络所提取到的深度图进行深度增强操作； S5：在第五层使用全局信息感知融合模块对提取到的RGB特征与增强后的深度特征进行融合并进行侧输出； S6：在第二层与第三层、第四层使用特征融合模块对提取到的RGB 特征与增强后的深度特征进行融合并进行侧输出； S7：在第一层使用加权整合的方式对之前层侧输出进行再处理并进行跨模态融合，其结果作为最终预测结果。 2.根据权利要求1所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法，其特征在于S4采用多尺度方式对深度图进行增强，具体方法如下：将主干网络提取到的深度特征在每一层分别进行两次不同膨胀率的空洞卷积，将第一次空洞卷积所得到的特征结果依次进行空间注意力操作与通道注意力操作。将第一次空洞卷积经过两次注意力操作的结果与第二次空洞卷积结果进行像素相加，之后同样依次进行空间注意力操作与通道注意力操作。 3.根据权利要求1所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法，其特征在于全局感知模块更注重提取并融合全局信息，所述步骤S5具体如下：主干网络提取到的RGB特征与增强后的深度特征进行跨模态融合，首先分别将两种特征分别进行三次连续的以3*3为大小的卷积核的卷积操作，第二次卷积结果与第三次卷积结果进行像素级相加操作。将这两个经过连续卷积操作的特征进行通道串联。之后，再进行一次通道注意力操作。最终，将结果反馈到下一层并且此结果会作为该层侧输出。 4.根据权利要求1所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法，其特征在于特征融合模块采用新的方法对跨模态特征进行融合，所述步骤S6具体如下：主干网络提取到的RGB特征与增强后的深度特征进行跨模态融合，首先将两种特征直接串联并与上一层反馈进行像素级相加。之后，对特征进行空间注意力操作与通道注意力操作。再对主干网络提取到的RGB特征与增强后的深度特征分别进行两次卷积操作，两个特征结果与之前串联后经过注意力操作的结果进行像素级相加，其结果将作为该层侧输出并传递到下一层。 5.如权利要求1中所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法，其特征在于对之前四层侧输出赋予不同权值进行加权整合，所述S7步骤包括以下步骤：将四层的侧输出进行1*1卷积，将四个侧输出结果的通道数都卷积到一个，再将这四个一维通道特征进行串联并进行一次通道全局最大池化。将池化结果作为加权数分别赋予四层侧输出不同权重，最后对赋权后的四个侧输出进行通道串联并进行1*1卷积对通道数进行适配。加权处理后的融合特征作为第一层的上层反馈特征与第一层RGB特征和第一层加强后的深度特征进行一次与S6相同的融合操作。权　利　要　求　书 1/1 页 2 CN 114663649 A 2一种基于全卷积神经网络的RGB‑D显著性检测方法技术领域 [0001]本发明涉及计算机视觉领域，特别是涉及一种基于全卷积神经网络的RGB ‑D显著性检测。背景技术 [0002]不论在多么复杂的场景下，人类的眼球总是能捕捉到整个场景中最显眼的物体或者区域。之后，人类通过大脑对视觉捕捉到的信息进行再处理，人类即可获取感知到包含更多细节的信息内容。人类的这种机制引起了认知科学家们极大的兴趣，随着技术的发展，研究人员想将人类的这种能力赋予到计算机中。一旦计算机具有了感知显著区域的能力，那么计算机就也具备了解决复杂场景下的视觉问题，如目标的追踪、物体的检测和图像的编辑等等。因此，显著性目标检测是目前一个非常火热的研究领域。 [0003]目前已有的基于深度学习的显著性检测主要分为两类： 1)基于RGB图像进行检测的方法； 2)基于RGB与Depth进行检测的方法。方法1)由于缺少深度信息，在复杂场景下检测效果大多较差；方法2)需要考虑低质量深度图特征信息以及如何高效融合跨模态信息。发明内容 [0004]本发明主要解决的技术问题是提供一种基于全卷积神经网络的RGB ‑D显著性检测方法，利用深度增强过滤冗余的深度信息，对全局信息有针对性地进行处理并高效融合跨模态特征。通过加权处理相关侧输出实现在预测最终结果时对全局信息与局部信息的充分运用。 [0005]为解决上述技术问题，本发明采用的一个技术方案是：一种基于全卷积神经网络的RGB‑D显著性检测，属于计算机视觉领域。其特征在于，包括以下步骤： [0006]S1：输入彩色图与深度图； [0007]S2：通过两个相同的VG G‑16作为骨干网络提取彩色图特征与深度图特征； [0008]S3：将主干网络按照块分成五个层次，整个网络自顶向下进行跨模态融合； [0009]S4：对每一层主干网络所提取到的深度图进行深度增强操作； [0010]S5：在第五层使用全局信息感知融合模块对提取到的RGB特征与增强后的深度特征进行融合并进行侧输出； [0011]S6：在第二层与第三层、第四层使用特征融合模块对提取到的RGB特征与增强后的深度特征进行融合并进行侧输出； [0012]S7：在第一层使用加权整合的方式对之前层侧输出进行再处理并进行跨模态融合，其结果作为最终预测结果。 [0013]根据本方法的一个实施例：所述步骤S4包括以下步骤：下面对本发明中的技术方案阐述如下： [0014]将主干网络提取到的深度特征在每一层分别进行两次不同膨胀率的空洞卷积，将第一次空洞卷积所得到的特征结果依次进行空间注意力操作与通道注意力操作。将第一次说　明　书 1/3 页 3 CN 114663649 A 3

专利 一种基于全卷积神经网络的RGB-D显著性检测方法

专利一种基于全卷积神经网络的RGB-D显著性检测方法