(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221026847 7.2
(22)申请日 2022.03.18
(71)申请人 上海应用技 术大学
地址 201418 上海市奉贤区海泉路10 0号
(72)发明人 李琦 戴蒙 史悦
(74)专利代理 机构 北京奥肯律师事务所 1 1881
专利代理师 张奔
(51)Int.Cl.
G06V 10/25(2022.01)
G06V 10/56(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于全 卷积神经网络的RGB-D显著性检
测方法
(57)摘要
本发明公开了一种基于全卷积神经网络的
RGB‑D显著性检测方法。 通过端到端的全卷积神
经网络可以实现任意尺度图片的显著性检测, 这
是运用深度学习实现计算机视觉相关技术的一
种有效方法。 提出的方法主要包括使用多尺度卷
积与注意力机制解决在跨模态融合过程中低质
量深度图对 特征融合的干扰, 为了获取更丰富的
全局信息, 在顶层使用了一个全局信息感知融合
模块。 在其他层使用新的融合策略进行跨模态融
合, 同时在最低层中对前四层特征进行整合并加
以利用来进行最终结果的预测。 通过上述方式,
本发明能够有效过滤掉深度信息中的冗余信息,
对前四层特征的有效整合使得在最底层的融合
过程中可以利用到更多更有效的全局信息与局
部信息。
权利要求书1页 说明书3页 附图5页
CN 114663649 A
2022.06.24
CN 114663649 A
1.一种基于全卷积神经网络的RGB ‑D显著性检测方法, 其特 征在于包括以下步骤:
S1: 输入彩色图与深度图;
S2: 通过两个相同的VG G‑16作为骨干网络提取彩色图特 征与深度图特 征;
S3: 将主干网络按照块分成五个层次, 整个网络自顶向下进行跨模态融合;
S4: 对每一层主干网络所提取到的深度图进行深度增强操作;
S5: 在第五层使用全局信息感知融合模块对提取到的RGB特征与增 强后的深度特征进
行融合并进行侧输出;
S6: 在第二层与第三层、 第四层使用特征融合模块对提取到的RGB 特征与增强后的深度
特征进行融合并进行侧输出;
S7: 在第一层使用加权整合的方式对之前层侧输出进行再处理并进行跨模态融合, 其
结果作为 最终预测结果。
2.根据权利要求1所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法, 其特征在
于S4采用多尺度方式对深度图进行增强, 具体方法如下:
将主干网络提取到的深度特征在每一层 分别进行两次不同膨胀率的空洞卷积, 将第 一
次空洞卷积所得到的特征结果依次进 行空间注意力操作与通道注意力操作。 将第一次空洞
卷积经过两次注意力操作的结果与第二次空洞卷积结果进 行像素相加, 之后同样依次进 行
空间注意力操作 与通道注意力操作。
3.根据权利要求1所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法, 其特征在
于全局感知模块更注重提取并融合全局信息, 所述 步骤S5具体如下:
主干网络提取到的RGB特征与增强后的深度特征进行跨模态融合, 首先分别将两种特
征分别进行三次连续的以3*3为大小的卷积核的卷积操作, 第二次卷积结果与第三次卷积
结果进行像素级相加操作。 将这两个经过连续卷积操作的特征进 行通道串联。 之后, 再进 行
一次通道 注意力操作。 最终, 将结果反馈 到下一层并且此 结果会作为该层侧输出。
4.根据权利要求1所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法, 其特征在
于特征融合模块采用新的方法对跨模态特 征进行融合, 所述 步骤S6具体如下:
主干网络提取到的RGB特征与增强后的深度特征进行跨模态融合, 首先将两种特征直
接串联并与上一层反馈进行像素级相加。 之后, 对特征进行空间注意力操作与通道注意力
操作。 再对主干网络提取到的RGB特征与增强后的深度特征分别进 行两次卷积操作, 两个特
征结果与之前串联后经过注意力操作的结果进行像素级相加, 其结果将作为该层侧输出并
传递到下一层。
5.如权利要求1中所述的一种基于全卷积神经网络的RGB ‑D显著性检测方法, 其特征在
于对之前四层侧输出 赋予不同权值进行加权整合, 所述S7步骤 包括以下步骤:
将四层的侧输出进行1*1卷积, 将四个侧输出结果的通道数都卷积到一个, 再将这 四个
一维通道特征进 行串联并进行一次通道全局最大池化。 将池化结果作为加权数分别赋予四
层侧输出不同权重, 最后对赋权后的四个侧输出进行通道串联并进行1*1卷积对通道数进
行适配。 加权处理后的融合特征作为第一层的上层反馈特征与第一层RGB特征和第一层加
强后的深度特 征进行一次与S6相同的融合操作。权 利 要 求 书 1/1 页
2
CN 114663649 A
2一种基于全卷积神经 网络的RGB‑D显著性检测方 法
技术领域
[0001]本发明涉及计算机视觉领域, 特别是涉及一种基于全卷积神经网络的RGB ‑D显著
性检测。
背景技术
[0002]不论在多么复杂的场景下, 人类的眼球总是能捕捉到整个场景中最显眼的物体或
者区域。 之后, 人类通过大脑对视觉捕捉到的信息进 行再处理, 人类即可获取感知到包含更
多细节的信息内容。 人类的这种机制引起了认知科学家们极大的兴趣, 随着技术的发展, 研
究人员想将人类的这种能力赋予到计算机中。 一旦计算机具有了感知显著区域的能力, 那
么计算机就也具备了解决复杂场景下 的视觉问题, 如目标 的追踪、 物体的检测和图像的编
辑等等。 因此, 显著性目标检测是目前一个非常火热的研究领域。
[0003]目前已有的基于深度学习的显著性检测主要分为两类: 1)基于RGB图像进行检测
的方法; 2)基于RGB与Depth进行检测的方法。 方法1)由于缺少深度信息, 在复杂场景下检测
效果大多较差; 方法2)需要考虑低质量深度图特 征信息以及 如何高效融合 跨模态信息 。
发明内容
[0004]本发明主要解决的技术问题是提供一种基于全卷积神经 网络的RGB ‑D显著性检测
方法, 利用深度增强过滤冗余的深度信息, 对全局信息有针对性地进行处理并高效融合跨
模态特征。 通过加权处理相关侧输出实现在预测最终结果时对全局信息与局部信息的充分
运用。
[0005]为解决上述技术问题, 本发明采用的一个技术方案是: 一种基于全卷积神经网络
的RGB‑D显著性检测, 属于计算机 视觉领域。 其特 征在于, 包括以下步骤:
[0006]S1: 输入彩色图与深度图;
[0007]S2: 通过两个相同的VG G‑16作为骨干网络提取彩色图特 征与深度图特 征;
[0008]S3: 将主干网络按照块分成五个层次, 整个网络自顶向下进行跨模态融合;
[0009]S4: 对每一层主干网络所提取到的深度图进行深度增强操作;
[0010]S5: 在第五层使用全局信息感知融合模块对提取到的RGB特征与增强后的深度特
征进行融合并进行侧输出;
[0011]S6: 在第二层与第三层、 第四层使用特征融合模块对提取到的RGB特征与增强后的
深度特征进行融合并进行侧输出;
[0012]S7: 在第一层使用加权整合的方式对之前层侧输出进行再处理并进行跨模态融
合, 其结果作为 最终预测结果。
[0013]根据本方法的一个实施例: 所述步骤S4包括以下步骤: 下面对本发明中的技术方
案阐述如下:
[0014]将主干网络提取到的深度特征在每一层分别进行两次不同膨胀率的空洞卷积, 将
第一次空洞卷积所得到的特征结果依次进 行空间注意力操作与通道注意力操作。 将第一次说 明 书 1/3 页
3
CN 114663649 A
3
专利 一种基于全卷积神经网络的RGB-D显著性检测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:16:06上传分享