安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210251724.8 (22)申请日 2022.03.15 (71)申请人 云南师范大学 地址 650504 云南省昆明市呈贡区 聚贤街 768号 (72)发明人 刘佳涛 张亚萍  (74)专利代理 机构 昆明明润知识产权代理事务 所(普通合伙) 53215 专利代理师 王鹏飞 (51)Int.Cl. G06T 7/50(2017.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称 一种基于深度学习的室内场景单目图像深 度估计方法 (57)摘要 本发明涉及一种基于深度学习的室内场景 单目图像深度估计方法, 属于三维场景感知技术 领域。 本发明首先引入在I mageNet上作图像分类 预训练的神 经网络EfficientNet ‑b7, 构造编码 器, 在在编码器的不同阶段上, 引入基于SENet的 残差连接以及卷积和重采样的计算操作, 然后基 于深度区间划分的思想, 构造一个 关注于图像全 局到局部的损失函数, 应用到不同阶段的预测 上, 得到在不同阶段的预测, 最后使用基于自注 意力机制的Transformer结构, 将不 同阶段预测 的深度信息进行融合后输出场景深度预测结果。 本发明通过设计一个新型、 高效且轻量的解码 器, 将传统的串行融合编码器不同阶段的特征改 进为并行融合, 提高了模型进行深度估计时对于 图像的全局与局部信息的综合利用能力。 权利要求书2页 说明书8页 附图2页 CN 114638870 A 2022.06.17 CN 114638870 A 1.一种基于深度学习的室内场景 单目图像深度估计方法, 其特 征在于: Step1: 引入在ImageNet上作图像分类预训练的神经网络EfficientNet ‑b7, 构造编码 器; Step2: 在编码器的不同阶段上, 引入基于SENet的残差连接以及卷积和重采样的计算 操作, 得到在不同阶段的预测; Step3: 基于深度 区间划分的方法, 构造一个关注于图像全局到局部的损失函数, 应用 到不同阶段的预测上; Step4: 使用基于自注意力机制的Transformer结构, 将不同阶段预测的深度信息进行 融合后输出场景深度预测结果。 2.根据权利要求1所述的基于深度学习的室内场景单目图像深度估计方法, 其特征在 于, 所述Step1具体为: 从互联网上下载好在ImageNet上预训练的EfficientNet ‑b7网络, 获 得其在第3、 5、 6、 8、 12个块编码的特征向量, 这些特征向量的分辨率分别是输入图像 分辨率 的 3.根据权利要求2所述的基于深度学习的室内场景单目图像深度估计方法, 其特征在 于, 所述Step2具体为: Step2.1: 将第3个块编码的特征向量输入到4个基于SENet的残差块 中, 第5个块编码的 特征向量输入到3个基于SENet的残差块中, 第6个块编码的特征向量输入到2个基于SENet 的残差块中, 第8个块编码的特 征向量输入到1个 基于SENet的残差块中; Step2.2: 在各阶段的最后一个残差块之后添加通道注意力层, 并添加一个从编码器到 该层的残差连接; Step2.3: 将个阶段的特征逐步通过二倍上采样和卷积层, 得到五阶段具有相同通道数 为30和相同分辨 率为输入分辨 率一半的特 征; Step2.4: 将第1、 2、 5阶段的特征逐像素相加融合, 第2、 3、 5阶段的特征逐像素相加融 合, 第1、 3、 4阶段的特征逐像素相加融合, 第1、 4、 5阶段的特征逐像素相加融合, 然后经过卷 积层得到四个预测, 按照神经网络的 由浅到深标记为预测1到预测4。 4.根据权利要求3述的基于深度 学习的室内场景单目图像深度估计方法, 其特征在于, 所述Step3具体为: Step3.1: 从真实深度图中获取最大深度d_max和最小深度d_mi n; Step3.2: 将深度区间[d_min, d_max]平均地划分为10个小区间, 一个小区间长度的计 算公式如下: 在这10个区间中, 第i个区间的深度值范围计算公式如下: [d_min+(i‑1)×len, d_mi n+i×len] Step3.3: 针对真实深度图作 直方图, 以找到在10个区间内占占场景深度比例最大的区 间; Step3.4: 根据所占比例将10个深度区间进行降序排列, 计算Step2.4中预测1在第5个 到第10个区间的均方误差, 预测2在第4个到第8个区间的均方误差, 预测 3在第2个到第4个权 利 要 求 书 1/2 页 2 CN 114638870 A 2区间的均方误差, 预测4在第1个和第2个区间的均方误差; Step3.5: 将四部分误差组合, 作为模型训练时约束预测1到预测4关注于局部到全局的 一项损失项, 计算公式如下: 其中λ1=0.5, λ2=λ3=0.6, λ4=1, ni是真实深度图经过区间掩码后像素总数, 和 分别是真实深度图和预测i中像素点pi的深度值。 5.根据权利要求1所述的基于深度学习的室内场景单目图像深度估计方法, 其特征在 于, 所述Step4具体为: Step4.1: 将4阶段的预测结果 拼接成一个四通道的张量 Step4.2: 将该四通道张量 进行卷积核为16 ×16, 步长为16, 输出通道为4的卷积操作, 即: Step4.3: 将卷积后得到的二维张量展平为 一维, 即: Step4.4: 将一维张量输入到Transformer  Encoder中, 并将其输出的一维张量恢复为 二维的张量, 作为权 重矩阵 Step4.5: 将四通道 张量 进行卷积核为3 ×3, 步长为1, 输出通道为128的卷积操作, 得 到形状为 的张量 Step4.6: 权重矩阵 与张量 进行逐像素点积运算后, 通过一系列卷积层输出最终预 测结果。权 利 要 求 书 2/2 页 3 CN 114638870 A 3

.PDF文档 专利 一种基于深度学习的室内场景单目图像深度估计方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的室内场景单目图像深度估计方法 第 1 页 专利 一种基于深度学习的室内场景单目图像深度估计方法 第 2 页 专利 一种基于深度学习的室内场景单目图像深度估计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。