专利 一种基于深度学习的室内场景单目图像深度估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210251724.8 (22)申请日 2022.03.15 (71)申请人云南师范大学地址 650504 云南省昆明市呈贡区聚贤街 768号 (72)发明人刘佳涛　张亚萍　 (74)专利代理机构昆明明润知识产权代理事务所(普通合伙) 53215 专利代理师王鹏飞 (51)Int.Cl. G06T 7/50(2017.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称一种基于深度学习的室内场景单目图像深度估计方法 (57)摘要本发明涉及一种基于深度学习的室内场景单目图像深度估计方法，属于三维场景感知技术领域。本发明首先引入在I mageNet上作图像分类预训练的神经网络EfficientNet ‑b7，构造编码器，在在编码器的不同阶段上，引入基于SENet的残差连接以及卷积和重采样的计算操作，然后基于深度区间划分的思想，构造一个关注于图像全局到局部的损失函数，应用到不同阶段的预测上，得到在不同阶段的预测，最后使用基于自注意力机制的Transformer结构，将不同阶段预测的深度信息进行融合后输出场景深度预测结果。本发明通过设计一个新型、高效且轻量的解码器，将传统的串行融合编码器不同阶段的特征改进为并行融合，提高了模型进行深度估计时对于图像的全局与局部信息的综合利用能力。权利要求书2页说明书8页附图2页 CN 114638870 A 2022.06.17 CN 114638870 A 1.一种基于深度学习的室内场景单目图像深度估计方法，其特征在于： Step1：引入在ImageNet上作图像分类预训练的神经网络EfficientNet ‑b7，构造编码器； Step2：在编码器的不同阶段上，引入基于SENet的残差连接以及卷积和重采样的计算操作，得到在不同阶段的预测； Step3：基于深度区间划分的方法，构造一个关注于图像全局到局部的损失函数，应用到不同阶段的预测上； Step4：使用基于自注意力机制的Transformer结构，将不同阶段预测的深度信息进行融合后输出场景深度预测结果。 2.根据权利要求1所述的基于深度学习的室内场景单目图像深度估计方法，其特征在于，所述Step1具体为：从互联网上下载好在ImageNet上预训练的EfficientNet ‑b7网络，获得其在第3、 5、 6、 8、 12个块编码的特征向量，这些特征向量的分辨率分别是输入图像分辨率的 3.根据权利要求2所述的基于深度学习的室内场景单目图像深度估计方法，其特征在于，所述Step2具体为： Step2.1：将第3个块编码的特征向量输入到4个基于SENet的残差块中，第5个块编码的特征向量输入到3个基于SENet的残差块中，第6个块编码的特征向量输入到2个基于SENet 的残差块中，第8个块编码的特征向量输入到1个基于SENet的残差块中； Step2.2：在各阶段的最后一个残差块之后添加通道注意力层，并添加一个从编码器到该层的残差连接； Step2.3：将个阶段的特征逐步通过二倍上采样和卷积层，得到五阶段具有相同通道数为30和相同分辨率为输入分辨率一半的特征； Step2.4：将第1、 2、 5阶段的特征逐像素相加融合，第2、 3、 5阶段的特征逐像素相加融合，第1、 3、 4阶段的特征逐像素相加融合，第1、 4、 5阶段的特征逐像素相加融合，然后经过卷积层得到四个预测，按照神经网络的由浅到深标记为预测1到预测4。 4.根据权利要求3述的基于深度学习的室内场景单目图像深度估计方法，其特征在于，所述Step3具体为： Step3.1：从真实深度图中获取最大深度d_max和最小深度d_mi n； Step3.2：将深度区间[d_min， d_max]平均地划分为10个小区间，一个小区间长度的计算公式如下：在这10个区间中，第i个区间的深度值范围计算公式如下： [d_min+(i‑1)×len， d_mi n+i×len] Step3.3：针对真实深度图作直方图，以找到在10个区间内占占场景深度比例最大的区间； Step3.4：根据所占比例将10个深度区间进行降序排列，计算Step2.4中预测1在第5个到第10个区间的均方误差，预测2在第4个到第8个区间的均方误差，预测 3在第2个到第4个权　利　要　求　书 1/2 页 2 CN 114638870 A 2区间的均方误差，预测4在第1个和第2个区间的均方误差； Step3.5：将四部分误差组合，作为模型训练时约束预测1到预测4关注于局部到全局的一项损失项，计算公式如下：其中λ1＝0.5， λ2＝λ3＝0.6， λ4＝1， ni是真实深度图经过区间掩码后像素总数，和分别是真实深度图和预测i中像素点pi的深度值。 5.根据权利要求1所述的基于深度学习的室内场景单目图像深度估计方法，其特征在于，所述Step4具体为： Step4.1：将4阶段的预测结果拼接成一个四通道的张量 Step4.2：将该四通道张量进行卷积核为16 ×16，步长为16，输出通道为4的卷积操作，即： Step4.3：将卷积后得到的二维张量展平为一维，即： Step4.4：将一维张量输入到Transformer Encoder中，并将其输出的一维张量恢复为二维的张量，作为权重矩阵 Step4.5：将四通道张量进行卷积核为3 ×3，步长为1，输出通道为128的卷积操作，得到形状为的张量 Step4.6：权重矩阵与张量进行逐像素点积运算后，通过一系列卷积层输出最终预测结果。权　利　要　求　书 2/2 页 3 CN 114638870 A 3

专利 一种基于深度学习的室内场景单目图像深度估计方法

专利一种基于深度学习的室内场景单目图像深度估计方法