专利 基于金字塔多层级信息融合视频比特深度增强方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210282812.4 (22)申请日 2022.03.22 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人苏育挺　马蕊　刘婧　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师李林娟 (51)Int.Cl. G06T 5/00(2006.01) G06T 7/33(2017.01) G06T 7/55(2017.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/40(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于金字塔多层级信息融合视频比特深度增强方法及装置 (57)摘要本发明公开了一种基于金字塔多层级信息融合视频比特深度增强方法及装置，方法包括：输入连续的零填充低比特深度视频帧，通过特征对齐模块将相邻帧与目标帧进行对齐，生成对齐特征；将对齐后的特征输入金字塔特征提取融合模块中，提取多层级的时空特征，并进行残差融合；将融合后的时空特征送入重建高比特深度模块中，输出预测残差图，最后与输入的零填充低比特深度目标帧图像相加获取重建后的高比特深度目标帧图像；用真实的高比特深度目标帧图像减去输入的零填充低比特目标帧图像得到真实残差图，将网络预测残差图和真实残差图之间的均方误差作为损失函数。装置包括：处理器和存储器。本发明提高了重建出的高比特深度目标帧质量。权利要求书1页说明书9页附图4页 CN 114663306 A 2022.06.24 CN 114663306 A 1.一种基于金字塔多层级信息融合视频比特深度增强方法，其特征在于，所述方法包括：输入连续的零填充低比特深度视频帧，通过特征对齐模块将相邻帧与目标帧进行对齐，生成对齐特征；将对齐后的特征输入金字塔特征提取融合模块中，提取多层级的时空特征，并进行残差融合；将融合后的时空特征送入重建高比特深度模块中，输出预测残差图，最后与输入的零填充低比特深度目标帧图像相加获取重建后的高比特深度目标帧图像；用真实的高比特深度目标帧图像减去输入的零填充低比特目标帧图像得到真实残差图，将网络预测残差图和真实残差图之间的均方误差作为损失函数。 2.根据权利要求1所述的一种基于金字塔多层级信息融合视频比特深度增强方法，其特征在于，所述特征对齐模块为：两层变形卷积构成的隐式对齐操作，将输入的低比特深度的相邻帧与目标帧做卷积得到对应的特征图ft+i和ft，通过拼接操作送入两个卷积层得到初步偏移特征将初步偏移特征和相邻帧特征图ft+i一同送入变形卷积得到初步对齐特征再将初步对齐特征和目标帧特征图ft继续进行拼接得到最终偏移特征将最终偏移特征和初步对齐特征送入第二层变形卷积，得到最终对齐特征 3.根据权利要求1所述的一种基于金字塔多层级信息融合视频比特深度增强方法，其特征在于，所述金字塔特征提取融合模块包括：提取部分：将输入的低比特深度特征图分别与目标帧特征图进行对齐后，按照通道维度拼接为对齐特征块；将对齐特征块进行两次步长为2的跨步卷积操作分别得到两个下采样倍数的特征块，将三个不同尺度的层级特征块送入共享密集单元提取时空信息特征；融合部分：将每帧的对齐特征图送进残差单元后，再与提取到的时空特征图拼接，再与原来的对齐特征图相加得到融合后的时空信息特征。 4.根据权利要求1所述的一种基于金字塔多层级信息融合视频比特深度增强方法，其特征在于，所述共享密集单元由三个相同的残差单元级联构成，每个残差单元内部有两个卷积单元，将提取到的特征通过转置卷积进行上采样回到初始尺度得到最后的时空特征图。 5.一种基于金字塔多层级信息融合视频比特深度增强装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1 ‑4中的任一项所述的方法步骤。 6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1‑4中的任一项所述的方法步骤。权　利　要　求　书 1/1 页 2 CN 114663306 A 2基于金字塔多层级信息融合视频比特深度增强方法及装置技术领域 [0001]本发明涉及视频比特深度增强领域，尤其涉及一种基于金字塔多层级信息融合视频比特深度增强方法及装置。背景技术 [0002]为了满足人们追求高质量视觉体验的需求，比特深度增强领域起着决定性的作用。传统标准动态范围(SDR)图像都是采用8比特表示通道中每个位置的像素值。图像中每个通道的比特深度越大，能表示的亮度范围和颜色范围也就越广，在视觉上的主观质量越高。因此，高比特深度的图像或者视频帧相对于其对应的低比特深度内容来说，可以拥有更丰富的颜色过渡更加自然，间接地提高了人类的视觉体验。 [0003]比特深度增强可以看作是对图像的反量化操作。通过输入低比特深度的图像或者视频帧重建出对应的高比特深度的图像或者视频帧。现有的方法大多数都是基于图像的比特深度增强方法，对于传统方法来说有最小风险分类算法(Minimum Risk based Classification， MRC)[1]和基于强度势场的自适应反量化算法(Inten sity Potential for Adaptive De‑quantization， IPAD)[2]；对于深度学习方法来说有基于卷积神经网络算法 (Bit‑Depth Enhancement via Convolutional Neural Network,BE ‑CNN)[3]和基于轻量级残差网络算法(Lighter but Efficient Bit‑Depth Expansion Network， LBDEN)[4]。基于图像的算法仅仅利用了空间信息，然而对于连续的视频序列，除了空间信息以外还有帧与帧之间的时间信息需要考虑。目前，基于视频的比特深度增强算法较少，例如：基于 “编码‑ 解码”结构算法(Spatiotemporal Symmetric Convolutional Neural Network for Video Bit‑Depth Enhancement， S SCNN)[5]。 [0004]对于视频比特深度增强方法，帧间信息的对齐尤为重要，通过对齐可以减少帧间的冗余信息，减少帧间抖动失真。除此之外还需要考虑比特深度增强中的一些特殊失真，例如：伪轮廓失真和色彩畸变。因此，视频比特深度增强方法需要利用相邻帧之间的时空信息重建出高质量的高比特深度视频序列。发明内容 [0005]本发明提供了一种基于金字塔多层级信息融合视频比特深度增强方法及装置，本发明构造了特征对齐和金字塔特征提取模块，在特征对齐模块中，利用变形卷积隐式地对相邻帧和目标帧的帧间信息进行对齐操作，减少帧间冗余信息和帧间抖动现象；在金字塔特征提取融合模块中，利用卷积步长为2的跨步卷积对特征块进行上采样，在还原特征块尺度进行下采样时采用相同步长为2的转置卷积(即卷积的逆过程)，并结合共享密集模块充分挖掘时空信息，本发明提高了重建出的高比特深度目标帧质量，详见下文描述： [0006]第一方面，一种基于金字塔多层级信息融合视频比特深度增强方法，所述方法包括： [0007]输入连续的零填充低比特深度视频帧，通过特征对齐模块将相邻帧与目标帧进行说　明　书 1/9 页 3 CN 114663306 A 3

专利 基于金字塔多层级信息融合视频比特深度增强方法及装置

专利基于金字塔多层级信息融合视频比特深度增强方法及装置