(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210282812.4
(22)申请日 2022.03.22
(71)申请人 天津大学
地址 300072 天津市南 开区卫津路9 2号
(72)发明人 苏育挺 马蕊 刘婧
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 李林娟
(51)Int.Cl.
G06T 5/00(2006.01)
G06T 7/33(2017.01)
G06T 7/55(2017.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 10/40(2022.01)
G06V 10/62(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于金字塔多层级信息融合视频比特深度
增强方法及装置
(57)摘要
本发明公开了一种基于金字塔多层级信息
融合视频比特深度增强方法及装置, 方法包括:
输入连续的零填充低比特深度视频帧, 通过特征
对齐模块将相邻帧与目标帧进行对齐, 生成对齐
特征; 将对齐后的特征输入金字塔特征提取融合
模块中, 提取多层级的时空特征, 并进行残差融
合; 将融合后的时空特征送入重建高比特深度模
块中, 输出预测残差图, 最后与输入的零填充低
比特深度目标帧图像相加获取重建后的高 比特
深度目标帧图像; 用真实的高比特深度目标帧图
像减去输入的零填充低比特目标帧图像得到真
实残差图, 将网络预测残差图和真实残差图之间
的均方误差作为损失函数。 装置包括: 处理器和
存储器。 本发 明提高了重建出的高比特深度目标
帧质量。
权利要求书1页 说明书9页 附图4页
CN 114663306 A
2022.06.24
CN 114663306 A
1.一种基于金字塔多层级信息融合视频比特深度增强方法, 其特征在于, 所述方法包
括:
输入连续的零填充低比特深度视频帧, 通过特征对齐模块将相邻帧与目标帧进行对
齐, 生成对齐特 征;
将对齐后的特征输入金字塔特征提取融合模块中, 提取多层级的时空特征, 并进行残
差融合;
将融合后的时空特征送入重建高比特深度模块中, 输出预测残差 图, 最后与输入的零
填充低比特深度目标帧图像相加获取重建后的高比特深度目标帧图像;
用真实的高比特深度目标帧图像减去输入的零填充低比特目标帧图像得到真实残差
图, 将网络预测残差图和真实残差图之间的均方误差作为损失函数。
2.根据权利要求1所述的一种基于金字塔多层级信息融合视频比特深度增强方法, 其
特征在于, 所述特 征对齐模块 为: 两层变形 卷积构成的隐式对齐操作,
将输入的低比特深度的相邻帧与目标帧做卷积得到对应的特征图ft+i和ft, 通过拼接操
作送入两个卷积层得到初步偏移特征
将初步偏移特征
和相邻帧特征图ft+i一
同送入变形 卷积得到初步对齐特 征
再将初步对齐特征
和目标帧特征图ft继续进行拼接得到最终偏移特征
将
最终偏移特 征
和初步对齐特 征
送入第二层变形 卷积, 得到最终对齐特 征
3.根据权利要求1所述的一种基于金字塔多层级信息融合视频比特深度增强方法, 其
特征在于, 所述金字塔特 征提取融合模块包括:
提取部分: 将输入的低比特深度特征图分别与目标帧特征图进行对齐后, 按照通道维
度拼接为对齐特征块; 将对齐特征块进行两次步长为2的跨步卷积操作分别得到两个下采
样倍数的特 征块, 将三个不同尺度的层级特 征块送入 共享密集单 元提取时空信息特 征;
融合部分: 将每帧的对齐特征图送进残差单元后, 再与提取到的时空特征图拼接, 再与
原来的对齐特 征图相加得到融合后的时空信息特 征。
4.根据权利要求1所述的一种基于金字塔多层级信息融合视频比特深度增强方法, 其
特征在于, 所述共享密集单元 由三个相同的残差单元级联构成, 每个残差单元内部有两个
卷积单元, 将提取到的特征通过转置卷积进行上采样回到初始尺度得到最后的时空特征
图。
5.一种基于金字塔多层级信息融合视频比特深度增强装置, 其特征在于, 所述装置包
括: 处理器和存储器, 所述存储器中存储有程序指 令, 所述处理器调用存储器中存储的程序
指令以使装置执 行权利要求1 ‑4中的任一项所述的方法步骤。
6.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程
序, 所述计算机程序包括程序指令, 所述程序指令被处理器执行时使所述处理器执行权利
要求1‑4中的任一项所述的方法步骤。权 利 要 求 书 1/1 页
2
CN 114663306 A
2基于金字塔多层级信息融合 视频比特深度增强方 法及装置
技术领域
[0001]本发明涉及视频比特深度增强领域, 尤其涉及一种基于金字塔多层级信息融合视
频比特深度增强方法及装置 。
背景技术
[0002]为了满足人们追求高质量视觉体验的需求, 比特深度增强领域起着决定性的作
用。 传统标准动态范围(SDR)图像都是采用8比特表示通道中每个位置的像素值。 图像中每
个通道的比特深度越大, 能表示的亮度范围和颜色范围也就越广, 在视觉上 的主观质量越
高。 因此, 高比特深度的图像或者视频帧相对于其对应的低比特深度内容来说, 可以拥有 更
丰富的颜色过渡更加自然, 间接地 提高了人类的视 觉体验。
[0003]比特深度增强可以看作是对图像的反量化操作。 通过输入低比特深度的图像或者
视频帧重建出对应的高比特深度的图像 或者视频帧。 现有的方法大多 数都是基于图像的比
特深度增强方法, 对于传统方法来说有最小风险分类算法(Minimum Risk based
Classification, MRC)[1]和基于强度势场的自适应反量化算法(Inten sity Potential for
Adaptive De‑quantization, IPAD)[2]; 对于深度学习方法来说有基于卷积神经网络算法
(Bit‑Depth Enhancement via Convolutional Neural Network,BE ‑CNN)[3]和基于轻量级
残差网络算法(Lighter but Efficient Bit‑Depth Expansion Network, LBDEN)[4]。 基于
图像的算法仅仅利用了空间信息, 然而对于连续的视频序列, 除了空间信息以外还有帧与
帧之间的时间信息需要考虑。 目前, 基于视频的比特深度增强算法较少, 例如: 基于 “编码‑
解码”结构算法(Spatiotemporal Symmetric Convolutional Neural Network for Video
Bit‑Depth Enhancement, S SCNN)[5]。
[0004]对于视频比特深度增强方法, 帧间信息 的对齐尤为重要, 通过对齐可以减少帧间
的冗余信息, 减少帧间抖动失真。 除此之外还需要考虑比特深度增强中的一些特殊 失真, 例
如: 伪轮廓失真和色彩畸变。 因此, 视频比特深度增强方法需要利用相 邻帧之间的时空信息
重建出高质量的高比特深度视频序列。
发明内容
[0005]本发明提供了一种基于金字塔多层级信息融合视频比特深度增强方法及装置, 本
发明构造了特征对齐和金字塔特征提取模块, 在特征对齐模块中, 利用变形卷积隐式地对
相邻帧和目标帧的帧间信息进行对齐操作, 减少帧间冗余信息和帧间抖动现象; 在金字塔
特征提取融合模块中, 利用卷积步长为2的跨步卷积对特征块进 行上采样, 在还原特征块尺
度进行下采样时采用相同步长为2的转置卷积(即卷积的逆过程), 并结合共享密集模块充
分挖掘时空信息, 本发明提高了 重建出的高比特深度目标帧质量, 详见 下文描述:
[0006]第一方面, 一种基于金字塔多层级信息融合视频比特深度增强方法, 所述方法包
括:
[0007]输入连续的零填充低比特深度 视频帧, 通过特征对齐模块将相邻帧与目标帧进行说 明 书 1/9 页
3
CN 114663306 A
3
专利 基于金字塔多层级信息融合视频比特深度增强方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:22:14上传分享