安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210147505.5 (22)申请日 2022.02.17 (71)申请人 北京深睿博 联科技有限责任公司 地址 100080 北京市海淀区海淀大街8号A 座21层A区 申请人 杭州深睿博 联科技有限公司 (72)发明人 高凯 周振 俞益洲 李一鸣  乔昕  (74)专利代理 机构 北京天方智力知识产权代理 事务所(普通 合伙) 11719 专利代理师 路远 (51)Int.Cl. G06T 7/246(2017.01) G06K 9/62(2022.01) G06V 10/80(2022.01) (54)发明名称 一种视频目标跟踪方法及装置 (57)摘要 本发明提供一种视频目标跟踪 方法及装置。 所述方法包括: 将跟踪目标图像和搜索区域图像 分别输入到第一特征提取模块和第二特征提取 模块, 进行图像特征提取; 将跟踪目标特征和搜 索区域特征输入到基于交互注意力机制的特征 融合模块进行特征融合; 将融合特征输入到分类 和回归模块, 输出包围框内的图像类别及包围框 的位置及尺 寸信息。 本发明通过采用注意力机制 进行图像特征提取, 可获得感兴趣区域特征以提 高特征提取效率; 采用交互注 意力机制进行特征 融合使目标特征和搜索区域特征充分 交互, 解决 了现有技术因为光照、 形变、 遮挡等情况跟丢目 标的问题。 权利要求书2页 说明书7页 附图2页 CN 114708297 A 2022.07.05 CN 114708297 A 1.一种视频目标跟踪方法, 其特 征在于, 包括以下步骤: 将跟踪目标图像和搜索区域图像分别输入到基于注意力 机制、 结构和权重相同的第 一 特征提取模块和第二特 征提取模块, 进行图像特 征提取; 将提取的跟踪目标图像特征和搜索区域图像特征输入到基于交互注意力机制的特征 融合模块, 进行 特征融合; 将特征融合模块输出的融合特征输入到分类和回归模块, 输出包围框 内的图像类别及 包围框的位置及尺寸信息, 所述图像 类别包括前 景和背景。 2.根据权利要求1所述的视频目标跟踪方法, 其特征在于, 在特征提取前还包括: 将跟 踪目标图像和搜索区域图像分别输入到结构和权重相同的第一图像块编码模块和第二图 像块编码模块, 将输入图像分割成多个图像块, 并将每个图像块中的像素值合成为一个 向 量。 3.根据权利要求2所述的视频目标跟踪方法, 其特征在于, 所述第 一特征提取模块和第 二特征提取模块均采用Tr ansformer自注意力机制, 通过结构相似的窗口多头自注意力层 和移位窗口多头自注 意力层进行自注意力计算提取图像特征; 窗口多头自注意力 层将特征 图划分成大小为M的窗口, 并每个窗口上进 行自注意力计算; 移 位窗口多头自注意力 层在窗 口多头自注意力层的下一层, 通过将窗口整体平移1/2个M的大小, 在下一层得到新的窗口 以提高感受野, 并将平 移后的小窗口拼接以保证窗口 的数目不变。 4.根据权利要求3所述的视频目标跟踪方法, 其特征在于, 在特征融合前还包括: 将第 一特征提取模块和 第二特征提取模块提取的特征输入到特征级联模块, 将提取的两种特征 分别拉长为 一维向量后进行 连接, 将特 征图由三维数据平铺为 一维向量。 5.根据权利要求4所述的视频目标跟踪方法, 其特征在于, 所述特征融合模块包括编码 器和解码器, 编码器通过对特征级联模块输出 的一维向量进行自注意力计算, 实现对两种 特征的充分交互; 解码器采用交叉注意力机制, 通过对跟踪目标图像特征和搜索区域图像 特征分别进 行加权得到Q、 K、 V, 然后利用 分别进 行本分支和跨分支的注意力计算实现特征融合, 其中, Q、 K、 V为三个权重矩阵, dK为K的维 度。 6.根据权利要求1所述的视频目标跟踪方法, 其特征在于, 所述方法还包括: 在输入第 一帧图像前, 基于已知目标信息采用少样本学习 方法对网络模型进行离线训练; 在输入一 定帧图像后, 更新目标信息, 并采用少样本学习方法对网络模型进行在线更新。 7.一种视频目标跟踪装置, 其特 征在于, 包括: 注意力机制特征提取模块, 用于将跟踪目标图像和搜索区域图像分别 输入到基于注意 力机制、 结构和权 重相同的第一特 征提取模块和第二特 征提取模块, 进行图像特 征提取; 注意力机制特征融合模块, 用于将提取的跟踪目标图像特征和搜索区域图像特征输入 到基于交 互注意力机制的特 征融合模块, 进行 特征融合; 包围框分类回归模块, 用于将特征融合模块输出的融合特征输入到分类和回归模块, 输出包围框内的图像 类别及包围框的位置及尺寸信息, 所述图像 类别包括前 景和背景。 8.根据权利要求7所述的视频目标跟踪装置, 其特征在于, 在特征提取前还包括: 将跟 踪目标图像和搜索区域图像分别输入到结构和权重相同的第一图像块编码模块和第二图权 利 要 求 书 1/2 页 2 CN 114708297 A 2像块编码模块, 将输入图像分割成多个图像块, 并将每个图像块中的像素值合成为一个 向 量。 9.根据权利要求8所述的视频目标跟踪装置, 其特征在于, 所述第 一特征提取模块和第 二特征提取模块均采用Tr ansformer自注意力机制, 通过结构相似的窗口多头自注意力层 和移位窗口多头自注 意力层进行自注意力计算提取图像特征; 窗口多头自注意力 层将特征 图划分成大小为M的窗口, 并每个窗口上进 行自注意力计算; 移 位窗口多头自注意力 层在窗 口多头自注意力层的下一层, 通过将窗口整体平移1/2个M的大小, 在下一层得到新的窗口 以提高感受野, 并将平 移后的小窗口拼接以保证窗口 的数目不变。 10.根据权利要求9所述的视频目标跟踪装置, 其特征在于, 在特征融合前还包括: 将第 一特征提取模块和 第二特征提取模块提取的特征输入到特征级联模块, 将提取的两种特征 分别拉长为 一维向量后进行 连接, 将特 征图由三维数据平铺为 一维向量。权 利 要 求 书 2/2 页 3 CN 114708297 A 3

.PDF文档 专利 一种视频目标跟踪方法及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频目标跟踪方法及装置 第 1 页 专利 一种视频目标跟踪方法及装置 第 2 页 专利 一种视频目标跟踪方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:19:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。