(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210120923.5
(22)申请日 2022.02.09
(71)申请人 天津大学
地址 300071 天津市南 开区卫津路9 2号
(72)发明人 聂梦真 姜金印
(74)专利代理 机构 天津盛理知识产权代理有限
公司 12209
专利代理师 陈娟
(51)Int.Cl.
G06V 20/40(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/80(2022.01)
G06V 10/26(2022.01)G06V 10/82(2022.01)
(54)发明名称
一种第一视角视频动作识别方法及装置
(57)摘要
本发明提供了一种第一视角视频动作识别
方法和装置, 构建第一视角动作识别的多流网络
模型, 模型包括卷积神 经网络CNN、 Transformer
网络等。 模型采用RGB模态及深度模态, 分为三个
阶段进行动作分类, 通过在I mageNet上预训练的
卷积神经网络提取视频帧的双尺度特征, 根据不
同模态、 不同尺度特征图各自的特点, 分别采取
不同的帧内分割方式, 结合相关性计算机制增强
空间表征, 提高空间语义信息, 通过多尺度跨模
态融合模块的相互作用, 产生交叉模态表示, 增
强模态间的互相关性; 基于注意力机制, 提取视
频帧间的时序信息; 融合经过空间交互增强的双
模态数据, 有效利用并融合双模态的时空信息,
可以达到较好的动作识别效果。
权利要求书2页 说明书7页 附图3页
CN 114596520 A
2022.06.07
CN 114596520 A
1.一种第一视角视频动作识别方法, 其特征在于, 将第一视角视频动作数据集输入基
于RGB模态与深度模态的多尺度网络中提取空间语义, 所述网络采用卷积神经网络CNN, 选
取卷积神经网络CNN内两个不同的卷积块分别输出两种尺度的特征图, 第一类特征图含有
一定的空间信息, 第二类特征图含有丰富的高层语义信息, 并通过MCIAM Ⅰ模块处理第一类
特征图, 通过MCIAM Ⅱ模块处理第二类特征图, 进而获得具有丰富多尺度双模态空间语义
的特征嵌入向量, 将所述特征嵌入向量作为Inter ‑frame Encoder模块的输入进行处理, 经
过多个Inter ‑frame Encoder模块的处理, 完成帧间时序关系的提取, 获得三种特征嵌入向
量, 分别由RGB支路、 深度 支路以及 多尺度融合支路所生 成, 通过CFAM模块将RGB支路及深度
支路的数据进行融合, 并完成多尺度融合支路的特征嵌入向量的融合, 生成联合特征嵌入
向量, 通过线性层将联合特征嵌入向量进 行处理, 得到每帧的动作分类结果, 然后沿时序方
向对一个动作片段的视频帧进行平均处 理, 输出最终的识别结果。
2.根据权利要求1所述的第一视角视频动作识别方法, 其特征在于, 所述MCIAM Ⅰ模块
先采用平均分割或边缘交叉分割方式分割第一类特征图, 再通过特征嵌入及线性映射将特
征图映射为嵌入向量, 并添加位置信息, 计算 RGB模态与深度模态相同切割方式所生 成嵌入
向量的权 重矩阵, 进行模态间的空间相关性增强。
3.根据权利 要求1所述的第一视角视频动作识别方法, 其特征在于, 所述MCIAM Ⅱ模块
采用水平垂 直分割的特征分割方式, 计算 RGB模态与深度模态间的空间相关性, 并按照模态
的不同分别融合M CIAM Ⅰ模块生成的四个嵌入向量, 完成多尺度双模态的空间语义增强。
4.根据权利要求1所述的第一视角视频动作识别方法, 其特征在于, 所述Inter ‑frame
Encoder模块使用可训练的线性投影完成线性映射生成对应的特征嵌入向量, 为其加入位
置编码, 用于编码序列帧或各Patch的位置信息, 之后进行多头注意力运算得到中间向量,
最后将中间向量输入前馈网络, 并完成残差连接、 层正则化操作。
5.根据权利要求1所述的第 一视角视频动作识别方法, 其特征在于, 通过交叉熵损失函
数, 评估视频真实的动作标签与当前模型 预测结果的差异程度, 损失函数如下:
式中, n表示行为类别数, i表示当前网络所处理的视频数据所属的真实类别编号, yi表
示对应类别的真实标签, pi表示模型 所预测的对应 类别的概 率值。
6.根据权利要求1所述的第 一视角视频动作识别方法, 其特征在于, 将第 一视角视频动
作数据集输入网络之前做数据预处 理及数据增强处 理。
7.根据权利要求1所述的第 一视角视频动作识别方法, 其特征在于, 所述卷积神经网络
CNN以ResNet ‑34的多层卷积残差块为基本组成元件, 使用在ImageNet数据集上预训练的
ResNet‑34模型。
8.一种第一视角视频动作识别装置, 其特 征在于, 包括:
卷积神经网络CNN模块, 用于提取特征信息, 在2D特征图级别上进行RGB模态与深度模
态的特征提取, 同时输出 大小为(N1, N1)及(N2, N2)两种尺度的特 征图;
多模态跨帧注意模块MCIAM Ⅰ, 用于处理(N1,N1)尺度的特征图, 采用平均分割及边缘交
叉分割两种不同的特征分割方式, 之后采用特征嵌入及线性映射将特征图映射为嵌入向权 利 要 求 书 1/2 页
2
CN 114596520 A
2量, 并添加位置信息, 计算两种模态相同切割方式所生成嵌入向量的权重矩阵, 进 行模态间
的空间相关性增强;
多模态跨帧注意模块MCIAM Ⅱ, 用于处理(N2,N2)尺度的特征图, 采用水平垂直分割的特
征分割方式, 计算模态间的空间相关性, 计算过程与所述MCIAM Ⅰ模块相同, 并按照模态的不
同分别融合M CIAMⅠ模块生成的四个嵌入向量, 完成多尺度双模态的空间语义增强;
帧间编码模块Inter ‑frame Encoder, 用于建模时间过程, 利用自我注意机制完成动作
时序信息的处理, 建模运动的长期关系, 合理分配帧间特征嵌入的权重, 并能够抑制视频中
无关目标及物体的干扰, 为焦点区域分配更多的注意力资源;
交叉融合注意模块CFAM, 用于完成时序网络RGB模态与深度模态的联合表示, 通过相互
注意机制学习不同模态之间的共享结构, 交叉融合模块负责最终的多尺度时空信息融合,
生成联合特 征嵌入向量。
9.根据权利要求8所述的第一视角视频动作识别装置, 其特征在于, 还包括预处理模
块, 用于对第一视角视频动作数据通过随机 裁剪方式进行 预处理和数据增强。
10.一种存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 其中, 所述程序 可
被终端设备或计算机运行时执 行所述权利要求1至7任一项中所述的方法。权 利 要 求 书 2/2 页
3
CN 114596520 A
3
专利 一种第一视角视频动作识别方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:19:09上传分享