安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210229686.6 (22)申请日 2022.03.10 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 李宏亮 黄俊强 董建伟 盛一航  任子奕  (74)专利代理 机构 电子科技大 学专利中心 51203 专利代理师 邹裕蓉 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于时空卷积和时间序列特征融合的 行为识别方法 (57)摘要 本发明针对单一数据形式下行为识别下特 征提取不充分的问题, 提供一种基于时空卷积和 时间序列特征融合的行为识别方法, 先获取视频 流数据以及来自惯性传感器的运动数据, 再从视 频流数据提取出基于时空卷积的高层时空语义 特征; 同时, 从运动数据流提取出基于时间序列 的深层运动特征; 将高层时空语义特征和深层运 动特征进行融合得到融合特征, 将融合特征输入 多层感知器MLP映射得到输出值, 输出值经 Softmax完成行为识别分类。 本发明基于两种特 征融合的方式完成行为识别, 弥补了主流算法使 用单一特征缺失信息的缺点, 并通过自注意力模 块捕获关键时刻的动作特征, 提升了网络对异常 和突发行为的识别准确度。 权利要求书1页 说明书3页 附图2页 CN 114821766 A 2022.07.29 CN 114821766 A 1.一种基于时空卷积和时间序列特征融合的行为识别方法, 其特征在于, 包括以下步 骤: 1)获取视频流数据以及来自惯性传感器的运动数据流; 2)对视频流数据提取帧图像的全局空间特征, 再将全局空间特征送入到池化层进行特 征压缩, 将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特 征; 同时, 将运动数据流送入双层双向BiLSTM, 结合所有时刻的 隐藏层特征提取肢体运动特 征, 将肢体运动特征输入双头的自注意力机制从而有权重的加强关键时刻的运动信息, 再 通过全连接前馈网络与归一 化后输出基于时间序列的深层运动特 征; 3)将高层时空语义特征和深层运动特征进行融合得到 融合特征, 将融合特征输入多层 感知器MLP映射得到 输出值, 输出值经Softmax完成行为识别分类。 2.如权利要求1所述方法, 其特征在于, 获取视频流数据的具体方法是, 对输入的视频 进行下采样、 裁减、 数据增强得到 视频流数据; 获取运动数据流的具体方法是, 对输入的惯性传感器数据进行滤波、 去除异常值、 归一 化得到运动数据流。 3.如权利要求1所述方法, 其特征在于, 将视频流数据经1x7x7的卷积提取帧图像的全 局空间特 征; 将全局空间特 征送入到1x3x3的max 池化层进行 特征压缩。 4.如权利要求1所述方法, 其特征在于, 3D卷积网络采用顺序串联4个3D残差结构组模 块的形式。 5.如权利要求4所述方法, 其特征在于, 一个3D残差结构组模块是由1x1x1卷积, 1x3x3 卷积和1x1x1卷积组成的3D残差结构。权 利 要 求 书 1/1 页 2 CN 114821766 A 2一种基于时空 卷积和时间序列特征融合的行为识别方 法 技术领域 [0001]本发明涉及基于多模态的特 征融合的行为识别技 术, 属于深度学习领域。 背景技术 [0002]随着电子和计算机技术的发展, 智能可穿戴设备的智能性和实用性在逐步提升。 目前众多高科技 公司推出了轻便的智能眼镜, 如苹 果智能眼镜, 谷歌智能眼镜等。 智能设备 使得人们能够以第一视角的形式记录下日常生活, 并通过惯性传感器记录日常的活动数 据。 这些数据拥有着难以估计的潜在价值, 能被用来提升人们的生活质量, 更能够缓解全球 老年化背景下 的老年人失护失陪的社会压力。 行为识别作为人工智能领域中的一个热点, 行为识别可以记录行为, 识别行为, 还 可以对异常行为做出警示, 起到看护和急救预警的功 能。 [0003]目前, 基于深度学习和神经网络 的行为识别的算法已经被广泛使用, 其中基于时 空卷积的3D卷积神经网络对视频提取特征是行为识别方法的一个重要分支。 此外, 使用循 环卷积神经网络RN N对惯性传感器数据提取运动特 征是行为识别的另外一个分支。 [0004]视频数据是具有三个维度(时间、 空间)的复杂多维数据, 时间结构中往往蕴含着 当前日常动作的高层抽象信息, 视频数据会记录下运动背景和人体整体动作。 使用时空卷 积网络3D卷积神经网络, 可以提取视频流的深层语义信息, 且不丢失动作的时间相关信息。 3D卷积神经网络通常是把2D卷积网络如Resnet,  Inception等网络膨胀, 结构类型, 但多出 时间维度, 以此来提升对动作时间特征 的捕捉能力。 惯性传感器数据包含陀螺仪和加速度 计采集运动者三个轴方向上的角度和加速度, 陀螺仪和加速度计采集运动者三个轴方向上 的角度和加速度数据, 是T*6的时序连续信息, 侧重记录肢体运动的物理量变化情况。 使用 循环卷积神经网络RN N可以提取 出动作时序变化特 征, 完成不同的肢体动作识别。 [0005]在目前的主流算法中, 只采用3D卷积网络提取视频流特征来完成行为识别, 而视 频中包含的无用背 景信息是提取动作特征的阻碍。 基于 当前的显卡算力, 3D  卷积网络通常 只能在成视频中的上千帧图像中下采样出16张或32张图片, 并不能包含所有的时刻, 对于 长视频无法完整提取动作的时间相关信息, 从而导致行为识别难度增加。 少数部分研究会 采用RNN对惯性传感器数据提取动作时序变化特征来完成行为识别, 而惯性传感器数据只 包含肢体运动物理量变化, 没有任何背景信息, 对于变化和节奏相似动作难以较好的区分。 发明内容 [0006]本发明要解决的技术问题是, 针对单一数据形式下行为识别下特征提取不充分的 问题, 提供一种 联合地将视频数据和惯性传感器数据运动特征和有用背景特征提取出来, 利用混合结构的神经网络提升行为识别的准确率的方法。 [0007]本发明为解决上述问题所采用的技术方案是: 一种基于时空卷积和时间序列特征 融合的行为识别方法, 包括以下步骤: [0008]1)获取视频流数据以及来自惯性传感器的运动数据流;说 明 书 1/3 页 3 CN 114821766 A 3

.PDF文档 专利 一种基于时空卷积和时间序列特征融合的行为识别方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时空卷积和时间序列特征融合的行为识别方法 第 1 页 专利 一种基于时空卷积和时间序列特征融合的行为识别方法 第 2 页 专利 一种基于时空卷积和时间序列特征融合的行为识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:17:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。