专利 一种基于时空卷积和时间序列特征融合的行为识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210229686.6 (22)申请日 2022.03.10 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人李宏亮　黄俊强　董建伟　盛一航　任子奕　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师邹裕蓉 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于时空卷积和时间序列特征融合的行为识别方法 (57)摘要本发明针对单一数据形式下行为识别下特征提取不充分的问题，提供一种基于时空卷积和时间序列特征融合的行为识别方法，先获取视频流数据以及来自惯性传感器的运动数据，再从视频流数据提取出基于时空卷积的高层时空语义特征；同时，从运动数据流提取出基于时间序列的深层运动特征；将高层时空语义特征和深层运动特征进行融合得到融合特征，将融合特征输入多层感知器MLP映射得到输出值，输出值经 Softmax完成行为识别分类。本发明基于两种特征融合的方式完成行为识别，弥补了主流算法使用单一特征缺失信息的缺点，并通过自注意力模块捕获关键时刻的动作特征，提升了网络对异常和突发行为的识别准确度。权利要求书1页说明书3页附图2页 CN 114821766 A 2022.07.29 CN 114821766 A 1.一种基于时空卷积和时间序列特征融合的行为识别方法，其特征在于，包括以下步骤： 1)获取视频流数据以及来自惯性传感器的运动数据流； 2)对视频流数据提取帧图像的全局空间特征，再将全局空间特征送入到池化层进行特征压缩，将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特征；同时，将运动数据流送入双层双向BiLSTM，结合所有时刻的隐藏层特征提取肢体运动特征，将肢体运动特征输入双头的自注意力机制从而有权重的加强关键时刻的运动信息，再通过全连接前馈网络与归一化后输出基于时间序列的深层运动特征； 3)将高层时空语义特征和深层运动特征进行融合得到融合特征，将融合特征输入多层感知器MLP映射得到输出值，输出值经Softmax完成行为识别分类。 2.如权利要求1所述方法，其特征在于，获取视频流数据的具体方法是，对输入的视频进行下采样、裁减、数据增强得到视频流数据；获取运动数据流的具体方法是，对输入的惯性传感器数据进行滤波、去除异常值、归一化得到运动数据流。 3.如权利要求1所述方法，其特征在于，将视频流数据经1x7x7的卷积提取帧图像的全局空间特征；将全局空间特征送入到1x3x3的max 池化层进行特征压缩。 4.如权利要求1所述方法，其特征在于， 3D卷积网络采用顺序串联4个3D残差结构组模块的形式。 5.如权利要求4所述方法，其特征在于，一个3D残差结构组模块是由1x1x1卷积， 1x3x3 卷积和1x1x1卷积组成的3D残差结构。权　利　要　求　书 1/1 页 2 CN 114821766 A 2一种基于时空卷积和时间序列特征融合的行为识别方法技术领域 [0001]本发明涉及基于多模态的特征融合的行为识别技术，属于深度学习领域。背景技术 [0002]随着电子和计算机技术的发展，智能可穿戴设备的智能性和实用性在逐步提升。目前众多高科技公司推出了轻便的智能眼镜，如苹果智能眼镜，谷歌智能眼镜等。智能设备使得人们能够以第一视角的形式记录下日常生活，并通过惯性传感器记录日常的活动数据。这些数据拥有着难以估计的潜在价值，能被用来提升人们的生活质量，更能够缓解全球老年化背景下的老年人失护失陪的社会压力。行为识别作为人工智能领域中的一个热点，行为识别可以记录行为，识别行为，还可以对异常行为做出警示，起到看护和急救预警的功能。 [0003]目前，基于深度学习和神经网络的行为识别的算法已经被广泛使用，其中基于时空卷积的3D卷积神经网络对视频提取特征是行为识别方法的一个重要分支。此外，使用循环卷积神经网络RN N对惯性传感器数据提取运动特征是行为识别的另外一个分支。 [0004]视频数据是具有三个维度(时间、空间)的复杂多维数据，时间结构中往往蕴含着当前日常动作的高层抽象信息，视频数据会记录下运动背景和人体整体动作。使用时空卷积网络3D卷积神经网络，可以提取视频流的深层语义信息，且不丢失动作的时间相关信息。 3D卷积神经网络通常是把2D卷积网络如Resnet， Inception等网络膨胀，结构类型，但多出时间维度，以此来提升对动作时间特征的捕捉能力。惯性传感器数据包含陀螺仪和加速度计采集运动者三个轴方向上的角度和加速度，陀螺仪和加速度计采集运动者三个轴方向上的角度和加速度数据，是T*6的时序连续信息，侧重记录肢体运动的物理量变化情况。使用循环卷积神经网络RN N可以提取出动作时序变化特征，完成不同的肢体动作识别。 [0005]在目前的主流算法中，只采用3D卷积网络提取视频流特征来完成行为识别，而视频中包含的无用背景信息是提取动作特征的阻碍。基于当前的显卡算力， 3D 卷积网络通常只能在成视频中的上千帧图像中下采样出16张或32张图片，并不能包含所有的时刻，对于长视频无法完整提取动作的时间相关信息，从而导致行为识别难度增加。少数部分研究会采用RNN对惯性传感器数据提取动作时序变化特征来完成行为识别，而惯性传感器数据只包含肢体运动物理量变化，没有任何背景信息，对于变化和节奏相似动作难以较好的区分。发明内容 [0006]本发明要解决的技术问题是，针对单一数据形式下行为识别下特征提取不充分的问题，提供一种联合地将视频数据和惯性传感器数据运动特征和有用背景特征提取出来，利用混合结构的神经网络提升行为识别的准确率的方法。 [0007]本发明为解决上述问题所采用的技术方案是：一种基于时空卷积和时间序列特征融合的行为识别方法，包括以下步骤： [0008]1)获取视频流数据以及来自惯性传感器的运动数据流；说　明　书 1/3 页 3 CN 114821766 A 3

专利 一种基于时空卷积和时间序列特征融合的行为识别方法

专利一种基于时空卷积和时间序列特征融合的行为识别方法