专利 基于多视角三维骨骼信息融合的动态手势识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210276784.5 (22)申请日 2022.03.21 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人刘振宇　李劭晨　段桂芳　谭建荣　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师林超 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多视角三维骨骼信息融合的动态手势识别方法 (57)摘要本发明提出了一种基于多视角三维骨骼信息融合的动态手势识别方法。包含：采用基于滑动窗口的检测方法对原始动态多手势序列进行分割，得到多个单手势序列；将各个单手势序列进行三维空间坐标变换，获得对应的多视角三维骨骼信息；对每个多视角三维骨骼信息进行编码，得到对应多个视角的单视角总骨骼图；将各个视角的单视角总骨骼图分别输入到对应的分支卷积神经网络进行特征提取后，再输入到基于视角注意力机制的聚合网络中，接着依次输入到展平层和全连接层中，全连接层输出单手势分类结果。本发明可以解决传统采用单一视角的手势识别方法中空间信息利用不充分，复杂手势难识别，鲁棒性差等问题，在识别准确率上有很大提升。权利要求书2页说明书7页附图3页 CN 114612938 A 2022.06.10 CN 114612938 A 1.一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，包括以下步骤： S1：采用基于滑动窗口的检测方法对原始动态多手势序列进行分割和处理后，得到多个等长的单手势序列； S2：将每个单手势序列进行三维空间坐标变换，获得对应的多视角三维骨骼信息； S3：对当前多视角三维骨骼信息进行编码，得到对应多个视角的单视角总骨骼图，每个视角的单视角总骨骼图由X坐标、 Y坐标和Z坐标骨骼图组成； S4：将各个视角的单视角总骨骼图分别输入到对应的分支卷积神经网络进行特征提取，分别得到对应的单视角深度特征，由多个单视角深度特征构成当前单手势序列的多视角深度特征； S5：将当前单手势序列的多视角深度特征输入到基于视角注意力机制的聚合网络进行特征聚合，生成当前单手势序列的全局特征； S6：将当前单手势序列的全局特征依次输入到展平层和全连接层中进行手势分类，全连接层输出当前单手势序列的分类结果； S7：重复S2 ‑S6，对剩余的单手势序列进行分类，获得对应的手势分类结果。 2.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述S1具体为： S11：采用固定长度的滑动检测窗口在原始动态多手势序列上进行滑动检测，确定各个手势的开始位置和结束位置，根据各个手势的开始位置和结束位置对对应手势进行定位，进而将原始动态多手势序列分割成多个具有单个手势的手势序列并作为单手势序列； S12：采用二维线性插值的方法对各个单手势序列进行序列长度调整，使得各个单手势序列的长度等长。 3.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述S2中，每个单手势序列利用以下公式进行三维空间坐标变换，具体公式如下：其中， si t,j表示当前单手势序列中第t帧的第i个视角的骨骼点坐标的集合，分别表示当前单手势序列中第t帧的第i个视角的第j个骨骼点的X坐标、 Y坐标和Z坐标， i∈ [1,N]， N表示视角总数； t∈[1,T]， T表示当前单手势序列的总长度； j∈[1,J]， J表示骨骼点总数， T表示转置操作， xt,j,yt,j,zt,j表示当前单手势序列中第t帧的第j个骨骼点的X坐标、 Y 坐标和Z坐标，表示Z轴旋转矩阵，表示当前单手势序列在第i个视角下绕Z轴旋转的角度。 4.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其权　利　要　求　书 1/2 页 2 CN 114612938 A 2特征在于，所述S 3中，将当前多视角三维骨骼信息在视角维度上进行拆分，获得多个单视角的三维骨骼信息，基于各个单视角的三维骨骼信息，根据骨骼点之间的链接关系将各个骨骼点的空间顺序重新编码，得到各个视角的单视角总骨骼图。 5.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述S4中各个分支卷积神经网络的结构相同，包括六个卷积层、维度变换层和四个池化层，分支卷积神经网络的输入输入到第一卷积层中，第一卷积层与第二卷积层相连，第二卷积层与维度变换层相连，维度变换层依次经第三卷积层、第一池化层、第四卷积层、第二池化层、第五卷积层、第三池化层、第六卷积层后与第四池化层相连，第四池化层的输出作为分支卷积神经网络的输出，分支卷积神经网络输出当前单手势序列的单视角深度特征。 6.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述各个多分支卷积神经网络之间采用参数共享的方式进行训练。 7.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述S 5中基于视角注意力机制的聚合网络包括多个卷积层、平均池化层、最大池化层和激活层，当前单手势序列的多视角深度特征中的多个单视角深度特征分别输入到对应的卷积层中进行特征维度压缩，将各个卷积层输出的维度压缩特征进行拼接后获得混合特征，混合特征分别输入到平均池化层和最大池化层中进行注意力权重计算，分别获得平均视角注意力权重和最大视角注意力权重，再对平均视角注意力权重和最大视角注意力权重进行元素求和后输入到激活层中，激活层输出视角注意力权重，视角注意力权重与当前单手势序列的多视角深度特征通过向量点乘的方式融合成全局特征并输出。 8.根据权利要求5所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述各个多分支卷积神经网络中，第三卷积层与第一池化层之间还设置有第一 dropout层，第四卷积层与第二池化层之间还设置有第二dropout层。 9.根据权利要求5所述的一种基于多视角三维骨骼信息融合的动态手势识别方法，其特征在于，所述各个多分支卷积神经网络中，第五卷积层和第三池化层之间还设置有第一 LeakyRelu激活函数层，第六卷积层和第四池化层之间还设置有第二LeakyRelu激活函数层，第四池化层的输出作为多分支卷积神经网络的输出。权　利　要　求　书 2/2 页 3 CN 114612938 A 3

专利 基于多视角三维骨骼信息融合的动态手势识别方法

专利基于多视角三维骨骼信息融合的动态手势识别方法