(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210276784.5
(22)申请日 2022.03.21
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 刘振宇 李劭晨 段桂芳 谭建荣
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 林超
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多视角三维骨骼信息融合的动态手势
识别方法
(57)摘要
本发明提出了一种基于多视角 三维骨骼信
息融合的动态手势识别方法。 包含: 采用基于滑
动窗口的检测方法对原始动态多手势序列进行
分割, 得到多个单手势序列; 将各个单手势序列
进行三维空间坐标变换, 获得对应的多视角三维
骨骼信息; 对每个多视角三维骨骼信息进行编
码, 得到对应多个视角的单视角总骨骼图; 将各
个视角的单视角总骨骼 图分别输入到对应的分
支卷积神经网络进行特征提取后, 再输入到基于
视角注意力机制的聚合网络中, 接着依次输入到
展平层和全 连接层中, 全 连接层输出单手势分类
结果。 本发 明可以解决传统采用单一视角的手势
识别方法中空间信息利用不充分, 复杂手势难识
别, 鲁棒性差等问题, 在识别准确率上有很大提
升。
权利要求书2页 说明书7页 附图3页
CN 114612938 A
2022.06.10
CN 114612938 A
1.一种基于多视角三维骨骼信息融合的动态手势识别方法, 其特征在于, 包括以下步
骤:
S1: 采用基于滑动窗口的检测方法对原始动态多手势序列进行分割和处理后, 得到多
个等长的单手势序列;
S2: 将每个单手势序列进行三维空间坐标变换, 获得对应的多视角三维骨骼信息;
S3: 对当前多视角三维骨骼信息进行编码, 得到对应多个视角的单视角总骨骼图, 每个
视角的单视角总骨骼图由X坐标、 Y坐标和Z坐标骨骼图组成;
S4: 将各个视角的单视角总骨骼图分别输入到对应的分支卷积神经网络进行特征提
取, 分别得到对应的单视角深度特征, 由多个单视角深度特征构成当前单手势序列的多视
角深度特 征;
S5: 将当前单手势序列的多视角深度 特征输入到基于视角注意力 机制的聚合网络进行
特征聚合, 生成当前 单手势序列的全局特 征;
S6: 将当前单手势序列的全局特征依次输入到展平层和全连接层中进行手势分类, 全
连接层输出当前 单手势序列的分类结果;
S7: 重复S2 ‑S6, 对剩余的单手势序列进行分类, 获得对应的手势分类结果。
2.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述S1具体为:
S11: 采用固定长度的滑动 检测窗口在原始动态多手势序列上进行滑动 检测, 确定各个
手势的开始位置和结束位置, 根据各个手势的开始位置和结束位置对对应手势进行定位,
进而将原始动态多手势序列分割成多个具有单个 手势的手势序列并作为单手势序列;
S12: 采用二维线性插值的方法对各个单手势序列进行序列长度调整, 使得各个单手势
序列的长度等长 。
3.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述S2中, 每个单手势序列利用以下公式进行三维空间坐标变换, 具体公式如
下:
其中, si
t,j表示当前单手势序列中第t帧的第i个视角的骨骼点坐标的集合,
分
别表示当前单手势序列中第t帧的第i个视角的第j个骨骼点的X坐标、 Y坐标和Z坐标, i∈
[1,N], N表示视角总数; t∈[1,T], T表 示当前单手势序列的总长度; j∈[1,J], J表示骨骼点
总数, T表示转置操作, xt,j,yt,j,zt,j表示当前单手势序列中第t帧的第j个骨骼点的X坐标、 Y
坐标和Z坐标, 表示Z轴旋转矩阵,
表示当前 单手势序列在第i个视角下绕Z轴旋转的角度。
4.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其权 利 要 求 书 1/2 页
2
CN 114612938 A
2特征在于, 所述S 3中, 将当前多视角三 维骨骼信息在视角维度上进 行拆分, 获得多个单视角
的三维骨骼信息, 基于各个单视角的三维骨骼信息, 根据骨骼点之间的链接关系将各个骨
骼点的空间顺序重新编码, 得到各个视角的单视角总骨骼图。
5.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述S4中各个分支卷积神经网络的结构相同, 包括六个卷积层、 维度变换层和四
个池化层,
分支卷积神经网络的输入输入到第一卷积层中, 第一卷积层与第二卷积层相连, 第二
卷积层与维度变换层相连, 维度变换层依次经第三卷积层、 第一池化层、 第四卷积层、 第二
池化层、 第五卷积层、 第三池化层、 第六卷积层后与第四池化层相连, 第四池化层的输出作
为分支卷积神经网络的输出, 分支卷积神经网络 输出当前 单手势序列的单视角深度特 征。
6.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述各个多分支卷积神经网络之间采用参数共享的方式进行训练。
7.根据权利要求1所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述S 5中基于视角注 意力机制的聚合网络包括多个卷积层、 平均池化层、 最大池
化层和激活层, 当前单手势序列的多视角深度特征中的多个单视角深度特征分别输入到对
应的卷积层中进 行特征维度压缩, 将各个卷积层输出的维度压缩特征进 行拼接后获得混合
特征, 混合特征分别输入到平均池化层和最大池化层中进行注意力权重计算, 分别获得平
均视角注意力权重和最大视角注意力权重, 再对平均视角注意力权重和最大视角注意力权
重进行元素求和后输入到激活层中, 激活层输出视角注意力权重, 视角注意力权重与当前
单手势序列的多视角深度特 征通过向量 点乘的方式 融合成全局特 征并输出。
8.根据权利要求5所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述各个多分支卷积神经网络中, 第三卷积层与第一池化层之间还设置有第一
dropout层, 第四卷积层与第二池化层之间还设置有第二dropout层。
9.根据权利要求5所述的一种基于多视角三维骨骼信息融合的动态手势识别方法, 其
特征在于, 所述各个多分支卷积神经网络中, 第 五卷积层和第三池化层之间还设置有第一
LeakyRelu激活函数层, 第六卷积层和第 四池化层之间还设置有第二LeakyRelu激活函数
层, 第四池化层的输出作为多分支卷积神经网络的输出。权 利 要 求 书 2/2 页
3
CN 114612938 A
3
专利 基于多视角三维骨骼信息融合的动态手势识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:21:22上传分享