(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210207842.9
(22)申请日 2022.03.04
(71)申请人 西安电子科技大 学
地址 710126 陕西省西安市长安区西沣路
兴隆段26 6号
(72)发明人 张亮 朱光明 魏彬 梅林
冯明涛 沈沛意 徐旭 宋娟
(74)专利代理 机构 西安知诚思 迈知识产权代理
事务所(普通 合伙) 61237
专利代理师 高喜凤
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于强化学习的连续手语识别方法、 电子设
备和存储介质
(57)摘要
本发明公开了一种基于强化学习的连续手
语识别方法、 电子设备和存储介质, 所述方法包
括: 构建强化学习网络模块, 对连续视频帧进行
裁剪处理, 获得全身视频帧、 手部视频帧和脸部
视频帧, 分别使用强化学习网络模块挑选其中的
核心视频帧, 提取各核心视频帧中的特征, 拼接
各特征获取视频片段, 对视频片段进行识别得到
连续手语识别句子; 本发明降低了视频帧的处理
量, 提高了手语识别效率, 并使手语识别的准确
性得到大幅度提升 。
权利要求书2页 说明书7页 附图2页
CN 114581829 A
2022.06.03
CN 114581829 A
1.基于强化学习的连续手 语识别方法, 其特 征在于, 具体包括以下步骤:
步骤1, 构建强化学习网络模块;
步骤2, 对连续视频帧进行裁剪处理, 获得全身视频帧、 手部视频帧和脸部视频帧, 分别
使用强化学习网络模块选取全身视频帧、 手部 视频帧、 脸部 视频帧中的核心视频帧;
步骤3, 使用二维卷积神经网络分别提取全身核心视频帧、 手部核心视频帧、 脸部核心
视频帧中的特征, 并将脸部特征、 手部特征和全身 特征拼接后输入一维卷积神经网络, 提取
时间维度上的视频片段;
步骤4, 使用联 结主义时间分类 器处理视频片段 得到连续手 语识别句子 。
2.根据权利要求1所述的基于强化学习的连续手语识别方法, 其特征在于, 所述强化学
习网络模块包括 三维卷积神经网络模块、 双向循环神经网络模块和损失函数计算模块;
所述三维卷积神经网络模块, 用于提取连续手语视频中的视觉特征, 并将其转换为为
一维特征;
所述双向循环神经网络模块, 用于获取一维特征的隐藏状态, 并基于隐藏状态获得每
个视频帧的概 率分布;
所述损失函数计算模块, 用于计算强化学习 网络的损 失函数, 并将计算结果反馈至三
维卷积神经网络模块和双向训练神经网络模块, 对其 参数进行优化更新。
3.根据权利要求1或2所述的基于强化学习的连续手语识别方法, 其特征在于, 所述强
化学习网络模块的损失函数L oss如下:
Loss=‑J( θ )+β1Losspercenta ge+β2Lossweight
其中J( θ )表示目标函数,
T表示连续手语视频的长度, at表示视频
帧挑选动作, pθ(at,T)表示在网络参数θ下每一个视频帧被选择的概率分布,
表示期
望, R(S)表示奖励函数, Losspercentage表示挑选的帧数范围, β1表示Losspercentage的正则化加
权系数, L ossweight表示网络参数θ 的l2正则, β2表示Lossweight的正则化加权系数。
4.根据权利要求3所述的基于强化学习的连续手语识别方法, 其特征在于, 所述奖励函
数R(S)=Rdiv+Rrep, Rdiv、 Rrep的计算如下:
其中Rdiv表示挑选的所有核心视频帧之间 的差异性, Rrep表示挑选的所有核心视频帧的
代表性, y、 y′均表示核心视频帧的数目变量, Y表 示挑选的核心视频帧的总张数, y≠ y′, Y=
{y|ay=1,y=1, …,Y}, ay表示第y张核心视频帧的挑选动作, xy表示第y张核心视频帧中的
视觉特征, xy′表示第y′张核心视频帧中的视觉特征, d(xy,xy′)表示xy与xy′之间的差异性, t
表示视频帧的数目变量, t=1,2, …,T, xt表示第t帧视频帧中的视 觉特征;
所述
表示xy的转置, 当|y ‑y′|> λ 时, d(xy, xy′)=1。
5.根据权利要求1所述的基于强化学习的连续手语识别方法, 其特征在于, 所述步骤4权 利 要 求 书 1/2 页
2
CN 114581829 A
2中连续手 语识别过程如下:
步骤41, 在单词表G中加入空标签blank形成新单词表G ′=G∪{blank}, 使用空标签表
示动作端点或非手势段;
步骤42, 使用双 向长短期记忆网络融合手语视频中动作的长期联系, 提取视频片段在
新单词表G ′上的概率分布, 根据概率分布将每个视频片段对应于新单词表上 的单词, 组成
手语视频的初始 识别句子 π;
步骤43, 构建多对一函数, 去除识别句子 中的重复单词和空标签, 得到新的手语识别句
子l, 将处理后相同的句子归为一类, 计算每个手语识别句子l的概率, 将概率最大的手语识
别句子l输出。
6.根据权利要求5所述的基于强化学习的连续手语识别方法, 其特征在于, 所述手语识
别句子l的概率
其中B‑1表示多对一函数B的反函数, π∈B‑1
(l)表示经过多对一函数B变换后得到手语识别句子l的所有初始识别句子π, p( π|V; θ ′)表
示在网络参数θ ′下对视频片段V进行识别得到初始 识别句子 π 的概 率。
7.一种电子设备, 其特征在于, 包括处理器、 存储器和通信总线, 其中, 处理器、 存储器
通过通信总线完成相互间的通信;
存储器, 用于存放计算机程序;
处理器, 用于执 行存储器上所存放的程序时, 实现权利要求1 ‑6任一所述的方法步骤。
8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机
程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑6任一所述的方法步骤。权 利 要 求 书 2/2 页
3
CN 114581829 A
3
专利 基于强化学习的连续手语识别方法、电子设备和存储介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:21:28上传分享