安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210207842.9 (22)申请日 2022.03.04 (71)申请人 西安电子科技大 学 地址 710126 陕西省西安市长安区西沣路 兴隆段26 6号 (72)发明人 张亮 朱光明 魏彬 梅林  冯明涛 沈沛意 徐旭 宋娟  (74)专利代理 机构 西安知诚思 迈知识产权代理 事务所(普通 合伙) 61237 专利代理师 高喜凤 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于强化学习的连续手语识别方法、 电子设 备和存储介质 (57)摘要 本发明公开了一种基于强化学习的连续手 语识别方法、 电子设备和存储介质, 所述方法包 括: 构建强化学习网络模块, 对连续视频帧进行 裁剪处理, 获得全身视频帧、 手部视频帧和脸部 视频帧, 分别使用强化学习网络模块挑选其中的 核心视频帧, 提取各核心视频帧中的特征, 拼接 各特征获取视频片段, 对视频片段进行识别得到 连续手语识别句子; 本发明降低了视频帧的处理 量, 提高了手语识别效率, 并使手语识别的准确 性得到大幅度提升 。 权利要求书2页 说明书7页 附图2页 CN 114581829 A 2022.06.03 CN 114581829 A 1.基于强化学习的连续手 语识别方法, 其特 征在于, 具体包括以下步骤: 步骤1, 构建强化学习网络模块; 步骤2, 对连续视频帧进行裁剪处理, 获得全身视频帧、 手部视频帧和脸部视频帧, 分别 使用强化学习网络模块选取全身视频帧、 手部 视频帧、 脸部 视频帧中的核心视频帧; 步骤3, 使用二维卷积神经网络分别提取全身核心视频帧、 手部核心视频帧、 脸部核心 视频帧中的特征, 并将脸部特征、 手部特征和全身 特征拼接后输入一维卷积神经网络, 提取 时间维度上的视频片段; 步骤4, 使用联 结主义时间分类 器处理视频片段 得到连续手 语识别句子 。 2.根据权利要求1所述的基于强化学习的连续手语识别方法, 其特征在于, 所述强化学 习网络模块包括 三维卷积神经网络模块、 双向循环神经网络模块和损失函数计算模块; 所述三维卷积神经网络模块, 用于提取连续手语视频中的视觉特征, 并将其转换为为 一维特征; 所述双向循环神经网络模块, 用于获取一维特征的隐藏状态, 并基于隐藏状态获得每 个视频帧的概 率分布; 所述损失函数计算模块, 用于计算强化学习 网络的损 失函数, 并将计算结果反馈至三 维卷积神经网络模块和双向训练神经网络模块, 对其 参数进行优化更新。 3.根据权利要求1或2所述的基于强化学习的连续手语识别方法, 其特征在于, 所述强 化学习网络模块的损失函数L oss如下: Loss=‑J( θ )+β1Losspercenta ge+β2Lossweight 其中J( θ )表示目标函数, T表示连续手语视频的长度, at表示视频 帧挑选动作, pθ(at,T)表示在网络参数θ下每一个视频帧被选择的概率分布, 表示期 望, R(S)表示奖励函数, Losspercentage表示挑选的帧数范围, β1表示Losspercentage的正则化加 权系数, L ossweight表示网络参数θ 的l2正则, β2表示Lossweight的正则化加权系数。 4.根据权利要求3所述的基于强化学习的连续手语识别方法, 其特征在于, 所述奖励函 数R(S)=Rdiv+Rrep, Rdiv、 Rrep的计算如下: 其中Rdiv表示挑选的所有核心视频帧之间 的差异性, Rrep表示挑选的所有核心视频帧的 代表性, y、 y′均表示核心视频帧的数目变量, Y表 示挑选的核心视频帧的总张数, y≠ y′, Y= {y|ay=1,y=1, …,Y}, ay表示第y张核心视频帧的挑选动作, xy表示第y张核心视频帧中的 视觉特征, xy′表示第y′张核心视频帧中的视觉特征, d(xy,xy′)表示xy与xy′之间的差异性, t 表示视频帧的数目变量, t=1,2, …,T, xt表示第t帧视频帧中的视 觉特征; 所述 表示xy的转置, 当|y ‑y′|> λ 时, d(xy, xy′)=1。 5.根据权利要求1所述的基于强化学习的连续手语识别方法, 其特征在于, 所述步骤4权 利 要 求 书 1/2 页 2 CN 114581829 A 2中连续手 语识别过程如下: 步骤41, 在单词表G中加入空标签blank形成新单词表G ′=G∪{blank}, 使用空标签表 示动作端点或非手势段; 步骤42, 使用双 向长短期记忆网络融合手语视频中动作的长期联系, 提取视频片段在 新单词表G ′上的概率分布, 根据概率分布将每个视频片段对应于新单词表上 的单词, 组成 手语视频的初始 识别句子 π; 步骤43, 构建多对一函数, 去除识别句子 中的重复单词和空标签, 得到新的手语识别句 子l, 将处理后相同的句子归为一类, 计算每个手语识别句子l的概率, 将概率最大的手语识 别句子l输出。 6.根据权利要求5所述的基于强化学习的连续手语识别方法, 其特征在于, 所述手语识 别句子l的概率 其中B‑1表示多对一函数B的反函数, π∈B‑1 (l)表示经过多对一函数B变换后得到手语识别句子l的所有初始识别句子π, p( π|V; θ ′)表 示在网络参数θ ′下对视频片段V进行识别得到初始 识别句子 π 的概 率。 7.一种电子设备, 其特征在于, 包括处理器、 存储器和通信总线, 其中, 处理器、 存储器 通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执 行存储器上所存放的程序时, 实现权利要求1 ‑6任一所述的方法步骤。 8.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机 程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑6任一所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114581829 A 3

.PDF文档 专利 基于强化学习的连续手语识别方法、电子设备和存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的连续手语识别方法、电子设备和存储介质 第 1 页 专利 基于强化学习的连续手语识别方法、电子设备和存储介质 第 2 页 专利 基于强化学习的连续手语识别方法、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:21:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。