专利 基于强化学习的连续手语识别方法、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210207842.9 (22)申请日 2022.03.04 (71)申请人西安电子科技大学地址 710126 陕西省西安市长安区西沣路兴隆段26 6号 (72)发明人张亮　朱光明　魏彬　梅林　冯明涛　沈沛意　徐旭　宋娟　 (74)专利代理机构西安知诚思迈知识产权代理事务所(普通合伙) 61237 专利代理师高喜凤 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于强化学习的连续手语识别方法、电子设备和存储介质 (57)摘要本发明公开了一种基于强化学习的连续手语识别方法、电子设备和存储介质，所述方法包括：构建强化学习网络模块，对连续视频帧进行裁剪处理，获得全身视频帧、手部视频帧和脸部视频帧，分别使用强化学习网络模块挑选其中的核心视频帧，提取各核心视频帧中的特征，拼接各特征获取视频片段，对视频片段进行识别得到连续手语识别句子；本发明降低了视频帧的处理量，提高了手语识别效率，并使手语识别的准确性得到大幅度提升。权利要求书2页说明书7页附图2页 CN 114581829 A 2022.06.03 CN 114581829 A 1.基于强化学习的连续手语识别方法，其特征在于，具体包括以下步骤：步骤1，构建强化学习网络模块；步骤2，对连续视频帧进行裁剪处理，获得全身视频帧、手部视频帧和脸部视频帧，分别使用强化学习网络模块选取全身视频帧、手部视频帧、脸部视频帧中的核心视频帧；步骤3，使用二维卷积神经网络分别提取全身核心视频帧、手部核心视频帧、脸部核心视频帧中的特征，并将脸部特征、手部特征和全身特征拼接后输入一维卷积神经网络，提取时间维度上的视频片段；步骤4，使用联结主义时间分类器处理视频片段得到连续手语识别句子。 2.根据权利要求1所述的基于强化学习的连续手语识别方法，其特征在于，所述强化学习网络模块包括三维卷积神经网络模块、双向循环神经网络模块和损失函数计算模块；所述三维卷积神经网络模块，用于提取连续手语视频中的视觉特征，并将其转换为为一维特征；所述双向循环神经网络模块，用于获取一维特征的隐藏状态，并基于隐藏状态获得每个视频帧的概率分布；所述损失函数计算模块，用于计算强化学习网络的损失函数，并将计算结果反馈至三维卷积神经网络模块和双向训练神经网络模块，对其参数进行优化更新。 3.根据权利要求1或2所述的基于强化学习的连续手语识别方法，其特征在于，所述强化学习网络模块的损失函数L oss如下： Loss＝‑J( θ )+β1Losspercenta ge+β2Lossweight 其中J( θ )表示目标函数， T表示连续手语视频的长度， at表示视频帧挑选动作， pθ(at,T)表示在网络参数θ下每一个视频帧被选择的概率分布，表示期望， R(S)表示奖励函数， Losspercentage表示挑选的帧数范围， β1表示Losspercentage的正则化加权系数， L ossweight表示网络参数θ 的l2正则， β2表示Lossweight的正则化加权系数。 4.根据权利要求3所述的基于强化学习的连续手语识别方法，其特征在于，所述奖励函数R(S)＝Rdiv+Rrep， Rdiv、 Rrep的计算如下：其中Rdiv表示挑选的所有核心视频帧之间的差异性， Rrep表示挑选的所有核心视频帧的代表性， y、 y′均表示核心视频帧的数目变量， Y表示挑选的核心视频帧的总张数， y≠ y′， Y＝ {y|ay＝1,y＝1, …,Y}， ay表示第y张核心视频帧的挑选动作， xy表示第y张核心视频帧中的视觉特征， xy′表示第y′张核心视频帧中的视觉特征， d(xy,xy′)表示xy与xy′之间的差异性， t 表示视频帧的数目变量， t＝1,2, …,T， xt表示第t帧视频帧中的视觉特征；所述表示xy的转置，当|y ‑y′|＞ λ 时， d(xy， xy′)＝1。 5.根据权利要求1所述的基于强化学习的连续手语识别方法，其特征在于，所述步骤4权　利　要　求　书 1/2 页 2 CN 114581829 A 2中连续手语识别过程如下：步骤41，在单词表G中加入空标签blank形成新单词表G ′＝G∪{blank}，使用空标签表示动作端点或非手势段；步骤42，使用双向长短期记忆网络融合手语视频中动作的长期联系，提取视频片段在新单词表G ′上的概率分布，根据概率分布将每个视频片段对应于新单词表上的单词，组成手语视频的初始识别句子 π；步骤43，构建多对一函数，去除识别句子中的重复单词和空标签，得到新的手语识别句子l，将处理后相同的句子归为一类，计算每个手语识别句子l的概率，将概率最大的手语识别句子l输出。 6.根据权利要求5所述的基于强化学习的连续手语识别方法，其特征在于，所述手语识别句子l的概率其中B‑1表示多对一函数B的反函数， π∈B‑1 (l)表示经过多对一函数B变换后得到手语识别句子l的所有初始识别句子π， p( π|V； θ ′)表示在网络参数θ ′下对视频片段V进行识别得到初始识别句子 π 的概率。 7.一种电子设备，其特征在于，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1 ‑6任一所述的方法步骤。 8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1 ‑6任一所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 114581829 A 3

专利 基于强化学习的连续手语识别方法、电子设备和存储介质

专利基于强化学习的连续手语识别方法、电子设备和存储介质