安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210217783.3 (22)申请日 2022.03.08 (71)申请人 山东山大鸥玛软件股份有限公司 地址 250101 山东省济南市高新区伯乐路 128号 (72)发明人 许信顺 谭玉慧 马磊 陈义学  (74)专利代理 机构 山东舜源联合知识产权代理 有限公司 373 59 代理人 马洪磊 (51)Int.Cl. G06V 30/22(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 30/19(2022.01) (54)发明名称 一种手写英文行识别系统 (57)摘要 本发明提出的一种手写英文行识别系统, 属 于文本识别技术领域。 包括: 视觉模块、 语义模块 和融合模块; 视觉模块, 用于使用ResNet网络提 取手写英文行的文本图像的空间特征, 并使用基 于CTC和基于Attention的模型进行解码, 输 出字 符级解码和单词级解码; 语义模块, 用于使用视 觉模块中输 出的基于Attention的字符级 解码的 输出概率作为输入, 通过使用梯度截断策略, 以 纠正预测序列的方式显式学习英文行中潜在的 语义信息; 融合模块, 用于通过使用门机制将视 觉模块提取到的视觉信息和语义模块提取到的 语义信息进行 结合, 以生成预测结果。 权利要求书2页 说明书8页 附图3页 CN 114299510 A 2022.04.08 CN 114299510 A 1.一种手写英文行识别系统, 其特 征在于, 包括: 视 觉模块、 语义模块和融合模块; 所述视觉模块, 用于使用ResNet网络提取手写英文行的文本图像的空间特征, 并使用 基于CTC和基于A ttention的模型进行解码, 输出字符级解码和单词级解码, 作为视 觉信息; 所述语义模块, 用于使用视觉模块中输出的基于Attention的字符级解码的输出概率 作为输入, 通过使用梯度截断策略, 以纠正预测序列的方式显式学习英文行中潜在的语义 信息; 所述融合模块, 用于通过使用门机制 将视觉模块提取到的视觉信 息和语义模块提取到 的语义信息进行 结合, 并利用预设公式进行 预测, 以生成预测结果。 2.根据权利要求1所述的手写英文行识别系统, 其特征在于, 所述视觉模块包括: 预处 理单元, 图像特 征编码单 元、 解码单 元; 所述预处 理单元, 用于对所述文本图像和文本图像的标签进行 预处理; 所述图像特征编码单元, 用于使用ResNet网络通过增加shortcut更新底层网络, 在 ResNet网络中增加通道注意力模块, 并进行Squeeze操作和Excitation操作, 以提取图像全 局的特征表示, 最后使用两层 双向的LSTM网络以提取文本图像中的时序特 征; 所述解码单元, 用于使用基于CTC和基于Attention的模型将时序特征进行解码, 以获 取相应的字符和单词。 3.根据权利要求1所述的手写英文行识别系统, 其特征在于, 所述语义模块包括一个基 于双向LSTM网络的编码器和一个基于LSTM网络的解码器; 使用基于Attention的字符级解 码的输出概率向量作为输入, 利用将梯度流进行截断的策略, 在预测文本的纠正过程中建 模手写英文行中潜在的语义关系。 4.根据权利要求1所述的手写英文行识别系统, 其特 征在于, 所述融合模块, 具体用于: 使用门机制自动学习视 觉信息和语义信息之间的对齐; 采用的预设公式具体如下: 其中, fv、 fs分别表示视觉特征和语义特征, F为融合之后的特征; 最后通过全连接以及 softmax方法获得最终的预测结果。 5.根据权利要求2所述的手写英文行识别系统, 其特征在于, 所述预处理单元, 具体用 于: 将文本图像的宽度和高度分别设定为宽度 预设值大小和高度预设值大小, 并将文本图 像进行归一 化处理; 将文本图像转换为灰度图形式, 使每 个像素点只具有一个分量; 对于文本 图像的标签, 根据英文行中不同的粒度划分为字符级别和单词级别, 同时构 建了一个包含所有大小写字母、 数字及所有标点符号的字符词典和一个包含数据集中所有 单词的单词 词典; 将图像的标签根据字符词典和单词词典进行映射, 以得到两种标签并用作模型的监督权 利 要 求 书 1/2 页 2 CN 114299510 A 2信息。 6.根据权利要求5所述的手写英文行识别系统, 其特征在于, 所述文本图像的标签为固 定长度, 当标签长度达不到固定 长度时, 用End符号 填充。 7.根据权利 要求2所述的手写英文行识别系统, 其特征在于, 所述Squeeze操作包括: 提 取文本图像全局的特征表示, 通过使用全局平均池化使特征图在通道级别得到全局的特 征; 对于一个H*W*C大小的特征图F, 其中H、 W、 C分别表 示特征图的高度、 宽度以及通道数, 在 通道级别对H*W的特征图进 行全局平局池化后就会得到1*1*C的特征图; 采用的公 式如下所 示: 其中, fc表示特征图F在第c个通道上的H*W大小的特征, Sc表示在经过全局平均池化后 在第c个通道上一个1*1的感受野。 8.根据权利要求7所述的手写英文行识别系统, 其特征在于, 所述Excitation操作包 括: 通过使用全连接层预测各个通道的重要程度, 并得到各通道之间的相关性; 采用的公 式如下所示: 其中, σ 、 δ分别表示ReLU及Sigmoid激活函数, W1、 W2表示全连接层, r代表降维系数, 是一 个超参数; 最终的E的维度是1*1*C, 代表了C个通道的权重值, 不同的权重值代表相应通道 的重要程度; 最后, 在得到各通道 的权重值之后, 通过对通道进行加权, 就可以得到最终的结果, 采 用的公式如下 所示: 其中, fc表示第c通道的特征, Sc表示对应于第c通道的权重, 通过将两者相乘, 就得到了 带有通道权 重的特征图F。权 利 要 求 书 2/2 页 3 CN 114299510 A 3

.PDF文档 专利 一种手写英文行识别系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种手写英文行识别系统 第 1 页 专利 一种手写英文行识别系统 第 2 页 专利 一种手写英文行识别系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:18:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。