安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210217783.3 (22)申请日 2022.03.08 (71)申请人 山东山大鸥玛软件股份有限公司 地址 250101 山东省济南市高新区伯乐路 128号 (72)发明人 许信顺 谭玉慧 马磊 陈义学 (74)专利代理 机构 山东舜源联合知识产权代理 有限公司 373 59 代理人 马洪磊 (51)Int.Cl. G06V 30/22(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 30/19(2022.01) (54)发明名称 一种手写英文行识别系统 (57)摘要 本发明提出的一种手写英文行识别系统, 属 于文本识别技术领域。 包括: 视觉模块、 语义模块 和融合模块; 视觉模块, 用于使用ResNet网络提 取手写英文行的文本图像的空间特征, 并使用基 于CTC和基于Attention的模型进行解码, 输 出字 符级解码和单词级解码; 语义模块, 用于使用视 觉模块中输 出的基于Attention的字符级 解码的 输出概率作为输入, 通过使用梯度截断策略, 以 纠正预测序列的方式显式学习英文行中潜在的 语义信息; 融合模块, 用于通过使用门机制将视 觉模块提取到的视觉信息和语义模块提取到的 语义信息进行 结合, 以生成预测结果。 权利要求书2页 说明书8页 附图3页 CN 114299510 A 2022.04.08 CN 114299510 A 1.一种手写英文行识别系统, 其特 征在于, 包括: 视 觉模块、 语义模块和融合模块; 所述视觉模块, 用于使用ResNet网络提取手写英文行的文本图像的空间特征, 并使用 基于CTC和基于A ttention的模型进行解码, 输出字符级解码和单词级解码, 作为视 觉信息; 所述语义模块, 用于使用视觉模块中输出的基于Attention的字符级解码的输出概率 作为输入, 通过使用梯度截断策略, 以纠正预测序列的方式显式学习英文行中潜在的语义 信息; 所述融合模块, 用于通过使用门机制 将视觉模块提取到的视觉信 息和语义模块提取到 的语义信息进行 结合, 并利用预设公式进行 预测, 以生成预测结果。 2.根据权利要求1所述的手写英文行识别系统, 其特征在于, 所述视觉模块包括: 预处 理单元, 图像特 征编码单 元、 解码单 元; 所述预处 理单元, 用于对所述文本图像和文本图像的标签进行 预处理; 所述图像特征编码单元, 用于使用ResNet网络通过增加shortcut更新底层网络, 在 ResNet网络中增加通道注意力模块, 并进行Squeeze操作和Excitation操作, 以提取图像全 局的特征表示, 最后使用两层 双向的LSTM网络以提取文本图像中的时序特 征; 所述解码单元, 用于使用基于CTC和基于Attention的模型将时序特征进行解码, 以获 取相应的字符和单词。 3.根据权利要求1所述的手写英文行识别系统, 其特征在于, 所述语义模块包括一个基 于双向LSTM网络的编码器和一个基于LSTM网络的解码器; 使用基于Attention的字符级解 码的输出概率向量作为输入, 利用将梯度流进行截断的策略, 在预测文本的纠正过程中建 模手写英文行中潜在的语义关系。 4.根据权利要求1所述的手写英文行识别系统, 其特 征在于, 所述融合模块, 具体用于: 使用门机制自动学习视 觉信息和语义信息之间的对齐; 采用的预设公式具体如下: 其中, fv、 fs分别表示视觉特征和语义特征, F为融合之后的特征; 最后通过全连接以及 softmax方法获得最终的预测结果。 5.根据权利要求2所述的手写英文行识别系统, 其特征在于, 所述预处理单元, 具体用 于: 将文本图像的宽度和高度分别设定为宽度 预设值大小和高度预设值大小, 并将文本图 像进行归一 化处理; 将文本图像转换为灰度图形式, 使每 个像素点只具有一个分量; 对于文本 图像的标签, 根据英文行中不同的粒度划分为字符级别和单词级别, 同时构 建了一个包含所有大小写字母、 数字及所有标点符号的字符词典和一个包含数据集中所有 单词的单词 词典; 将图像的标签根据字符词典和单词词典进行映射, 以得到两种标签并用作模型的监督权 利 要 求 书 1/2 页 2 CN 114299510 A 2信息。 6.根据权利要求5所述的手写英文行识别系统, 其特征在于, 所述文本图像的标签为固 定长度, 当标签长度达不到固定 长度时, 用End符号 填充。 7.根据权利 要求2所述的手写英文行识别系统, 其特征在于, 所述Squeeze操作包括: 提 取文本图像全局的特征表示, 通过使用全局平均池化使特征图在通道级别得到全局的特 征; 对于一个H*W*C大小的特征图F, 其中H、 W、 C分别表 示特征图的高度、 宽度以及通道数, 在 通道级别对H*W的特征图进 行全局平局池化后就会得到1*1*C的特征图; 采用的公 式如下所 示: 其中, fc表示特征图F在第c个通道上的H*W大小的特征, Sc表示在经过全局平均池化后 在第c个通道上一个1*1的感受野。 8.根据权利要求7所述的手写英文行识别系统, 其特征在于, 所述Excitation操作包 括: 通过使用全连接层预测各个通道的重要程度, 并得到各通道之间的相关性; 采用的公 式如下所示: 其中, σ 、 δ分别表示ReLU及Sigmoid激活函数, W1、 W2表示全连接层, r代表降维系数, 是一 个超参数; 最终的E的维度是1*1*C, 代表了C个通道的权重值, 不同的权重值代表相应通道 的重要程度; 最后, 在得到各通道 的权重值之后, 通过对通道进行加权, 就可以得到最终的结果, 采 用的公式如下 所示: 其中, fc表示第c通道的特征, Sc表示对应于第c通道的权重, 通过将两者相乘, 就得到了 带有通道权 重的特征图F。权 利 要 求 书 2/2 页 3 CN 114299510 A 3
专利 一种手写英文行识别系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 01:18:29
上传分享
举报
下载
原文档
(583.7 KB)
分享
友情链接
T-ZGKSL 010—2023 重组胶原蛋白透皮吸收测定方法.pdf
民航 CTSO-C13f 救生衣.pdf
JR-T 0083-2013 人身保险伤残评定标准及代码.pdf
GB-T 5905.1-2023 起重机 检验与试验规范 第1部分:通则.pdf
GB-T 37416-2019 洁净机器人通用技术条件.pdf
GB-T 39511-2020 保健调理按摩技术操作规范.pdf
GA-T 1788.4-2021 公安视频图像信息系统安全技术要求 第4部分:安全管理平台.pdf
GB-T 21010-2017 土地利用现状分类.pdf
信通院 数据安全风险分析及应对策略研究-2022年.pdf
GB-T 1506-2016 锰矿石 锰含量的测定 电位滴定法和硫酸亚铁铵滴定法.pdf
GB-T 39254-2020 增材制造 金属制件机械性能评价通则.pdf
GB-T 16550-2020 新城疫诊断技术.pdf
SC-T 8165-2018 渔船LED水上集鱼灯装置技术要求.pdf
GB/T 25387.2-2021 风力发电机组 全功率变流器 第2部分:试验方法.pdf
ISOIEC 30111-2019.pdf
中航证券 2024年策略 AI鼎新,与时偕行.pdf
GB-T 31250-2014 电子电气产品环境信息基本要求.pdf
国家医疗保障局关于加强网络安全和数据保护工作的指导意见.pdf
专利 一种知识图谱更新方法、装置、设备及存储介质.PDF
GB-T 36137-2018 中空纤维超滤膜和微滤膜组件完整性检验方法.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(583.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。