(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210105172.X
(22)申请日 2022.01.28
(65)同一申请的已公布的文献号
申请公布号 CN 114116989 A
(43)申请公布日 2022.03.01
(73)专利权人 京华信息科技股份有限公司
地址 510520 广东省广州市天河区高普路
138号京华信息大楼中座
(72)发明人 苗苏望 蓝建敏 池穆霖 申鑫
张旭君
(74)专利代理 机构 广州专理知识产权代理事务
所(普通合伙) 44493
代理人 邓易偲
(51)Int.Cl.
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06F 16/36(2019.01)
G06V 20/62(2022.01)
G06V 30/10(2022.01)
审查员 邓力
(54)发明名称
一种基于OCR识别的格式化文档生成方法及
系统
(57)摘要
本公开提供了一种基于OCR识别的格式化文
档生成方法及系统, 使用OCR技术将多个纸质文
件扫描并识别成多个字 符串; 使用中文分词算法
分别将各个字符串处理为各个字符串数组, 处理
得到的各个字符串数组的集合作为分词数组集
合; 对中文知识图谱中的三元 组数据使用知 识图
谱嵌入算法得到中文知识 图谱中的各个三元组
的嵌入向量; 在分词数组集合中, 以每一个字符
串数组进行向量化得到多个关系组合向量; 对各
个关系组合向量与各个三元组的嵌入向量之间
建立映射关系; 根据映射关系, 将关系组合向量
对应的三元 组组成文本并将文本填入模板中, 生
成得到格式化文档。
权利要求书4页 说明书11页 附图2页
CN 114116989 B
2022.04.15
CN 114116989 B
1.一种基于OCR识别的格式化文档生成方法, 其特 征在于, 所述方法包括以下步骤:
S100, 使用OCR技 术将多个纸质文件扫描并识别成多个字符串;
S200, 使用中文分词算法分别将各个字符串处理为各个字符串数组, 处理得到的各个
字符串数组的集 合作为分词数组集 合;
S300, 对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的
各个三元组的嵌入向量;
S400, 在分词数组集 合中, 以每一个字符串数组进行向量 化得到多个关系组合向量;
S500, 对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系;
S600, 根据映射关系, 将关系组合向量对应的三元组组成文本并将文本填入模板中, 生
成得到格式化文档;
其中, 在S400中, 在分词数组集合中, 以每一个字符串数组进行向量化得到多个关系组
合向量的方法为:
使用ELMo中文预训练模型作为获得嵌入向量的预训练模型;
分别将每一个字符串数组输入到ELMo中文预训练模型中, ELMo中文预训练模型输出该
个字符串 数组中各个字符串的嵌入向量, 将各个字符串的嵌入向量组成的数组作为该个字
符串数组对应的一个分词向量数组, 由此得到各个字符串数组对应的分词向量数组, 并将
各个字符串数组对应的分词向量数组所组成的集 合作为分词向量数组集 合;
将所有的字符串数组所组成的集合记作字符串数组集合, 字符串数组集合记作Aset,
Aset中元素的数量为n, Aset中元素的序号为i, i∈[1,n], Aset中元素的序号为i的字符串
数组记为Aset(i), Aset(i)中元素的数量为n(i ), Aset(i )中元素的序号为j, j∈[1, n
(i)], Aset[i(j)]表示Aset(i)中序号为j的元素, Aset[i(1)] 表示在Aset(i)中序号为1的
元素;
字符串数组集合中的各字符串数组与分词向量数组集合中的各分词向量数组相互对
应, 字符串数组集合的字符串 数组中的字符串与分词向量数组集合的分词向量数组中的分
词向量相互对应;
字符串数组集合中元素的数量与分词向量数组集合中元素的数量相同皆为n, 字符串
数组集合中元素 的序号与分词向量数组集合中元素 的序号相同皆为i, 记分词向量数组集
合为Bset, Bset中序号为i的元素为Bset(i), Bset(i)与Aset(i)相互对应, Bset(i)中元素
的数量同为n(i), B set(i)中元素的序号同样为j, B set[i(j)]表示Bset(i)中序号为j的元
素, Bset[i(j)]与Aset[i(j)]相互对应, Bset[i(j)]为Aset[i(j)]经过ELMo中文预训练模
型输出的嵌入向量;
在ELMo中文预训练模型输出的嵌入向量中, 其维度的数量为k, 其维度的序号为v, v∈
[1,k];
Bset[i(j)]中序号 为v的维度的数值记作Bset[i(j)]v;
定义区分度为表示 一个向量与若干个向量之间的区分的程度的数值;
得到多个关系组合向量的具体步骤 包括:
S401, 设置集合Buset以表示关系组合向量的集合, 集合Buset初始值为空; 选取Bset中
各元素Bset(i);
S402, 对Bset(i)中的各 元素进行如下S402 ‑1至S402‑5的操作:权 利 要 求 书 1/4 页
2
CN 114116989 B
2S402‑1, 设置变量 i(j)表示Bset(i)中的各 元素的序号;
S402‑2, 分别计算各个 Bset[i(j)]与其在Bset(i)中除Bset[i(j)]外的其他元素的区
分度, 定义函数Gap()为计算i(j)元素的区分度的函数, Gap(Bset[i(j)])即为Bset[i(j)]
的区分度, Gap(Bset[i(j)])的计算方法为:
,
其中函数 exp为以自然常数 e为底的指数函数, 由此, 得到Bset[i(j)]的区分度;
S402‑3, 把Bset(i)中的各个元素Bset[i(j)], 按照Bset[i(j)]对应的Gap(Bset[i
(j)])的数值从小到大的顺序进行排序, 排序得到的各个元素Bset[i(j)]的序列作为序列
Blist(i);
S402‑4, 在序列Blist(i)中, 将序列Blist(i)中的前u个元素筛选出来作为序列Blist
(i)u, 其中, u的数值的计算方法为:
计算Blist(i)的筛选阈值, 定义筛选阈值为对序列Blist(i)中的元素进行筛选的阈
值, 记pit(i)为 Blist(i)的筛 选阈值, pit(i)的计算公式为,
其中, 函数avg()为对序列或集合或数组中的元素的数值求取算术平均值的函数, 函
数Avg()为对 由若干个向量组成的序列或集合或数组中的各元素先求取各元素中各维度
数值的算 术平均数进 而求取各元素中各维度数值的算 术平均数的中位数的函数;
对序列Blist(i)中的各个元素Bset[i(j)], 分别判断各元素是否满足第一约束条件即
(avg(Bset[i(j)])/Avg(Bli st(i)) )>pit(i), 序列Blist(i)中满足第一约束条件的元素
的个数作为u的数值, 由此 得到的序列Bl ist(i)u即为关系组合向量;
S402‑5, 将序列Bl ist(i)u加入集 合Buset中, 作为 集合Buset中序号 为i的元素;
S403, 输出集 合Buset, 集 合Buset即为多个关系组合向量的集 合;
由此, 得到多个关系组合向量。
2.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法, 其特征在于, 在
S100中, 使用OCR技 术将多个纸质文件扫描并识别成多个字符串的方法为:
取多个不同的纸质文件, 纸质文件的表面印刷有文字, 对每个纸质文件使用OCR技术识
别出纸质文件的表面印刷的文字, 并将每个纸质文的识别出来的文字作为一个字符串, 由
此, 分别从各个纸质文件得到各个字符串。
3.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法, 其特征在于, 在
S200中, 使用中文分词算法分别将各个字符串处理为各个字符串数组, 处理得到的各个字
符串数组的集 合作为分词数组集 合的方法为:
使用中文分词算法, 分别对每一个字符串进行分词处理并将分词得到的各个分词组成
的数组作为一个字符串数组, 由此将各个字符串处理为对应的各个字符串数组, 把各个字
符串数组 组成的集 合作为分词数组集 合。
4.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法, 其特征在于, 在权 利 要 求 书 2/4 页
3
CN 114116989 B
3
专利 一种基于OCR识别的格式化文档生成方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:51:48上传分享