专利 一种基于OCR识别的格式化文档生成方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210105172.X (22)申请日 2022.01.28 (65)同一申请的已公布的文献号申请公布号 CN 114116989 A (43)申请公布日 2022.03.01 (73)专利权人京华信息科技股份有限公司地址 510520 广东省广州市天河区高普路 138号京华信息大楼中座 (72)发明人苗苏望　蓝建敏　池穆霖　申鑫　张旭君　 (74)专利代理机构广州专理知识产权代理事务所(普通合伙) 44493 代理人邓易偲 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06V 20/62(2022.01) G06V 30/10(2022.01) 审查员邓力 (54)发明名称一种基于OCR识别的格式化文档生成方法及系统 (57)摘要本公开提供了一种基于OCR识别的格式化文档生成方法及系统，使用OCR技术将多个纸质文件扫描并识别成多个字符串；使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合；对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量；在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量；对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系；根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档。权利要求书4页说明书11页附图2页 CN 114116989 B 2022.04.15 CN 114116989 B 1.一种基于OCR识别的格式化文档生成方法，其特征在于，所述方法包括以下步骤： S100，使用OCR技术将多个纸质文件扫描并识别成多个字符串； S200，使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合； S300，对中文知识图谱中的三元组数据使用知识图谱嵌入算法得到中文知识图谱中的各个三元组的嵌入向量； S400，在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量； S500，对各个关系组合向量与各个三元组的嵌入向量之间建立映射关系； S600，根据映射关系，将关系组合向量对应的三元组组成文本并将文本填入模板中，生成得到格式化文档；其中，在S400中，在分词数组集合中，以每一个字符串数组进行向量化得到多个关系组合向量的方法为：使用ELMo中文预训练模型作为获得嵌入向量的预训练模型；分别将每一个字符串数组输入到ELMo中文预训练模型中， ELMo中文预训练模型输出该个字符串数组中各个字符串的嵌入向量，将各个字符串的嵌入向量组成的数组作为该个字符串数组对应的一个分词向量数组，由此得到各个字符串数组对应的分词向量数组，并将各个字符串数组对应的分词向量数组所组成的集合作为分词向量数组集合；将所有的字符串数组所组成的集合记作字符串数组集合，字符串数组集合记作Aset， Aset中元素的数量为n， Aset中元素的序号为i， i∈[1,n]， Aset中元素的序号为i的字符串数组记为Aset(i)， Aset(i)中元素的数量为n(i )， Aset(i )中元素的序号为j， j∈[1, n (i)]， Aset[i(j)]表示Aset(i)中序号为j的元素， Aset[i(1)] 表示在Aset(i)中序号为1的元素；字符串数组集合中的各字符串数组与分词向量数组集合中的各分词向量数组相互对应，字符串数组集合的字符串数组中的字符串与分词向量数组集合的分词向量数组中的分词向量相互对应；字符串数组集合中元素的数量与分词向量数组集合中元素的数量相同皆为n，字符串数组集合中元素的序号与分词向量数组集合中元素的序号相同皆为i，记分词向量数组集合为Bset， Bset中序号为i的元素为Bset(i)， Bset(i)与Aset(i)相互对应， Bset(i)中元素的数量同为n(i)， B set(i)中元素的序号同样为j， B set[i(j)]表示Bset(i)中序号为j的元素， Bset[i(j)]与Aset[i(j)]相互对应， Bset[i(j)]为Aset[i(j)]经过ELMo中文预训练模型输出的嵌入向量；在ELMo中文预训练模型输出的嵌入向量中，其维度的数量为k，其维度的序号为v， v∈ [1,k]； Bset[i(j)]中序号为v的维度的数值记作Bset[i(j)]v；定义区分度为表示一个向量与若干个向量之间的区分的程度的数值；得到多个关系组合向量的具体步骤包括： S401，设置集合Buset以表示关系组合向量的集合，集合Buset初始值为空；选取Bset中各元素Bset(i)； S402，对Bset(i)中的各元素进行如下S402 ‑1至S402‑5的操作：权　利　要　求　书 1/4 页 2 CN 114116989 B 2S402‑1，设置变量 i(j)表示Bset(i)中的各元素的序号； S402‑2，分别计算各个 Bset[i(j)]与其在Bset(i)中除Bset[i(j)]外的其他元素的区分度，定义函数Gap()为计算i(j)元素的区分度的函数， Gap(Bset[i(j)])即为Bset[i(j)] 的区分度， Gap(Bset[i(j)])的计算方法为：，其中函数 exp为以自然常数 e为底的指数函数，由此，得到Bset[i(j)]的区分度； S402‑3，把Bset(i)中的各个元素Bset[i(j)]，按照Bset[i(j)]对应的Gap(Bset[i (j)])的数值从小到大的顺序进行排序，排序得到的各个元素Bset[i(j)]的序列作为序列 Blist(i)； S402‑4，在序列Blist(i)中，将序列Blist(i)中的前u个元素筛选出来作为序列Blist (i)u，其中， u的数值的计算方法为：计算Blist(i)的筛选阈值，定义筛选阈值为对序列Blist(i)中的元素进行筛选的阈值，记pit(i)为 Blist(i)的筛选阈值， pit(i)的计算公式为，其中，函数avg()为对序列或集合或数组中的元素的数值求取算术平均值的函数, 函数Avg()为对由若干个向量组成的序列或集合或数组中的各元素先求取各元素中各维度数值的算术平均数进而求取各元素中各维度数值的算术平均数的中位数的函数；对序列Blist(i)中的各个元素Bset[i(j)]，分别判断各元素是否满足第一约束条件即 (avg(Bset[i(j)])/Avg(Bli st(i)) )>pit(i), 序列Blist(i)中满足第一约束条件的元素的个数作为u的数值，由此得到的序列Bl ist(i)u即为关系组合向量； S402‑5，将序列Bl ist(i)u加入集合Buset中，作为集合Buset中序号为i的元素； S403，输出集合Buset，集合Buset即为多个关系组合向量的集合；由此，得到多个关系组合向量。 2.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在 S100中，使用OCR技术将多个纸质文件扫描并识别成多个字符串的方法为：取多个不同的纸质文件，纸质文件的表面印刷有文字，对每个纸质文件使用OCR技术识别出纸质文件的表面印刷的文字，并将每个纸质文的识别出来的文字作为一个字符串，由此，分别从各个纸质文件得到各个字符串。 3.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在 S200中，使用中文分词算法分别将各个字符串处理为各个字符串数组，处理得到的各个字符串数组的集合作为分词数组集合的方法为：使用中文分词算法，分别对每一个字符串进行分词处理并将分词得到的各个分词组成的数组作为一个字符串数组，由此将各个字符串处理为对应的各个字符串数组，把各个字符串数组组成的集合作为分词数组集合。 4.根据权利要求1所述的一种基于OCR识别的格式化文档生成方法，其特征在于，在权　利　要　求　书 2/4 页 3 CN 114116989 B 3

专利 一种基于OCR识别的格式化文档生成方法及系统

专利一种基于OCR识别的格式化文档生成方法及系统