(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210279500.8
(22)申请日 2022.03.22
(65)同一申请的已公布的文献号
申请公布号 CN 114359912 A
(43)申请公布日 2022.04.15
(73)专利权人 杭州实在智能科技有限公司
地址 310000 浙江省杭州市余杭区余杭街
道文一西路1818-2号6幢6层
(72)发明人 方明超 高扬
(74)专利代理 机构 浙江永鼎律师事务所 3 3233
专利代理师 周希良
(51)Int.Cl.
G06V 30/148(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06V 10/25(2022.01)
(56)对比文件
CN 112257841 A,2021.01.2 2
CN 114187595 A,202 2.03.15
CN 112464781 A,2021.0 3.09
WO 201919 2397 A1,2019.10.10
US 20212 95101 A1,2021.09.23
张迎等.基 于主次关系特 征的自动文摘方
法. 《计算机科 学》 .2020,第16 -21页.
蒋良卫等.基于深度学习技 术的图片文字提
取技术的研究. 《信息系统工程》 .2020,(第0 3
期),第89-90页.
Yang Hu 等.Graph -based Visual-
Semantic Entanglement Netw ork for Zero-
shot Ima ge Recogn ition. 《arXiv》 .2021,第1-
15页.
审查员 张帅
(54)发明名称
基于图神经网络的软件页面关键信息提取
方法及系统
(57)摘要
本发明属于软件页面信息提取技术领域, 具
体涉及基于图神经网络的软件页面关键信息提
取方法及系统。 方法包括S1, 将输入的网页图片,
输出图片上所有的文本行坐标信息; S2, 根据得
到的文本 行坐标信息, 裁剪出所有的文本行并识
别, 得到每个文本行字符信息; S3, 结合网页图
片、 文本行坐标信息、 文本 行字符信息, 并通过基
于图神经网络模 型的文本行分类算法, 输出所有
文本行的类别; S4, 结合文本行的类别进行键值
对匹配; 若匹配成功, 则输出需要的键值对所对
应的文本信息。 系统包括文本行检测模块、 文本
行识别模块、 文本行分类模块、 文本行键值对匹
配模块。 本发明具有通用性强, 能应用到所有的
软件文本类型的特点。
权利要求书3页 说明书8页 附图4页
CN 114359912 B
2022.06.24
CN 114359912 B
1.基于图神经网络的软件页面关键信息提取 方法, 其特 征在于, 包括如下步骤;
S1, 将输入的网页图片通过DBNet文本检测算法, 输出网页图片上所有的文本行坐标信
息;
S2, 通过CRNN文本识别算法, 同时根据 得到的文本行坐标信息, 裁剪出所有的文本行并
进行识别, 得到每 个文本行字符信息;
S3, 结合输入的网页图片以及获得的文本行坐标信 息、 文本行字符信息, 并通过基于图
神经网络模型的文本行分类算法, 输出 所有文本行的类别;
S4, 分别提取任意两个文本行的文本行坐标信息特征和文本行字符信息特征, 并进行
融合获得融合特征, 同时结合文本行的类别进行键值对匹配; 若匹配成功, 则输出所有需要
的键值对所对应的文本信息;
步骤S3中所述文本行的类别包括 “键”,“值”和“其他”三个类别;
步骤S3包括如下步骤:
S31, 用CNN骨干网络提取网页图片的特征, 同时利用ROI Pooling层将所有文本行的特
征处理成一个统一的维度; 用CNN+ROI Pooling提取每个文本行的视觉 特征
, 用长短期记
忆网络LSTM提取文本行的语义特征
, 并将视觉特征
和语义特征
融合, 得到融合特征
,
表示拼接操作, 公式如下:
S32, 利用每个文本行的融合特征
建立图神经网络模型, 将 每个文本行作为一个图节
点构造一个无向图, 所述无向图表示成
, 其中
表示所有文本行的融合
特征,
表示无向图中两个节点的边的权 重;
考虑文本行之间的空间关系, 构造特 征向量
其中,
,
表示第
个文本行的中心点坐标,
,
表示第
个文本行的中心点坐标,
,
表示第
个文本行的宽和高,
,
表示第
个文本行的宽和高;
和
表示两个文 本行之间的距离;
和
表示两个文本行各自的宽高比;
和
表示
两个文本行之间宽高比的差异;
S33, 构造两个文本行之间的空间关系
权 利 要 求 书 1/3 页
2
CN 114359912 B
2其中,
是一个线性变换, 用于将
进行升维,
表示
正则化,
表示多层神经
网络;
S34, 利用如下公式对无向图
上的节点
进行迭代, 迭代次数为超参数, 可按需调整:
其中,
表示ReLU激活函数,
是一个线性变换,
表示第
次迭代中的第
个图
节点;
S35, 图神经网络模型构建完成。
2.根据权利要求1所述的基于图神经网络的软件页面关键信 息提取方法, 其特征在于,
步骤S4包括如下步骤:
S41, 对于每个文本行的文本行字符信息用长短期记忆网络LSTM提取语义特征
, 对于
每个文本行有四个顶点的文本行坐标信息特征
,
,
,
, 融合得到融合特 征
:
其 中 ,
、
分 别 表 示 第
个 文 本 行 和 第
个 文 本 行 的 语 义 特 征 ;
表示第
个文本行的顶点 坐标;
表示第
个文本行的顶点坐标;
、
表示第
个文本
行的宽和高;
、
表示第
个文本行的宽和高;
S42, 将融合后的融合特征
送到分类器中, 当两个文本行不属于同一个键值对, 则输
出类别为0; 当两个文本行属于同一个键值对, 则输出类别为1。
3.基于图神经网络的软件页面关键信息提取系统, 应用权利要求1 ‑2中任一项所述的
基于图神经网络的软件页面关键信息提取方法, 其特征在于, 所述基于图神经网络的软件权 利 要 求 书 2/3 页
3
CN 114359912 B
3
专利 基于图神经网络的软件页面关键信息提取方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:21:10上传分享