安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210226612.7 (22)申请日 2022.03.09 (71)申请人 上海淇玥信息技 术有限公司 地址 201500 上海市崇明区横沙乡富民支 路58号A2-8914室 (72)发明人 陈雪清 刘然 孙涛  (74)专利代理 机构 北京清诚知识产权代理有限 公司 11691 专利代理师 宋红艳 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于企业知识图谱的企业识别方法及 装置 (57)摘要 本发明公开了一种基于企业知识图谱的企 业识别方法及装置, 所述方法包括: 获取各个企 业实体的舆情信息中的中文关键词; 根据象形要 素对关键词分别进行语义拆分, 并根据语义拆分 结果输出企业实体的词向量; 通过语义关联度解 释模型对词向量进行识别, 得到企业实体的舆情 识别结果; 根据各个企业实体的舆情识别结果和 企业实体 之间的经济关系构建企业知识图谱; 根 据企业知识图谱确定确定各个企业实体的级别。 本发明能够从小微企业的舆情信息中提取出企 业实体词向量, 结合小微企业之间的经济关系挖 掘出更为精准的小微企业情况和小微企业间关 系, 构建准确的企业知识图谱, 从而为服务小微 企业保驾护航, 保障自身的数据、 财产安全。 权利要求书4页 说明书15页 附图4页 CN 114579764 A 2022.06.03 CN 114579764 A 1.一种基于企业知识图谱的企业识别方法, 其特 征在于, 所述方法包括: 获取各个企业实体的舆情信息, 并获取 所述舆情信息中的中文关键词; 根据象形要素对所述关键词分别进行语义拆分, 并根据语义拆分结果输出所述企业实 体的词向量; 通过语义关联度解释模型对所述词向量进行识别, 得到所述企业实体的舆情识别结 果, 所述语义关联度解释模型用于识别所述词向量对应的所述关键词 与文本训练数据中各 个词或汉字的语义关联度, 并将 语义关联度符合预设条件的词或汉字作为舆情识别结果对 所述关键词进行语义层面的解释说明; 获取各个企业实体的经济信 息, 并根据所述经济信 息确定所述企业实体之间的经济关 系; 根据各个企业实体的舆情识别结果和所述企业实体之间的经济关系构建企业知识图 谱; 根据所述企业知识图谱 对所述企业实体进行分级, 确定各个所述企业实体的级别。 2.根据权利要求1所述的方法, 其特征在于, 所述根据象形要素对所述关键词分别进行 语义拆分包括: 将关键词转换成繁体字; 将繁体字根据象形要素进行拆分映射处 理, 得到语义拆分结果。 3.根据权利要求2所述的方法, 其特征在于, 所述象形要素包括中文五笔字根, 所述将 繁体字根据象形要素进行拆分映射处 理包括: 将繁体字通过中文五笔字根进行拆分映射, 得到多个英文 映射单元, 每个英文 映射单 元对应一个象形要素, 并代 表一种语义单 元; 将所述多个英文映射单 元进行组合, 得到多个代 表所述关键词不同语义的组合特 征。 4.根据权利要求2所述的方法, 其特征在于, 所述象形要素包括繁体字的最小分割元 素, 所述将繁体字根据象形要素进行拆分映射处 理包括: 将繁体字根据象形要素进行拆分; 将拆分结果进行映射; 得到多个映射单元, 每个映射单元对应一个象形要素, 并代表一 种语义单 元; 将所述多个映射单 元进行组合, 得到多个代 表所述关键词不同语义的组合特 征。 5.根据权利要求2 ‑4任一项所述的方法, 其特征在于, 所述根据语义拆分结果输出所述 企业实体的词向量包括: 对语义拆分结果进行o ne‑hot编码, 得到企业实体的词向量。 6.根据权利要求1所述的方法, 其特征在于, 所述根据各个企业实体的舆情识别结果和 所述企业实体之间的经济关系构建企业知识图谱, 包括: 构建每个所述企业实体对应的节点, 并将所述企业实体的舆情识别结果和企业实体之 间的经济关系作为节点的属性信息; 根据所述企业实体之间的经济关系确定所述节点之间的连接边; 基于所述连接边和所述节点构建所述企业知识图谱。 7.根据权利要求6所述的方法, 其特征在于, 所述经济关系包括: 企业实体之间的交易 信息和经济关联关系;权 利 要 求 书 1/4 页 2 CN 114579764 A 2将所述企业实体的舆情识别结果和企业实体之间的经济关系作为节点的属性信 息, 包 括: 通过所述经济关联关系 对企业实体之间的交易信 息进行调整, 使得经济关联关系包括 预设关系的企业实体之间的交易信息的数值降低; 将所述企业实体的舆情识别结果和企业实体之间的交易信息作为节点的属性信息; 根据所述企业实体之间的经济关系确定所述节点之间的连接边, 包括: 根据所述企业实体之间的交易信息确定所述节点之间的连接边。 8.根据权利要求7所述的方法, 其特征在于, 所述经济关联关系包括: 投资关系、 负债关 系、 担保关系 、 上下游关系中的至少一种; 通过所述经济关联关系对每 个所述节点的交易信息进行调整, 包括: 调整后的所述企业实体之间的交易信息的数值yi通过如下公式确定: 其中: xi为企业实体之间的交易信息的原始数值, ai为担保百分占比或者股权百分占 比, 投资关系 =true表示企业实体之间包括投资关系, 上下游关系 =true表示企业实体之 间包括上下游关系, 负债关系 =true表示企业实体之间包括负债关系, 担保关系 =true表 示企业实体之间包括担保关系。 9.一种基于企业知识图谱的企业识别装置, 其特 征在于, 所述装置包括: 第一获取模块, 用于获取各个企业实体的舆情信息, 并获取所述舆情信息中的中文关 键词; 词向量处理模块, 用于根据 象形要素对所述关键词分别进行语义拆分, 并根据语义拆 分结果输出 所述企业实体的词向量; 识别模块, 用于通过通过语义关联度解释模型对所述词向量进行识别, 得到所述企业 实体的舆情识别结果, 所述语义关联度解释模型用于识别所述词向量对应的所述关键词与 文本训练数据中各个词或汉字的语义关联度, 并将语义关联度符合预设条件的词或汉字作 为舆情识别结果对所述关键词进行语义层面的解释说明; 第二获取模块, 用于获取各个企业实体的经济信息, 并根据所述经济信息确定所述企 业实体之间的经济关系; 构建模块, 用于根据 各个企业实体的舆情识别结果和所述企业实体之间的经济关系构 建企业知识图谱; 确定模块, 用于根据所述企业知识图谱对所述企业实体进行分级, 确定各个所述企业 实体的级别。 10.根据权利要求9所述的装置, 其特 征在于, 所述词向量处 理模块包括: 转换模块, 用于将关键词转换成繁体字; 拆分映射模块, 用于将繁体字根据象形要素进行拆分映射处 理, 得到语义拆分结果。 11.根据权利要求10所述的装置, 其特征在于, 所述象形要素包括中文五笔字根, 所述权 利 要 求 书 2/4 页 3 CN 114579764 A 3

.PDF文档 专利 一种基于企业知识图谱的企业识别方法及装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于企业知识图谱的企业识别方法及装置 第 1 页 专利 一种基于企业知识图谱的企业识别方法及装置 第 2 页 专利 一种基于企业知识图谱的企业识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:52上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。