安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210181526.9 (22)申请日 2022.02.25 (71)申请人 新华智云科技有限公司 地址 310012 浙江省杭州市西湖区文一西 路460号文娱中心43 0室 (72)发明人 郭彦男 刘方然  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 张解翠 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (54)发明名称 一种中文词语图谱的构建方法和系统 (57)摘要 本发明涉及 图谱构建技术领域中的一种中 文词语图谱的构建方法和系统, 包括以下步骤: 获取百万级的中文文本数据, 并对中文文本数据 进行预处理, 得到若干组基础词语和每组基础词 语对应的词性; 将所有基础词语以及对应的词性 输入词语表的基础属性字段, 并拆 分出每组基础 词语的主词根; 根据主词根构建词根关系组, 并 将主词根与词根关系组输入词语表的含义关系 字段, 其中词根关系组包括主词根含义关系、 同 位本体、 修饰、 限定对象和被动, 具有应用领域宽 泛的优点, 突破了传统的中文词语图谱的构建精 确度较低的瓶颈 。 权利要求书2页 说明书7页 附图1页 CN 114547341 A 2022.05.27 CN 114547341 A 1.一种中文词语图谱的构建方法, 其特 征在于, 包括以下步骤: 获取百万级的中文文本数据, 并对所述中文文本数据进行预处理, 得到若干组基础词 语和每组所述基础词语对应的词性; 将所有所述基础词语以及对应的所述词性输入词语表的基础属性字段, 并拆分出每组 基础词语的主词根; 根据所述主词根构建词根关系组, 并将所述主词根与词根关系组输入词语表的含义关 系字段, 其中所述词根关系组包括主词根含义关系 、 同位本体、 修饰、 限定对象和被动。 2.根据权利要求1所述的一种中文词语图谱的构建方法, 其特征在于, 还包括以下步 骤: 对所述中文文本数据进行词向量训练, 获取每组基础词语的词向量, 并根据所述词向 量获取若干组关联词语; 根据所述关联词语获取每组所述关联词语的相关度, 并提取相关度在前n位的关联词 语, 得到提取词语; 将所述提取词语输入词语表的含义关系字段, 并将所述基础词语根据词频进行排序。 3.根据权利要求1所述的一种中文词语图谱的构建方法, 其特征在于, 还包括以下步 骤: 构建词根表, 并根据所述主词根获取该主词根在词根表内的基础属性字段、 含义关系 字段和领域字段, 并将获取到的该主词根在词根表内的基础属 性字段、 含义字段和领域字 段输入词语表的含义关系字段。 4.根据权利要求3所述的一种中文词语图谱的构建方法, 其特征在于, 构建词根表包括 以下步骤: 获取百万级的中文文本数据, 并对所述中文文本数据进行预处理, 得到若干组基础词 语和每组所述基础词语对应的词性; 对所有所述基础词语进行切词聚类提取以及词根切词提取, 得到若干组基础词根, 并 将所有所述基础词根 根据词频进行排序。 5.根据权利要求4所述的一种中文词语图谱的构建方法, 其特征在于, 对所述中文文本 数据进行 预处理, 包括以下步骤: 将所述中文 文本数据依次通过切词处 理、 词性标注处 理以及词性融合处 理。 6.一种中文词语图谱的构建系统, 其特 征在于, 包括: 第一预处理模组, 用于获取百万级的中文文本数据, 并对所述中文文本数据进行预处 理, 得到若干组基础词语和每组所述基础词语对应的词性; 拆分模组, 用于将所有所述基础词语以及对应的所述词性输入词语表的基础属性字 段, 并拆分出每组基础词语的主词根; 第一构建模组, 用于根据所述主词根构建词根关系组并输入词语表的含义关系字段, 其中所述词根关系组包括主词根含义关系 、 同位本体、 修饰、 限定对象和被动。 7.根据权利要求6所述的一种中文词语图谱的构建系统, 其特 征在于, 还 包括: 训练模组, 用于对所述中文文本数据进行词向量训练, 获取每组基础词语的词向量, 并 根据所述词向量获取若干组关联词语; 提取模组, 用于根据所述关联词语获取每组所述关联词语的相关度, 并提取相关度在权 利 要 求 书 1/2 页 2 CN 114547341 A 2前n位的关联词语, 得到提取词语; 排序模组, 用于在所述提取词语输入词语表的含义关系字段后, 将所述基础词语根据 词频进行排序。 8.根据权利要求6所述的一种中文词语图谱的构建系统, 其特征在于, 包括第 二构建模 组, 所述第二构建模组用于构建词根表, 并根据所述主词根获取该主词根在词根表内的基 础属性字段、 含义关系字段和领域字段, 输入词语表的含义关系字段。 9.根据权利要求8所述的一种中文词语图谱的构建系统, 其特 征在于, 包括: 第二预处理模组, 用于获取百万级的中文文本数据, 并对所述中文文本数据进行预处 理, 得到若干组基础词语和每组所述基础词语对应的词性; 切词聚类模组, 用于对所有所述基础词语进行切词聚类提取以及词根切词提取, 得到 若干组基础词根, 并将所有所述基础词根 根据词频进行排序。 10.一种领域词典的构建方法, 其特 征在于, 包括以下步骤: 对业务领域进行定义并划定领域范畴; 根据领域范畴获取词语表中在该领域层级的基础词语以及该基础词语在词语表中的 含义关系字段, 得到词根汇集 集合; 根据获取的基础词语以及词根汇集 集合进行人工层级划分, 得到领域词典。权 利 要 求 书 2/2 页 3 CN 114547341 A 3

.PDF文档 专利 一种中文词语图谱的构建方法和系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种中文词语图谱的构建方法和系统 第 1 页 专利 一种中文词语图谱的构建方法和系统 第 2 页 专利 一种中文词语图谱的构建方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:51:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。