安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210181526.9 (22)申请日 2022.02.25 (71)申请人 新华智云科技有限公司 地址 310012 浙江省杭州市西湖区文一西 路460号文娱中心43 0室 (72)发明人 郭彦男 刘方然 (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 张解翠 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (54)发明名称 一种中文词语图谱的构建方法和系统 (57)摘要 本发明涉及 图谱构建技术领域中的一种中 文词语图谱的构建方法和系统, 包括以下步骤: 获取百万级的中文文本数据, 并对中文文本数据 进行预处理, 得到若干组基础词语和每组基础词 语对应的词性; 将所有基础词语以及对应的词性 输入词语表的基础属性字段, 并拆 分出每组基础 词语的主词根; 根据主词根构建词根关系组, 并 将主词根与词根关系组输入词语表的含义关系 字段, 其中词根关系组包括主词根含义关系、 同 位本体、 修饰、 限定对象和被动, 具有应用领域宽 泛的优点, 突破了传统的中文词语图谱的构建精 确度较低的瓶颈 。 权利要求书2页 说明书7页 附图1页 CN 114547341 A 2022.05.27 CN 114547341 A 1.一种中文词语图谱的构建方法, 其特 征在于, 包括以下步骤: 获取百万级的中文文本数据, 并对所述中文文本数据进行预处理, 得到若干组基础词 语和每组所述基础词语对应的词性; 将所有所述基础词语以及对应的所述词性输入词语表的基础属性字段, 并拆分出每组 基础词语的主词根; 根据所述主词根构建词根关系组, 并将所述主词根与词根关系组输入词语表的含义关 系字段, 其中所述词根关系组包括主词根含义关系 、 同位本体、 修饰、 限定对象和被动。 2.根据权利要求1所述的一种中文词语图谱的构建方法, 其特征在于, 还包括以下步 骤: 对所述中文文本数据进行词向量训练, 获取每组基础词语的词向量, 并根据所述词向 量获取若干组关联词语; 根据所述关联词语获取每组所述关联词语的相关度, 并提取相关度在前n位的关联词 语, 得到提取词语; 将所述提取词语输入词语表的含义关系字段, 并将所述基础词语根据词频进行排序。 3.根据权利要求1所述的一种中文词语图谱的构建方法, 其特征在于, 还包括以下步 骤: 构建词根表, 并根据所述主词根获取该主词根在词根表内的基础属性字段、 含义关系 字段和领域字段, 并将获取到的该主词根在词根表内的基础属 性字段、 含义字段和领域字 段输入词语表的含义关系字段。 4.根据权利要求3所述的一种中文词语图谱的构建方法, 其特征在于, 构建词根表包括 以下步骤: 获取百万级的中文文本数据, 并对所述中文文本数据进行预处理, 得到若干组基础词 语和每组所述基础词语对应的词性; 对所有所述基础词语进行切词聚类提取以及词根切词提取, 得到若干组基础词根, 并 将所有所述基础词根 根据词频进行排序。 5.根据权利要求4所述的一种中文词语图谱的构建方法, 其特征在于, 对所述中文文本 数据进行 预处理, 包括以下步骤: 将所述中文 文本数据依次通过切词处 理、 词性标注处 理以及词性融合处 理。 6.一种中文词语图谱的构建系统, 其特 征在于, 包括: 第一预处理模组, 用于获取百万级的中文文本数据, 并对所述中文文本数据进行预处 理, 得到若干组基础词语和每组所述基础词语对应的词性; 拆分模组, 用于将所有所述基础词语以及对应的所述词性输入词语表的基础属性字 段, 并拆分出每组基础词语的主词根; 第一构建模组, 用于根据所述主词根构建词根关系组并输入词语表的含义关系字段, 其中所述词根关系组包括主词根含义关系 、 同位本体、 修饰、 限定对象和被动。 7.根据权利要求6所述的一种中文词语图谱的构建系统, 其特 征在于, 还 包括: 训练模组, 用于对所述中文文本数据进行词向量训练, 获取每组基础词语的词向量, 并 根据所述词向量获取若干组关联词语; 提取模组, 用于根据所述关联词语获取每组所述关联词语的相关度, 并提取相关度在权 利 要 求 书 1/2 页 2 CN 114547341 A 2前n位的关联词语, 得到提取词语; 排序模组, 用于在所述提取词语输入词语表的含义关系字段后, 将所述基础词语根据 词频进行排序。 8.根据权利要求6所述的一种中文词语图谱的构建系统, 其特征在于, 包括第 二构建模 组, 所述第二构建模组用于构建词根表, 并根据所述主词根获取该主词根在词根表内的基 础属性字段、 含义关系字段和领域字段, 输入词语表的含义关系字段。 9.根据权利要求8所述的一种中文词语图谱的构建系统, 其特 征在于, 包括: 第二预处理模组, 用于获取百万级的中文文本数据, 并对所述中文文本数据进行预处 理, 得到若干组基础词语和每组所述基础词语对应的词性; 切词聚类模组, 用于对所有所述基础词语进行切词聚类提取以及词根切词提取, 得到 若干组基础词根, 并将所有所述基础词根 根据词频进行排序。 10.一种领域词典的构建方法, 其特 征在于, 包括以下步骤: 对业务领域进行定义并划定领域范畴; 根据领域范畴获取词语表中在该领域层级的基础词语以及该基础词语在词语表中的 含义关系字段, 得到词根汇集 集合; 根据获取的基础词语以及词根汇集 集合进行人工层级划分, 得到领域词典。权 利 要 求 书 2/2 页 3 CN 114547341 A 3
专利 一种中文词语图谱的构建方法和系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 08:51:16
上传分享
举报
下载
原文档
(377.3 KB)
分享
友情链接
T-CI 155—2023 基于多模态大模型的智慧交通出行技术规范.pdf
T-CCGA 40005—2021 加氢站用液驱活塞氢气压缩机安全使用技术规范.pdf
GB-T 14337-2022 化学纤维 短纤维拉伸性能试验方法.pdf
信通院 人工智能伦理治理研究报告 2023年.pdf
GB-T 28458-2020 信息安全技术 网络安全漏洞标识与描述规范.pdf
T-CIE 070—2020 工业级高可靠集成电路评价 第4部分: 非易失性存储器.pdf
GB-T 38319-2019 建筑及居住区数字化技术应用 智能硬件技术要求.pdf
GB-T 6730.65-2009 铁矿石 全铁含量的测定 三氯化钛还原重铬酸钾滴定法 常规方法.pdf
DB23-T 3477—2023 黑龙江省企业数字化采购指南 黑龙江省.pdf
DB37-T 5252-2023 《房屋建筑施工扬尘防治技术规程》 山东省.pdf
T-CESA 1169—2021 信息技术 人工智能 服务器系统性能测试规范.pdf
GB-T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第2部分:指标体系.pdf
GM-T 0009-2012 SM2密码算法使用规范.pdf
GB-T 39559.1-2020 城市轨道交通设施运营监测技术规范 第1部分:总则.pdf
DB32-T 3721-2020 高标准农田建设项目制图及其图例规范 江苏省.pdf
GB-T 43500-2023 安全管理体系 要求.pdf
专利 资产暴露面信息获取方法、装置、设备以及存储介质.PDF
GB-T 24582-2023 多晶硅表面金属杂质含量测定 酸浸取-电感耦合等离子体质谱法.pdf
DB52-T 1597-2021 计量检测元数据及交互规范 贵州省.pdf
GB-T 27563-2011 工业用N-甲基-2-吡咯烷酮.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(377.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。