(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210413638.2
(22)申请日 2022.04.15
(71)申请人 大连理工大 学
地址 116024 辽宁省大连市甘井 子区凌工
路2号
(72)发明人 李丽双 董姜媛
(74)专利代理 机构 大连星河彩舟专利代理事务
所(普通合伙) 2126 3
专利代理师 陈玲玉 杨阳
(51)Int.Cl.
G06F 16/36(2019.01)
G16H 10/60(2018.01)
G06N 5/02(2006.01)
G06N 3/04(2006.01)
G06F 40/295(2020.01)G06F 16/28(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于中文电子病历知识图谱的实体对
齐方法
(57)摘要
本发明提出一种基于中文电子病历知识图
谱的实体对齐方法。 该方法包括: 构建训练集和
测试集, 在异构医学知 识图谱上构建用于实体对
齐的训练集和测试集; 利用规则对医学知识图谱
进行推理, 补全缺失的关系, 缓解医学知识图谱
之间的结构异质性; 构建基于门控机制的双视角
图神经网络模 型, 旨在对异构医疗知识图谱进行
对齐与融合, 在兼顾准确率和人工成本的基础
上, Hits@5 的准确率高达85.4%, 有效的整合现
有的医疗资源, 推动智慧医疗的发展。
权利要求书2页 说明书7页 附图1页
CN 114722216 A
2022.07.08
CN 114722216 A
1.一种基于中文电子病历知识图谱的实体对齐方法, 其特征在于, 分别获取两个异构
医学知识图谱的实体集, 并对实体进行种子对标注, 将标注成功的实体种子对作为训练集
和测试集; 还 包括如下步骤:
步骤1, 利用规则补全知识图谱;
根据每个异构医学知识图谱中预设的规则, 合并所有规则得到规则集合K; 将规则集合
K应用于每个异构医学知识图谱, 给定一条规则κ∈K, 查找满足该规则的所有前提三元组,
并依据规则推 断出结论异构三元组, 若其不存在于原知识图谱则添加至原知识图谱, 达到
知识图谱补全的目的; 得到补全后的两个异构医学知识图谱G=(E,R,T)和G ′=(E′,R′,
T′), 其中E、 E ′分别代表第一实体集和第二实体集, R、 R ′分别代表第一关系集和第二关系
集, T、 T′分别代表第一三元 组集合和第二三元 组集合, e∈E,r∈R,t∈T分别代表G中任一实
体、 关系、 三元组;
步骤2, 构建基于门控机制的双视角图神经网络模型;
步骤2.1, 构建实体交 互视角网络;
根据补全后的异构医学知 识图谱中的任一实体ei和它的邻居实体的嵌入表示计算得到
自注意力分数, 利用自注意力分数聚合实体的邻居特征向量, 得到实体ei在实体交互视角
中第l层的表示;
步骤2.2, 构建 关系交互视角网络;
补全后的异构医学知识图谱G和G'的关系特征矩阵相互作用, 得到关系相似度矩阵, 然
后进行最大池化操作, 得到关系匹配 向量; 最后利用从关系匹配向量中得到的跨图匹配分
数聚合来自邻居的信息; 得到补全后的异构医学知识图谱中的任一实体ei在关系交互视角
中第l层的表示;
步骤2.3, 门控聚合;
分别对步骤2.1构建的实体交互视角网络和步骤2.2构建的关系交互视角网络门控聚
合, 分别得到实体交 互视角网络的输出hi,1和关系交 互视角网络的输出hi,2;
通过门控机制将两个视角门控聚合的输出 再聚合得到实体ei的最终表示hi;
步骤3, 计算嵌入距离;
基于步骤2.3得到的实体的最终表示, 利用d( ·)计算两个异构医学知识图谱实体间的
嵌入距离, 距离越小代表实体越相 似; 其中d( ·)为L2范式; 利用训练集中的种子对监督模
型训练, 使得对齐实体的距离逐渐 变小, 非对齐实体的距离逐渐 变大。
2.根据权利要求1所述的基于中文电子病历知识图谱的实体对齐方法, 其特征在于, 所
述步骤2.1构建实体交 互视角网络中的自注意力分数
的计算公式如下:
其中
是自注意力系数, 代表实体ej对ei的重要程度;
代表实体包括
自身在内的邻居, “||”代表向量拼接, LeakyReLU( ·)是激活函数; W1,W2和p是可训练参数。
3.根据权利要求2所述的基于中文电子病历知识图谱的实体对齐方法, 其特征在于, 所权 利 要 求 书 1/2 页
2
CN 114722216 A
2述步骤2.1构建实体交互视角网络中利用由公式(1)的自注意力分数
聚合实体ei的邻居
特征向量, 得到实体ei在实体交 互视角中第l层的表示, 计算公式如下:
其中,
是该视角网络中第l层的权 重参数, σ( ·)为激活函数, 选择为ReLU( ·)。
4.根据权利要求1所述的基于中文电子病历知识图谱的实体对齐方法, 其特征在于, 所
述步骤2.2构建 关系交互视角网络中, 关系匹配向量的计算公式为:
M=fM(fS(R,R′)) (4)
其中, fS(·)代表关系相似度计算函数, 定义为fS(R,R′)=RTR′, R和R′分别代表待对齐
的两个医学知识图谱的关系特征矩阵; fM(·)代表最大池化操作函数; 由关系匹配向量M计
算得到跨图匹配分数
公式如下:
其中M[·]代表关系匹配度索引操作; T代 表知识图谱的三元组集 合;
利用跨图匹配分数
计算实体ei在关系交 互视角中第l层的表示, 计算公式为:
其中
是该视角网络中第l层的权 重参数, σ( ·)为激活函数, 选择为ReLU( ·)。
5.根据权利要求1所述的基于中文电子病历知识图谱的实体对齐方法, 其特征在于, 所
述步骤2.2构建关系交互视角网络中, 关系r的初始化表示由以r为关系的所有三元组的头
尾实体的嵌入表示得到, 计算公式如下:
其中Tr代表以r为关系的三元组集 合, eh和et分别代表相应的头尾实体嵌入。
6.根据权利要求1所述的基于中文电子病历知识图谱的实体对齐方法, 其特征在于, 所
述步骤2.3门控聚合中, ε层网络的门控聚合公式为:
其中ρξ( α, β )=gξ·α +(1‑gξ)·β, gξ为可训练参数用于控制每个网络 各层输出; τ为视角
类别, 即关系交互视角或实体交 互视角;
分别利用公式(9)对步骤2.1构建的实体交互视角网络和步骤2.2构建的关系交互视角
网络门控聚合, 分别得到实体交 互视角网络的输出hi,1和关系交 互视角网络的输出hi,2;
实体ei的最终表示通过 门控机制将两个视角门控 聚合的输出再聚合得到, 计算公式如
下:
hi=g1·hi,1+(1‑g1)·hi,2 (10)
其中g1是可训练的参数用于控制两个视角的聚合。权 利 要 求 书 2/2 页
3
CN 114722216 A
3
专利 一种基于中文电子病历知识图谱的实体对齐方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:51:50上传分享