(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210244258.0
(22)申请日 2022.03.14
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 贾海涛 乔磊崖 王云 李家伟
高源 陈泓秀
(51)Int.Cl.
G06N 5/04(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
G06F 16/36(2019.01)
(54)发明名称
一种基于双边路径质量评估的强化学习知
识图谱推理方法
(57)摘要
本发明公开了一种基于双边路径质量评估
的强化学习知识图谱推理方法。 该 发明针对传统
知识图谱强化学习推理算法未明确定义推理路
径质量的问题所导致的虚假路径及对长路径推
理效果差的问题, 设置双边路径质量评估模块,
通过爬取维基百科作为外部辅助信息, 对头尾实
体描述信息关键词集合与路径实体分别计算语
义相似度, 拟合后代替原来的奖励模块反馈给智
能体, 激励其选择高质量路径。 该方法将智 能体
在环境中游走得到的路径映射到LSTM策略网络,
以双边路径质量评估器的输出作为奖励反馈给
智能体, 最终实现较为准确的实体关系路径学
习, 对长路径有着更高的适应性和敏感度。
权利要求书3页 说明书7页 附图9页
CN 114626530 A
2022.06.14
CN 114626530 A
1.一种基于双边路径质量评估的强化学习知识图谱推理方法, 包括以下步骤:
步骤1: 根据表示学习方法Trans系列在事实预测任务的原始评分, 选择相应表征能力
更强的表示学习方法来表示 强化学习环境, 嵌入方法在数据集上的原始推理结果可以直接
反应此表示方法与数据集的适配程度, 评 分越高, 推理效果越好, 即表明此方法能够更多 更
完善地获取数据原本的语义信息, 算法环 境具有更强的表征能力; 基于此, 本文选择TransD
做为NELL‑995的表示方法, 选择TransH作为FB15K ‑237的表示方法;
步骤2: 使用专家数据进行预训练, 在预训练过程中采用双边BFS来寻找实体之间的正
确路 径 , 对 于 监 督 学 习 , 算 法 给 每 一 个 成 功的 游 走 + 1的 奖 励 , 得 到 形 如式
的奖励公式并更新策略网络;
步骤3: 通过爬取维基百科语料获得外部辅助信息, 爬取知识图谱中每个头尾实体的描
述信息集合, 将初始语料进 行分词、 停用词等预 处理使其可被后续使用, 运用基于BERT 预训
练模型的关键词提取 方法提取每 个实体描述信息的关键词集 合;
步骤4: 该步骤是专利核心内容: 记录每次成功游走时智能体经过的路径实体集Ep=
{e1, e2, ..., en}, 在所有 头尾实体描述信息关键词集合中提取此时头实体es与尾实体et分别
对应的关键词集合Ws={word1, word2, ..., wordh}与Wt={words1, words2, ..., wordsk}, 分
别对路径实体集Ep中的每个实体与Ws和Wt做语义相似度计算, 以头实体es描述信息关键词
集合中的关键词wor d1和路径实体集合为例, 根据Word2Vec表示模型与余弦相似度的语义
计算方法, 计算word1和路径实体集合中每个词语所对应的cosine距离, 可得出头实体es的
关键词word1与路径实体集 合的语义相似度X11如下式所示:
式中所指皆为 向量, 同理可得尾实体et描述信息关键词 集合与路径实体集合的语义相
似度矩阵Wij(i=1,2,...,n; j=1,2,...,k), 另外, 以头实体es举例, 将矩阵Xij中的每一行
提取出来, 例如提 取第i行得到{Xi1, Xi2, ..., Xih}, 其中分别对应路径实体ei与头实体es描述
信息关键词集 合中的每 个词{word1, word2, ..., wordh}的语义相似度, 即为Xi, 如式所示:
将其加权取平均, 则可 得出路径实体ei与头实体的近似语义相似度Simi如式所示:
经过以上处理, 得到每个路径实体ei(i=1,2,...,n)与头实体描述信息每个关键词的
相似度集合Simi={Sim1, Sim2, ..., Simn}(i=1,2,...,n), 随着路径的不断增加, 路径实体
ei与头实体e1描述信息关键词的相似度对整个路径的反映程度不同, 随着i的不断增加,
Simi对整体路径质量的影响应该不断缩减, 为此, 对每个路径实体的相似度赋予不同权重,
尽量保证路径质量能被更有说服力的相似度评估, 同时也顾及到了较遥远的相似度对整体
路径质量 不可忽略的影响,权 利 要 求 书 1/3 页
2
CN 114626530 A
2设置路径实体相似度权 重wi为如式所示:
离头实体es最近的路径实体e1的相似度权重为1/2, 随着路径长度不断增加, 权重以指
数倍数下降, 当路径长度为n时, 到达路径实体集中的最后一个实体en, 也为距离头实体最
远的路径实体, 为了使整体权重之和为1, 取en处的相似度 权重与en‑1处的权重相等, 则可得
头实体描述信息关键词集 合与路径实体集的最终语义相似度Sims如式所示:
Sims的取值范围同余弦相似度的取值范围为[0,1]; Sims的值即可表示此次游 走得到的
路径质量, 值越接 近1则表示路径质量越好, 反 之亦然;
同理可得尾实体描述信息关键词集 合与路径实体集的最终语义相似度Simt如式所示:
在奖励再训练的过程中, 使用 双边路径质量评估模块替换原先人为设定的奖励函数,
在之前的强化学习知识图谱推理算法中, 奖励只存在两种情况: 一为智能体无法到达目标
顶点, 则奖励为0; 二为智能体成功到达目标顶点, 奖励为1, 这种人为设置的奖励函数无疑
没有考虑到路径是否正确和路径的好坏程度, 在基于双边路径质量评估的强化学习知识图
谱推理算法中, 使用双边路径质量评估模块替代原先 的奖励函数, 将得到的双边路径质量
作为奖励 模块的输出, 反馈给智能体, 其中包含三个部 分: 头实体描述信息 关键词集合与路
径实体集的相似度(路径质量评估)得分与尾实体描述信息关键词集合与路径实体集的相
似度(路径质量评估)得分以及路径长度奖励, 具体奖励得分如式所示:
其中, Rlength为路径长度奖励, 是为路径长度的倒数, 即路径越长路径长度奖励越小; α
与β 为人工设定的奖励权重, 将在实验时根据模型结果进行相应调整, 取值范围为[0, 1]且
满足α +β =1, 当智能体成功到达目标实体et时, 将获得值为Rtotal的奖励; 若智能体无法到达
目标实体, 则奖励为0;
步骤5: 以步骤4的输出为奖励, 使用式
更新策略网
络;
步骤6: 结果分析, 对于链接预测实验, 在NELL ‑995上, RLKGR ‑BPQA(本实验)在各链接预
测任务上总体结果都优于其他实验, 在NELL ‑995上, 本实验的MAP指标相比较与TransE、
TransR、 PRA和DeepPat h分别增长了6.7%, 1.6%, 12.8%, 0.8%, 在FB15 K‑237上, 本实验的
MAP指标相比较与Tran sE、 TransR、 PRA和DeepPat h分别增长了10.5%, 9.8%, 9.6%, 6.5%,
更深层的分析, 在NELL ‑995数据集上, 本实验对比DeepPath在结果指标Hits@1, Hits@3, MRR
和MAP值上分别增长了0.4%, 1.3%, 0.5%, 0.8%, 在FB15K ‑237数据集上, 本实验对比
DeepPath在结果指标Hits@1, Hits@3, MRR和MAP值上分别增长了7.4%, 7.5%, 5.7%,
6.5%; 对于事实预测实验, 在NELL ‑995数据集中, 本实验的MAP值比TransE、 TransR、权 利 要 求 书 2/3 页
3
CN 114626530 A
3
专利 一种基于双边路径质量评估的强化学习知识图谱推理方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:52:04上传分享