(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210224702.2
(22)申请日 2022.03.07
(71)申请人 南京信息 工程大学
地址 224002 江苏省盐城市 盐南高新区新
河街道文港南路10 5号
(72)发明人 胡志臣 许小龙 胡祥奔 程勇
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 董建林
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06F 40/295(2020.01)
G06F 40/216(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于NLP与触发器的实体从属关系抽取
识别方法、 系统、 装置和存 储介质
(57)摘要
一种基于NLP与触发器的实体从属关系抽取
识别方法、 系统、 装置和存储介质, 本发明所述方
法在分析文档上下文语段, 构造实体和关系后,
通过聚类算法, 将松散的子类实体, 与父类实体
相互关联, 形成紧密的查询结构; 在文本实体识
别过程中, 采用构建触发器的方法进行触发要素
的选择, 提高文字识别准确率, 能够更快速、 便捷
地寻找到识别目标; 在数据集构建中, 采取了多
路匹配的方式, 有利于提升整体的数据集构建效
率, 减少人工标注所带来的时间成本。 在针对文
本关系进行抽取过程中, 采用双向长短期神经网
络并结合注 意力机制, 提升文本中抽取实体之间
关系的准确率。
权利要求书4页 说明书10页 附图1页
CN 114625885 A
2022.06.14
CN 114625885 A
1.一种基于N LP与触发器的实体从属关系抽取识别方法, 其特 征在于, 包括:
根据训练文本的上 下文语段, 获取训练文本中自定义多类实体及实体列表;
根据实体列表, 通过聚类处 理得到实体从属关系;
批量输入不同的训练文本到预构建的触发器中进行去重处理, 得到校正的实体和实体
列表;
对得到的校正实体分别进行多路匹配, 记录实体之间的关系标签属性, 生成样本数据
集;
根据样本数据集, 将待识别文本作为输入, 依次经过双 向长短期记忆神经网络模型和
注意机制进行关系抽取, 输出待识别文本的实体从属关系。
2.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在
于, 所述根据训练文本的上 下文语段, 获取文本中自定义多类实体及实体列表; 具体包括:
分析训练文本内容上 下文语段, 获取训练文本语句中自定义多类实体的实体列表:
ER={er1,er2,...,erN}
式中, er1表示第一个种类 的实体列表, er2表示第二个种类的实体列表, erN表示第N个
种类的实体列表;
ER中第n个种类的实体列表的元组表示 为
ern=(timn,geon,natn,orgn,pern), 1≤n≤N,
式中, timn代表实体存在时间, geon代表所发现实体的地理位置, natn代表ern中对应的
实体名称, orgn代表发现实体的组织, pern代表该实体的发现者;
对实体列表数据集进行关系定义:
Relationship={ER1,R1,ER2,ER3,R2,ER4,...,ERn,ERn,ERn+1}, n>1,
式中, ERn代表实体列表数据集中第n个 实体, ERn+1代表实体数据集中第n+1个 实体, Rn代
表关联ERn和ERn+1的第n个关系, R中第n个关系的实体列表的元组表示为rn=(nat‑timn,
nat‑includen,nat‑propertyn,nat‑unknown), 其中1≤n≤N, 其中nat ‑timn代表实体与实体
之间存在时间关系, nat ‑includn代表实体与实体之间存在从属关系, nat ‑propertyn代表实
体与实体之间存在属性 值关系, nat ‑unknown代表实体与实体之间没有任何关系。
3.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在
于, 所述根据实体列表, 通过聚类处 理得到实体从属关系; 具体包括:
通过实体列表来推断其父类节点, 并且推断出所有父类组合路线, 同时计算出多种父
类组合中最佳 的路径, 最终确定该父类实体; 利用实体列表中所含词语出现的频率进行加
权处理, 当输入实体组合中全部在实体列表中出现时则最大比值为1, 其最终词频F表达式
为:
F=tf(d,w)*idf(w)
tf(d,w)= w/d
idf(w)= log(N/N(w) )
式中, tf(d,w)是每一个实体列表子列d中词语w的词频; idf(w)是逆子列频次; w为在子
列中d中出现的次数, d为子列的总词语数; N是实体列表所有的总 列表数, N(w)是包含词语w
的列表数总和。
4.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在权 利 要 求 书 1/4 页
2
CN 114625885 A
2于, 触发器内嵌入 命名体识别中门循环单 元。
5.根据权利要求3所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在
于, 所述批量输入不同的训练文本到预构建的触发器中进行去重处理, 得到校正的实体和
实体列表; 具体包括:
触发器的构建首先确定事件触发词trigger=ern={t1,t2,t3,.....tn}, 还需要设置触
发词的对应事件触发要素argument={a1,a2,a3,.....an}; 所述触发要素包括单一句子中
同时至少包 含两类不同的ern以及相邻两句中至少含有两类不同的ern;
在触发要素下初步筛选 出含有实体句子中, 有 一个当前的输入xt, 和上一个节点传递下
来的隐状态ht‑1, 这个隐状态包含了之前节点的相关信息; 结合xt和ht‑1, 命名体识别中门循
环单元会得到当前隐藏节点的输出yt和传递给 下一个节点的隐状态ht;
通过上一个传输 下来的状态 ht‑1和当前节点的输入xt来获取两个门控状态,计算表 达式
如下:
r= δ(wr[ht‑1,xt])
式中r为控制重置门, δ为si gmoid函数, 通过这个函数将数据变换为0 ‑1范围内的数值,
从而来充当门控信号; ht‑1为上一个传输下来的状态, xt为当前输入的节点, wr为相应的权重
矩阵, [ht‑1, xt]将ht‑1和xt按行叠加起 来;
获得控制更新门Z, 计算表达式如下:
z= δ(wz[ht‑1,xt])
式中z为控制更新门, δ为si gmoid函数, 通过这个函数将数据变换为0 ‑1范围内的数值,
从而来充当门控信号; ht‑1为上一个传输下来的状态, xt为当前输入的节点, wz为相应的权重
矩阵, [ht‑1, xt]将ht‑1和xt按行叠加起 来;
当得到门控信号之后, 首 先使用重 置门控来得到 重置之后的数据, 计算表达式如下:
式中ht‑1′为在将要传递到一下时刻上含有的信息, ht‑1为上一个传输下来的状态,
为
Hadamard Product, 也就是操作矩阵中对应的元素相 乘, 因此要求两个相 乘矩阵是同型, r
为重置门;
将存储信息进行更新数据, 在这个阶段, 同时进行了遗忘和记忆两个步骤, 使用先前得
到的控制更新门z, 更新数据表达式如下:
式中ht表示时间t时隐藏层的状态, z为控制更新门, ht‑1为上一个传输 下来的状态,
为
操作矩阵中对应的元素相乘, (1 ‑z)代表输入门, h ′为传递到下一时刻存储的状态信息;
表示对原本隐藏状态的选择性遗忘,
表示对包含当前节点信息的h ′进行
选择性记 忆;
批量输入不同的训练文本, 通过所述触发器识别出实体, 加上聚类传递将关系列举到
实体之后, 并去除形重复的实体节点, 输出 得到校正的实体及关系表。
6.根据权利要求1所述的基于NLP与触发器的实体从属关系抽取识别方法, 其特征在
于, 所述对得到的校正 实体分别进行多路 匹配, 记录实体之间的关系标签属性, 生成样 本数
据集; 具体包括:权 利 要 求 书 2/4 页
3
CN 114625885 A
3
专利 一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:51:46上传分享