600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 一种实体关系识别模型训练 实体关系识别方法及装置与流程

一种实体关系识别模型训练 实体关系识别方法及装置与流程

时间:2019-07-19 20:50:23

相关推荐

一种实体关系识别模型训练 实体关系识别方法及装置与流程

本申请涉及计算机技术领域,尤其是涉及一种实体关系识别模型训练、实体关系识别方法及装置。

背景技术:

知识图谱技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。而实体抽取和实体关系抽取是只是图谱的构建和知识抽取中的一个重要环节,可以为多种应用提供重要的技术支持。从语料数据中提取出实体以及实体之间的实体关系的精度将直接影响到知识图谱构建的精度。

现有技术中主要通过流水线模型提取语料数据中的实体以及实体关系,然而这种方法容易导致误差累计,精度较低。

技术实现要素:

有鉴于此,本申请的目的在于提供实体关系识别模型训练、实体关系识别方法及装置。

第一方面,本申请实施例提供了一种实体关系识别模型训练方法,包括:

获取带有实体标注的样本语料,并基于所述样本语料的实体标注信息,确定所述样本语料的关系矩阵,其中,所述实体标注用于表示所述样本语料中的每一个字所属的实体类型,所述关系矩阵用于表示所述样本语料中实体之间的实体关系;

将所述样本语料输入至待训练的识别模型中,所述识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将所述样本语料输入至待训练的识别模型中,执行以下操作,直至得到所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料对应的预测关系矩阵:

将所述样本语料转换为样本语料矩阵,并基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵;

基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果;以及,

基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵;

基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,得到实体关系识别模型。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述特征提取模型为双向长短记忆网络模型;

所述基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵,包括:

将所述样本语料矩阵输入至所述特征提取模型中,得到第一样本语料特征矩阵和第二样本语料特征矩阵;

将所述第一样本语料特征矩阵和所述第二样本语料特征矩阵进行拼接,得到所述样本语料特征矩阵。

结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果,包括:

将所述样本语料特征矩阵进行线性转换,并将线性转换后的所述样本语料特征矩阵输入至所述第一预测模型中,输出得到所述样本语料中每一个字属于每种实体类型的概率;

基于所述样本语料中每一个字属于每种实体类型的概率,确定所述样本语料中的每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵,包括:

将所述样本语料特征矩阵输入至所述第二预测模型中,执行以下操作:

将所述样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵;

将所述第一样本特征矩阵和所述第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵;

将所述第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵;

将所述第三样本特征矩阵与所述第四样本特征矩阵相乘,得到所述预测关系矩阵。

结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,包括:

基于所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料的实体标注,确定本次训练过程中的第一损失;以及,

基于所述预测关系矩阵、以及所述样本语料的关系矩阵,确定第二损失;

将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述识别模型中的模型参数,其中,所述模型参数包括所述第一参数矩阵、所述第二参数矩阵、以及所述第三参数矩阵中的元素值。

第二方面,本申请实施例还提供一种实体关系识别方法,包括:

获取待识别语料;

将所述待识别语料输入至基于权利要求1~权利要求5任一实体关系识别模型训练方法训练得到的实体关系识别模型中,输出得到所述待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵;

基于所述待识别语料的每一个字对应的实体预测结果,以及所述预测关系矩阵,确定所述待识别语料中的实体关系。

第三方面,本申请实施例提供了一种实体关系识别模型训练装置,包括:

第一获取模块,用于获取带有实体标注的样本语料,并基于所述样本语料的实体标注信息,确定所述样本语料的关系矩阵,其中,所述实体标注用于表示所述样本语料中的每一个字所属的实体类型,所述关系矩阵用于表示所述样本语料中实体之间的实体关系。

第一预测模块,用于将所述样本语料输入至待训练的识别模型中,所述识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将所述样本语料输入至待训练的识别模型中,得到所述样本语料对应的预测关系矩阵;

所述第一预测模块包括:

确定单元,用于将所述样本语料转换为样本语料矩阵,并基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵;

预测单元,用于基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果;以及,基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵;

训练模块,用于基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,得到实体关系识别模型。

结合第三方面,本申请实施例还提供了第三方面的第一种可能的实施方式,其中,所述特征提取模型为双向长短记忆网络模型;

所述确定单元,在基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵时,具体用于:

将所述样本语料矩阵输入至所述特征提取模型中,得到第一样本语料特征矩阵和第二样本语料特征矩阵;

将所述第一样本语料特征矩阵和所述第二样本语料特征矩阵进行拼接,得到所述样本语料特征矩阵。

结合第三方面,本申请实施例还提供了第三方面的第二种可能的实施方式,其中,所述预测单元,在基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果时,具体用于:

将所述样本语料特征矩阵进行线性转换,并将线性转换后的所述样本语料特征矩阵输入至所述第一预测模型中,输出得到所述样本语料中每一个字属于每种实体类型的概率;

基于所述样本语料中每一个字属于每种实体类型的概率,确定所述样本语料中的每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

结合第三方面,本申请实施例还提供了第三方面的第三种可能的实施方式,其中,所述预测单元,在基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵时,具体用于:

将所述样本语料特征矩阵输入至所述第二预测模型中,执行以下操作:

将所述样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵;

将所述第一样本特征矩阵和所述第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵;

将所述第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵;

将所述第三样本特征矩阵与所述第四样本特征矩阵相乘,得到所述预测关系矩阵。

结合第三方面的第三种可能的实施方式,本申请实施例提供了第三方面的第四种可能的实施方式,其中,所述训练模块,在基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练时,具体用于:

基于所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料的实体标注,确定本次训练过程中的第一损失;以及,

基于所述预测关系矩阵、以及所述样本语料的关系矩阵,确定第二损失;

将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述识别模型中的模型参数,其中,所述模型参数包括所述第一参数矩阵、所述第二参数矩阵、以及所述第三参数矩阵中的元素值。

第四方面,本申请实施例提供了一种实体关系识别装置,包括:

第二获取模块,用于获取待识别语料;

第二预测模块,将所述待识别语料输入至基于权利要求1~权利要求5任一实体关系识别模型训练方法训练得到的实体关系识别模型中,输出得到所述待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵;

实体关系确定模块,用于基于所述待识别语料的每一个字对应的实体预测结果,以及所述预测关系矩阵,确定所述待识别语料中的实体关系。

第五方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式,或第二方面的步骤。

第六方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式,或第二方面的步骤。

本申请实施例提供的实体关系识别模型训练、实体关系识别方法及装置,在对实体关系识别模型进行训练时,可以基于待训练的识别模型,得到样本语料对应的预测关系矩阵,然后基于样本语料的每一个字对应的实体预测结果、以及预测关系矩阵、样本语料的实体标注、以及样本语料的关系矩阵,对识别模型进行训练,得到实体关系识别模型。通过这种方法训练处的实体关系识别模型,在对待识别语料进行识别时,可以同时识别出待识别语料中的实体以及实体之间的关系,提高了实体关系识别的精度。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种实体关系识别模型训练方法的流程示意图;

图2示出了本申请实施例所提供的一种预测关系矩阵确定方法的流程图;

图3示出了本申请实施例所提供的一种实体关系识别方法的流程示意图;

图4示出了本申请实施例所提供的一种实体关系识别模型训练装置的架构示意图;

图5示出了本申请实施例所提供的一种实体关系识别装置的架构示意图;

图6示出了本申请实施例所提供的一种电子设备的结构示意图;

图7示出了本申请实施例所提供的另一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

相关技术中,主要通过流水线模型来提取语料数据中的实体以及实体之间的关系,然而这种方法需要先提取语料数据中的实体,然后再根据实体确定实体之间的关系,若实体识别出错,或者实体识别精度较低,则实体之间的实体关系就会收到影响。本方案所提供的技术,可以同时识别出语料数据中的实体以及实体之间的实体关系,提高了实体关系识别的精度。

为便于对本实施例进行理解,首先对本申请实施例所公开的一种实体关系识别模型训练方法进行详细介绍。

参见图1所示,为本申请实施例所提供的一种实体关系识别模型训练方法的流程示意图,包括以下几个步骤:

步骤101、获取带有实体标注的样本语料,并基于样本语料的实体标注信息,确定样本语料的关系矩阵。

其中,实体标注用于表示样本语料中的每一个字所属的实体类型,关系矩阵用于表示样本语料中实体之间的实体关系。

在一种可能的实施方式中,样本语料的实体标注可以采用序列标注bio标注方法,为样本语料中的每一个字标注实体类型。示例性的,若样本语料为“晓明是北京大学的学生”,该样本语料中实体为“晓明”和“北京大学”,则在为该样本语料添加实体标注时,可以对应添加为“biobiiiooo”,其中,b表示实体开头的第一个字,i表示实体中除b表示的开头的第一个字之外的字,o表示非实体的字,上例中,按照顺序,第一个“b”表示“晓”,“i”表示“明”,“o”表示“是”,以此类推。

在确定样本语料的关系矩阵时,可以先确定样本语料中的实体在样本语料中的位置,然后基于实体在样本语料中的位置,以及实体之间的关系类型,确定样本语料的关系矩阵。例如可以确定实体在语料中的偏移量,沿用上例,在样本语料中“晓明是北京大学的学生”,“晓”字的偏移量为0,“明”字的偏移量是1,而对于实体“晓明”来说,“明”为该实体的最后一个字,则将“明”字的偏移量确定为实体“晓明”的偏移量,同理,可以确定实体“北京大学”的偏移量为6。

在确定样本语料的关系矩阵时,可以先根据样本语料的长度、以及预先设置的实体关系类型,构建一个维度为[s,s,r]的初始关系矩阵,矩阵中的元素的初始值均为0,s表示样本语料的长度,r表示预先设置的实体关系类型的数量,当r取值不同时,表示不同的实体关系,例如当r=1时,表示两个实体之间的实体关系为朋友关系,当r=2时,实体之间的实体关系为亲人关系。在确定实体的偏移量、以及实体关系之后,构建样本语料时可以将对应位置的数置1。

继续沿用上例,若r=3时表示学生关系,共有20种实体关系,则在“晓明是北京大学的学生”的关系矩阵时,可以将维度为[10,10,20]的初始关系矩阵中,[1,6,3]的位置的元素置1,其余元素为0。

步骤102、将样本语料输入至待训练的识别模型中,得到样本语料的每一个字对应的实体预测结果,以及样本语料对应的预测关系矩阵。

其中,识别模型包括特征提取模型、第一预测模型、以及第二预测模型,在将样本语料输入至待训练的识别模型中之后,可以执行如下操作:

步骤1021、将样本语料转换为样本语料矩阵,并基于样本语料矩阵、以及特征提取模型,确定样本语料矩阵对应的样本语料特征矩阵。

具体的,在将样本语料转化为样本语料矩阵时,可以先将样本语料中的每一个字转化为词向量,然后将每一个字的词向量,按照其对应的字在样本语料中的位置进行拼接,得到样本语料对应的样本语料矩阵。

示例性的,若样本语料中包括s个字,每个字对应的词向量为一个1×300维的词向量,则在将词向量进行拼接之后,可以得到一个维度为[s,300]的样本语料矩阵。

在一种可能的实施方式中,特征提取模型为双向长短记忆网络模型,在基于样本语料矩阵、以及特征提取模型,确定样本语料矩阵对应的样本语料特征矩阵时,可以将样本语料矩阵输入至特征提取模型中,输出得到第一样本语料矩阵和第二样本语料特征矩阵,然后将第一样本语料特征矩阵和第二样本语料特征矩阵进行拼接,得到样本语料特征矩阵。

步骤1022、基于样本语料特征矩阵、以及第一预测模型,预测样本语料中的每一个字对应的实体预测结果。

具体实施中,可以先将样本语料特征矩阵进行线性转换,然后将线性变换后的样本语料特征矩阵输入至第一预测模型中,输出得到样本语料中每一个字属于每种实体类型的概率,然后基于样本语料中每一个字属于每种实体类型的概率,确定样本语料中每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

其中,在将样本语料特征矩阵进行线性转换时,可以将样本语料特征矩阵与参数矩阵相乘,得到设定维数的样本语料特征矩阵,实际应用中,若样本语料采用bio标注方法,标签类型只有“b”“i”“o”三种,则可以将样本语料特征矩阵转换为维度为[s,3]的矩阵。

在确定样本语料中每一个字属于每种实体类型的概率之后,可以将概率最大的实体类型确定为该字的预测的实体类型。

在一种可能的实施方式中,第一预测模型可以是条件随机场模型(conditionalrandomfield,crf)。

步骤1023、基于样本语料特征矩阵、以及第二预测模型,预测样本语料对应的预测关系矩阵。

具体的,可以将样本语料特征输入第二预测模型中,执行如图2所示的预测关系矩阵确定方法,包括以下几个步骤:

步骤201、将样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵。

其中,在将样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘之前,还可以先将样本语料特征矩阵进行线性变换,映射到高维度矩阵中,例如,可以将样本语料特征矩阵与另外一参数矩阵相乘。

设第一参数矩阵为c1,第二参数矩阵为c2,样本语料特征矩阵为t1,则将c1与t1相乘,得到第一样本特征矩阵t2,将c2与t1相乘,得到第二样本特征矩阵t3。

需要说明的是,t2和t3的维度相同。

步骤202、将第一样本特征矩阵和第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵。

将t2和t3进行维度转换之后,得到新维度的t2和t3,具体维度转换时,可以是与其他参数矩阵相乘。再将维度的t2和t3的转置相乘,得到第三样本特征矩阵t4。

步骤203、将第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵。

将第三样本特征矩阵t4进行维度转换之后,将t4与第三参数矩阵c3相乘,得到第四样本特征矩阵t5。

步骤204、将第三样本特征矩阵与第四样本特征矩阵相乘,得到预测关系矩阵。

第三样本特征矩阵t4和第四样本特征矩阵t5相乘之后,可以得到预测关系矩阵t6,此时,预测关系矩阵的维度和样本语料的关系矩阵的维度相同。

需要说明的是,步骤1022和步骤1023的执行不分先后顺序。

步骤103、基于样本语料中的每一个字对应的实体预测结果、以及预测关系矩阵、样本语料的实体标注、以及样本语料的关系矩阵,对识别模型进行训练,得到实体关系识别模型。

具体实施中,基于样本语料中每一个字对应的实体预测结果、以及样本语料的实体标注,确定为本次训练过程中的第一损失;以及基于预测关系矩阵、以及样本语料的关系矩阵,确定第二损失;再将第一损失和第二损失之和作为本次训练过程中的损失值,并基于损失值调整识别模型中的模型参数,其中,模型参数包括第一参数矩阵、第二参数矩阵、以及第三参数矩阵中的元素值。

本申请实施例还提供了一种实体关系识别方法,参见图3所示,为本申请实施例所提供的一种实体关系识别方法的流程示意图,包括:

步骤301、获取待识别语料。

步骤302、将待识别语料输入至预先训练好的实体关系识别模型中,输出得到待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵。

其中,本步骤中所述预先训练好的实体关系识别模型可以是基于图1所示的实体关系识别模型训练方法训练得到的。

步骤303、基于待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵,确定待识别语料中的实体关系。

具体的,可以先利用激活函数sigmoid处理所述预测关系矩阵,使得所述预测关系矩阵中的元素的取值只包括“0”和“1”,然后判断预测关系矩阵中取值为“1”的位置坐标,例如,若待识别语料为“晓明是北京大学的学生”,预测关系矩阵中[2,6,7]处的元素取值为1,则说明在输入的待识别语料中,偏移量为2和偏移量为6的实体之间的实体关系是7所对应的实体关系;若实体预测结果为“biobiiiooo”,偏移量为2对应的实体为“晓明”,偏移量为6对应的实体为“北京大学”,则预测出“晓明”和“北京大学”之间存在的实体关系为7所对应的实体关系。

本申请实施例提供的实体关系识别模型训练、实体关系识别方法及装置,在对实体关系识别模型进行训练时,可以基于待训练的识别模型,得到样本语料对应的预测关系矩阵,然后基于样本语料的每一个字对应的实体预测结果、以及预测关系矩阵、样本语料的实体标注、以及样本语料的关系矩阵,对识别模型进行训练,得到实体关系识别模型。通过这种方法训练处的实体关系识别模型,在对待识别语料进行识别时,可以同时识别出待识别语料中的实体以及实体之间的关系,提高了实体关系识别的精度。

基于相同的构思,本申请实施例还提供了一种实体关系识别模型训练装置,参见图4所示,为本申请实施例所提供的一种实体关系识别模型训练装置的架构示意图,包括第一获取模块401、第一预测模块402、以及训练模块403,其中第一预测模块402包括确定单元4021、以及预测单元4022,具体的:

第一获取模块401,用于获取带有实体标注的样本语料,并基于所述样本语料的实体标注信息,确定所述样本语料的关系矩阵,其中,所述实体标注用于表示所述样本语料中的每一个字所属的实体类型,所述关系矩阵用于表示所述样本语料中实体之间的实体关系。

第一预测模块402,用于将所述样本语料输入至待训练的识别模型中,所述识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将所述样本语料输入至待训练的识别模型中,得到所述样本语料对应的预测关系矩阵;

所述第一预测模块402包括:

确定单元4021,用于将所述样本语料转换为样本语料矩阵,并基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵;

预测单元4022,用于基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果;以及,基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵;

训练模块403,用于基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,得到实体关系识别模型。

一种可能的实施方式中,所述特征提取模型为双向长短记忆网络模型;

所述确定单元4021,在基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵时,具体用于:

将所述样本语料矩阵输入至所述特征提取模型中,得到第一样本语料特征矩阵和第二样本语料特征矩阵;

将所述第一样本语料特征矩阵和所述第二样本语料特征矩阵进行拼接,得到所述样本语料特征矩阵。

一种可能的实施方式中,所述预测单元4022,在基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果时,具体用于:

将所述样本语料特征矩阵进行线性转换,并将线性转换后的所述样本语料特征矩阵输入至所述第一预测模型中,输出得到所述样本语料中每一个字属于每种实体类型的概率;

基于所述样本语料中每一个字属于每种实体类型的概率,确定所述样本语料中的每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

一种可能的实施方式中,所述预测单元4022,在基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵时,具体用于:

将所述样本语料特征矩阵输入至所述第二预测模型中,执行以下操作:

将所述样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵;

将所述第一样本特征矩阵和所述第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵;

将所述第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵;

将所述第三样本特征矩阵与所述第四样本特征矩阵相乘,得到所述预测关系矩阵。

一种可能的实施方式中,所述训练模块403,在基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练时,具体用于:

基于所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料的实体标注,确定本次训练过程中的第一损失;以及,

基于所述预测关系矩阵、以及所述样本语料的关系矩阵,确定第二损失;

将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述识别模型中的模型参数,其中,所述模型参数包括所述第一参数矩阵、所述第二参数矩阵、以及所述第三参数矩阵中的元素值。

本申请实施例还提供了一种实体关系识别装置,参见图5所示,为本公开实施例所提供的一种实体关系识别装置的架构示意图,包括第二获取模块501、第二预测模块502、以及实体关系确定模块503,具体的:

第二获取模块501,用于获取待识别语料;

第二预测模块502,将所述待识别语料输入至基于权利要求1~权利要求5任一实体关系识别模型训练方法训练得到的实体关系识别模型中,输出得到所述待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵;

实体关系确定模块503,用于基于所述待识别语料的每一个字对应的实体预测结果,以及所述预测关系矩阵,确定所述待识别语料中的实体关系。

基于同一技术构思,本申请实施例还提供了一种电子设备。参照图6所示,为本申请实施例提供的电子设备的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当电子设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:

获取带有实体标注的样本语料,并基于所述样本语料的实体标注信息,确定所述样本语料的关系矩阵,其中,所述实体标注用于表示所述样本语料中的每一个字所属的实体类型,所述关系矩阵用于表示所述样本语料中实体之间的实体关系;

将所述样本语料输入至待训练的识别模型中,所述识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将所述样本语料输入至待训练的识别模型中,执行以下操作,直至得到所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料对应的预测关系矩阵:

将所述样本语料转换为样本语料矩阵,并基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵;

基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果;以及,

基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵;

基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,得到实体关系识别模型。

一种可能的设计中,处理器601执行的指令中,所述特征提取模型为双向长短记忆网络模型;

所述基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵,包括:

将所述样本语料矩阵输入至所述特征提取模型中,得到第一样本语料特征矩阵和第二样本语料特征矩阵;

将所述第一样本语料特征矩阵和所述第二样本语料特征矩阵进行拼接,得到所述样本语料特征矩阵。

一种可能的设计中,处理器601执行的指令中,所述基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果,包括:

将所述样本语料特征矩阵进行线性转换,并将线性转换后的所述样本语料特征矩阵输入至所述第一预测模型中,输出得到所述样本语料中每一个字属于每种实体类型的概率;

基于所述样本语料中每一个字属于每种实体类型的概率,确定所述样本语料中的每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

一种可能的设计中,处理器601执行的指令中,所述基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵,包括:

将所述样本语料特征矩阵输入至所述第二预测模型中,执行以下操作:

将所述样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵;

将所述第一样本特征矩阵和所述第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵;

将所述第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵;

将所述第三样本特征矩阵与所述第四样本特征矩阵相乘,得到所述预测关系矩阵。

一种可能的设计中,处理器601执行的指令中,所述基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,包括:

基于所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料的实体标注,确定本次训练过程中的第一损失;以及,

基于所述预测关系矩阵、以及所述样本语料的关系矩阵,确定第二损失;

将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述识别模型中的模型参数,其中,所述模型参数包括所述第一参数矩阵、所述第二参数矩阵、以及所述第三参数矩阵中的元素值。

基于同一技术构思,本申请实施例还提供了一种电子设备。参照图7所示,为本申请实施例提供的电子设备700的结构示意图,包括处理器701、存储器702、和总线703。其中,存储器702用于存储执行指令,包括内存7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换,当电子设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701在执行以下指令:

获取待识别语料;

将所述待识别语料输入至基于权利要求1~权利要求5任一实体关系识别模型训练方法训练得到的实体关系识别模型中,输出得到所述待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵;

基于所述待识别语料的每一个字对应的实体预测结果,以及所述预测关系矩阵,确定所述待识别语料中的实体关系。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例中所述的实体关系识别模型训练、实体关系识别方法的步骤。

具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述实体关系识别模型训练、实体关系识别方法的步骤。

本申请实施例所提供的进行实体关系识别模型训练、实体关系识别方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

技术特征:

1.一种实体关系识别模型训练方法,其特征在于,包括:

获取带有实体标注的样本语料,并基于所述样本语料的实体标注信息,确定所述样本语料的关系矩阵,其中,所述实体标注用于表示所述样本语料中的每一个字所属的实体类型,所述关系矩阵用于表示所述样本语料中实体之间的实体关系;

将所述样本语料输入至待训练的识别模型中,所述识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将所述样本语料输入至待训练的识别模型中,执行以下操作,直至得到所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料对应的预测关系矩阵:

将所述样本语料转换为样本语料矩阵,并基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵;

基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果;以及,

基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵;

基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,得到实体关系识别模型。

2.根据权利要求1所述的方法,其特征在于,所述特征提取模型为双向长短记忆网络模型;

所述基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵,包括:

将所述样本语料矩阵输入至所述特征提取模型中,得到第一样本语料特征矩阵和第二样本语料特征矩阵;

将所述第一样本语料特征矩阵和所述第二样本语料特征矩阵进行拼接,得到所述样本语料特征矩阵。

3.根据权利要求1所述的方法,其特征在于,所述基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果,包括:

将所述样本语料特征矩阵进行线性转换,并将线性转换后的所述样本语料特征矩阵输入至所述第一预测模型中,输出得到所述样本语料中每一个字属于每种实体类型的概率;

基于所述样本语料中每一个字属于每种实体类型的概率,确定所述样本语料中的每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

4.根据权利要求1所述的方法,其特征在于,所述基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵,包括:

将所述样本语料特征矩阵输入至所述第二预测模型中,执行以下操作:

将所述样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵;

将所述第一样本特征矩阵和所述第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵;

将所述第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵;

将所述第三样本特征矩阵与所述第四样本特征矩阵相乘,得到所述预测关系矩阵。

5.根据权利要求4所述的方法,其特征在于,所述基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,包括:

基于所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料的实体标注,确定本次训练过程中的第一损失;以及,

基于所述预测关系矩阵、以及所述样本语料的关系矩阵,确定第二损失;

将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述识别模型中的模型参数,其中,所述模型参数包括所述第一参数矩阵、所述第二参数矩阵、以及所述第三参数矩阵中的元素值。

6.一种实体关系识别方法,其特征在于,包括:

获取待识别语料;

将所述待识别语料输入至基于权利要求1~权利要求5任一实体关系识别模型训练方法训练得到的实体关系识别模型中,输出得到所述待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵;

基于所述待识别语料的每一个字对应的实体预测结果,以及所述预测关系矩阵,确定所述待识别语料中的实体关系。

7.一种实体关系识别模型训练装置,其特征在于,包括:

第一获取模块,用于获取带有实体标注的样本语料,并基于所述样本语料的实体标注信息,确定所述样本语料的关系矩阵,其中,所述实体标注用于表示所述样本语料中的每一个字所属的实体类型,所述关系矩阵用于表示所述样本语料中实体之间的实体关系

第一预测模块,用于将所述样本语料输入至待训练的识别模型中,所述识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将所述样本语料输入至待训练的识别模型中,得到所述样本语料对应的预测关系矩阵;

所述第一预测模块包括:

确定单元,用于将所述样本语料转换为样本语料矩阵,并基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵;

预测单元,用于基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果;以及,基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵;

训练模块,用于基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练,得到实体关系识别模型。

8.根据权利要求7所述的装置,其特征在于,所述特征提取模型为双向长短记忆网络模型;

所述确定单元,在基于所述样本语料矩阵、以及所述特征提取模型,确定所述样本语料矩阵对应的样本语料特征矩阵时,具体用于:

将所述样本语料矩阵输入至所述特征提取模型中,得到第一样本语料特征矩阵和第二样本语料特征矩阵;

将所述第一样本语料特征矩阵和所述第二样本语料特征矩阵进行拼接,得到所述样本语料特征矩阵。

9.根据权利要求7所述的装置,其特征在于,所述预测单元,在基于所述样本语料特征矩阵、以及所述第一预测模型,预测所述样本语料中的每一个字对应的实体预测结果时,具体用于:

将所述样本语料特征矩阵进行线性转换,并将线性转换后的所述样本语料特征矩阵输入至所述第一预测模型中,输出得到所述样本语料中每一个字属于每种实体类型的概率;

基于所述样本语料中每一个字属于每种实体类型的概率,确定所述样本语料中的每一个字对应的实体预测结果,所述实体预测结果包括预测实体类型。

10.根据权利要求7所述的装置,其特征在于,所述预测单元,在基于所述样本语料特征矩阵、以及所述第二预测模型,预测所述样本语料对应的预测关系矩阵时,具体用于:

将所述样本语料特征矩阵输入至所述第二预测模型中,执行以下操作:

将所述样本语料特征矩阵分别与第一参数矩阵、第二参数矩阵相乘,得到第一样本特征矩阵和第二样本特征矩阵;

将所述第一样本特征矩阵和所述第二样本特征矩阵分别进行维度转换之后相乘,得到第三样本特征矩阵;

将所述第三样本特征矩阵进行维度转换之后,与第三参数矩阵相乘,得到第四样本特征矩阵;

将所述第三样本特征矩阵与所述第四样本特征矩阵相乘,得到所述预测关系矩阵。

11.根据权利要求10所述的装置,其特征在于,所述训练模块,在基于所述样本语料中的每一个字对应的实体预测结果、以及所述预测关系矩阵、所述样本语料的实体标注、以及所述样本语料的关系矩阵,对所述识别模型进行训练时,具体用于:

基于所述样本语料中的每一个字对应的实体预测结果、以及所述样本语料的实体标注,确定本次训练过程中的第一损失;以及,

基于所述预测关系矩阵、以及所述样本语料的关系矩阵,确定第二损失;

将所述第一损失和所述第二损失之和作为本次训练过程中的损失值,并基于所述损失值调整所述识别模型中的模型参数,其中,所述模型参数包括所述第一参数矩阵、所述第二参数矩阵、以及所述第三参数矩阵中的元素值。

12.一种实体关系识别装置,其特征在于,包括:

第二获取模块,用于获取待识别语料;

第二预测模块,将所述待识别语料输入至基于权利要求1~权利要求5任一实体关系识别模型训练方法训练得到的实体关系识别模型中,输出得到所述待识别语料的每一个字对应的实体预测结果,以及预测关系矩阵;

实体关系确定模块,用于基于所述待识别语料的每一个字对应的实体预测结果,以及所述预测关系矩阵,确定所述待识别语料中的实体关系。

13.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的实体关系识别模型训练方法的步骤,或者执行如权利要求6所述的实体关系识别方法的步骤。

14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的实体关系识别模型训练方法的步骤,或者执行如权利要求6所述的实体关系识别方法的步骤。

技术总结

本申请提供了一种实体关系识别模型训练、实体关系识别方法及装置,包括:获取带有实体标注的样本语料,并基于样本语料的实体标注信息,确定样本语料的关系矩阵;将样本语料输入至待训练的识别模型中,识别模型包括特征提取模型、第一预测模型、以及第二预测模型,将样本语料输入至待训练的识别模型中,得到样本语料中的每一个字对应的实体预测结果、以及样本语料对应的预测关系矩阵:基于样本语料中的每一个字对应的实体预测结果、以及预测关系矩阵、样本语料的实体标注、以及样本语料的关系矩阵,对识别模型进行训练,得到实体关系识别模型。

技术研发人员:徐猛;付骁弈

受保护的技术使用者:北京明略软件系统有限公司

技术研发日:.11.13

技术公布日:.02.21

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。