【CN109902145A】一种基于注意力机制的实体关系联合抽取方法和系统【专利】

lxx0023
1 ℃
2020-03-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910048837.6(22)申请日2019.01.18(71)申请人中国科学院信息工程研究所地址100093北京市海淀区闵庄路甲89号(72)发明人虎嵩林　周艳　黄龙涛　韩冀中　(74)专利代理机构北京君尚知识产权代理事务所(普通合伙)11200代理人邱晓锋(51)Int.Cl.G06F16/33(2019.01)G06F16/36(2019.01)G06N3/08(2006.01)(54)发明名称一种基于注意力机制的实体关系联合抽取方法和系统(57)摘要本发明涉及一种基于注意力机制的实体关系联合抽取方法和系统。该方法的步骤包括：将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。该系统包括预处理模块、模型训练模块和结果处理模块。本发明通过更有效的利用句子中的关键信息，提升了关系实体联合抽取的性能，具有良好的实用性。权利要求书2页说明书5页附图3页CN109902145A2019.06.18CN109902145A1.一种基于注意力机制的实体关系联合抽取方法，其特征在于，包括以下步骤：将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。2.根据权利要求1所述的方法，其特征在于，每个所述标签包含三类信息：词在实体中的位置，实体所在的三元组对应的关系类型，实体在三元组中的位置，即属于第一个还是第二个实体。3.根据权利要求2所述的方法，其特征在于，所述词在实体中的位置按照BIES的模式进行表示；所述关系类型为预定义的关系类型中的一种；所述实体在三元组中的位置用1或者2来表示，其中1表示三元组中第一个实体，2表示三元组中第二个实体；用标签O表示词不属于任何三元组。4.根据权利要求1所述的方法，其特征在于，通过爬取大量的非标注语料，训练得到具有语义信息的词向量表示，用于将输入所述基于注意力机制的神经网络模型的句子中的每个词映射成对应的词向量。5.根据权利要求1所述的方法，其特征在于，所述基于注意力机制的神经网络模型的训练过程包括：1)将输入句子中的每个词映射成对应的词向量；2)在编码层，把句子中每个词对应的词向量作为输入，采用双向长短记忆神经网络Bi-LSTM学习句子中每个词的上下文信息；3)在注意力层，利用注意力机制学习对每个词的标签起关键作用的词表示，并将其和编码层学习到的上下文信息表示进行合并，得到每个词对应的有效向量表示dt；4)在解码层，对于输入的第t个词，将有效向量表示dt作为输入，利用长短记忆网络的链式网络，计算每个标签的向量表示Tt；所述长短记忆网络把第t个词的标签的表示向量作为下一个词预测的输入之一，学习到序列标签之间的依赖关系；5)根据得到的标签的向量表示进行计算，得到每个词的对应到各类标签的概率；6)选取所有样本的最大似然函数作为模型的目标函数；7)通过反向传播算法训练模型，更新模型中所有的参数，最终得到标签的预测模型。6.根据权利要求5所述的方法，其特征在于，步骤3)包括：3-1)计算句子中的词和当前被预测词相关性的权重，计算公式为：其中hj表示从编码层得到的第j个词的向量表示，Tt-1表示第t-1个词的标签的向量表示，n表示句子的长度；3-2)将αj，t和词对应的向量表示相乘并进行加权，得到标签相关词表示：权　利　要　求　书1/2页2CN109902145A23-3)利用门控机制把词的上下文信息表示和标签相关词表示进行融合，得到每个词对应的有效向量表示dt。7.根据权利要求6所述的方法，其特征在于，步骤3-3包括：3-3-1)计算上下文信息表示和标签相关词表示各自占有的权重，计算公式为：其中σ表示逻辑函数，表示权重矩阵；3-3-2)把计算出来的权重和这两类表示进行加权，得到包含词的上下文信息和关键词信息的表示向量，即每个词对应的有效向量表示：dt＝gthat+(1-gt)ht。8.根据权利要求5所述的方法，其特征在于，步骤5)所述每个词的对应到各类标签的概率为：yt＝WyTt+by其中，yt为第t个词对应到各类标签的向量表示，Wy为为权重矩阵，Tt表示第t个词的标签的向量表示，by为偏移向量，为第t个词对应到第i类标签的概率分布，为第t个词对应的第i类标签的向量表示，为第t个词对应的第k类标签的向量表示，Nt表示标签的种类数目。9.根据权利要求5所述的方法，其特征在于，步骤6)对模型进行训练的目标函数L定义如下：其中，I(O)是一个切换函数，用来区分关系类型标签和其他类型标签，α则是用来区分这两类标签在计算目标函数的时候的权重，D表示训练语料总的数目，Lm表示第m条语料句子的长度，表示第m个句子中第t个词对应到真实标签的概率值，xm表示第m条训练语料，θ表示模型中的所有参数。10.一种基于注意力机制的实体关系联合抽取系统，其特征在于，包括：预处理模块，负责将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；模型训练模块，负责将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；结果处理模块，负责将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。权　利　要　求　书2/2页3CN109902145A3一种基于注意力机制的实体关系联合抽取方法和系统技术领域[0001]本发明涉及深度学习与自然语言处理技术，具体涉及一种基于注意力机制的实体关系联合抽取方法和系统。背景技术[0002]近年来，互联网信息技术高速发展，新闻、社交等网站每天有海量的新数据产生出来。这些数据中包含着各种各样的内容，其中有很多十分有价值的信息，这些信息对人们的生活起着至关重要的作用。为了抽取并有效使用这些有价值的信息，提出了知识图谱的概念。在知识图谱中把海量数据中的人名、地名等专用名词表示为实体，并且将任意两个实体之间的联系表示为关系。这样海量的数据即被表示为实体和关系的三元组(实体1，关系，实体2)。虽然现有的知识图谱已经包含数亿计的数据，但是网络上的信息每天不断增加，知识图谱中的信息也需要随之进行完善。[0003]为了自动化的对知识图谱进行完善，人们进行了多方面的技术研究，实体关系抽取技术就是其中一种。实体关系抽取主要任务是识别出文本中的实体并确定实体之间存在的语义关系。利用实体关系抽取可以把非结构化的文本转化为结构化的文本，帮助人们更快速便捷的找到所需信息。[0004]目前，实体关系抽取根据抽取方式分为两种类型：流水线式和联合抽取方式。流水线式的实体关系抽取需要先进行实体识别任务，然后根据识别出来的实体，对任意两个实体之间的关系进行分类。这种方式可能没有考虑实体和关系之间的联系，并且实体识别结果的正确与否会直接影响到关系分类的结果。联合抽取方式可以充分利用实体和关系之间的联系，能够取得更好的抽取效果。近期提出的基于序列标注的方式进行实体关系联合抽取可以更好的利用实体和关系的相互关联。虽然这类方法采用了神经网络进行标签序列的预测，但是并未对句子的词，对当前被预测词的重要程度进行区分，这样也就无法更好的利用有关联词的信息同时忽略无关词的信息。发明内容[0005]针对上述技术问题，本发明提出一种基于注意力机制的神经网络结构，来充分利用整个输入句子中的关键信息，提高实体关系抽取的性能。[0006]为了解决上述技术问题，本发明的技术方案如下：[0007]一种基于注意力机制的实体关系联合抽取方法，包括如下步骤：[0008]将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；[0009]将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；[0010]将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。说　明　书1/5页4CN109902145A4[0011]进一步地，每个所述标签包含三类信息：词在实体中的位置，实体所在的三元组对应的关系类型，实体在三元组中的位置，即属于第一个还是第二个实体。[0012]进一步地，所述词在实体中的位置按照BIES的模式进行表示；所述关系类型为预定义的关系类型中的一种；所述实体在三元组中的位置用1或者2来表示，其中1表示三元组中第一个实体，2表示三元组中第二个实体；用标签O表示词不属于任何三元组。[0013]进一步地，通过爬取大量的非标注语料，训练得到具有语义信息的词向量表示，用于将输入所述基于注意力机制的神经网络模型的句子中的每个词映射成对应的词向量。[0014]进一步地，所述基于注意力机制的神经网络模型的训练过程包括：[0015]1)将输入句子中的每个词映射成对应的词向量；[0016]2)在编码层，把句子中每个词对应的词向量作为输入，采用双向长短记忆神经网络Bi-LSTM学习句子中每个词的上下文信息；[0017]3)在注意力层，利用注意力机制学习对每个词的标签起关键作用的词表示，并将其和编码层学习到的上下文信息表示进行合并，得到每个词对应的有效向量表示dt；[0018]4)在解码层，对于输入的第t个词，将有效向量表示dt作为输入，利用长短记忆网络的链式网络，计算每个标签的向量表示Tt；所述长短记忆网络把第t个词的标签的表示向量作为下一个词预测的输入之一，学习到序列标签之间的依赖关系；[0019]5)根据得到的标签的向量表示进行计算，得到每个词的对应到各类标签的概率；[0020]6)选取所有样本的最大似然函数作为模型的目标函数；[0021]7)通过反向传播算法训练模型，更新模型中所有的参数，最终得到标签的预测模型。[0022]一种基于注意力机制的实体关系联合抽取系统，其包括：[0023]预处理模块，负责将训练数据中标注的实体和关系的三元组，转化为每个词对应一个预定义类型的标签的形式；[0024]模型训练模块，负责将训练数据的句子中的每个词映射成对应的词向量，输入基于注意力机制的神经网络模型，并通过反向传播算法进行训练，得到标签预测模型；[0025]结果处理模块，负责将需进行实体关系抽取的句子输入训练完成的标签预测模型，预测出每个词对应的标签，根据标签和三元组中每个词的对应关系，得到句子中存在的实体关系三元组。[0026]本发明的有益效果在于：针对基于标签的实体关系联合抽取中，不能合理利用输入句子中关键信息的问题，提出了利用注意力机制来更好的学习这些特征，具体为：对于利用循环神经网络学习到的上下文信息，采用基于标签的注意力机制计算关键信息的向量表示，同时模型可学习这些关键信息向量和词上下文向量的权重，进行自动融合。这样，本发明通过更有效的利用句子中的关键信息，提升了关系实体联合抽取的性能，具有良好的实用性。附图说明[0027]图1为本发明实施例提供的基于注意力机制的实体关系联合抽取方法流程图；[0028]图2为本发明实施例的神经网络模型结构图；[0029]图3为本实施注意力机制学习词的有效向量表示的示意图。说　明　书2/5页5CN109902145A5具体实施方式[0030]为使本发明的上述目的、特征和优点能够更加明