自然语言处理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于向量空间模型和BP神经网络相结合的有导词义消歧方法研究自然语言处理的关键技术词法分析——对句子或词进行切分(分词)词性标注——对切分出来的词选择词性(确定词性)句法分析——对词在句中的功能进行分析(确定词的语法成分)词义分析——对在一个词性下有多个含义的词,选择义项(确定词义)语境分析——隐喻的分析歧义的产生1.分词歧义2.词性歧义3.词义歧义4.其他歧义(如指示代词、隐喻歧义)本文所讨论的词义消岐是为了解决句子中出现一词多义的词在不同语境下的义项问题。词义消岐的现状词义消岐(WSD)一直是自然语言处理(NLP)中的重点和难点问题,同时,也是许多相关领域需要解决的热点问题,如信息检索(IR)、机器翻译(MT)、语音识别、文本分类和自动文摘等。词义消歧虽然已经研究了很长一段时间,但由于词义消歧自身的特点,消歧准确率一直不太理想,无法和词性标注等其它文本处理的正确率处于同一水平。因此,如何进一步改善词义消歧准确率,将是我们继续研究的动力和目标。词义消岐研究的三个阶段①人工智能方法阶段。此阶段的研究主要集中在句子级上。研究方法受限于当时的AI技术(如知识收集瓶颈)。②基于知识的方法阶段。该方法以外部的知识作为知识源,这些知识包括人工整理的、用以确定词到义项的映射关系(如:字典、辞典和词典)。这类方法又包括基于机读词典的方法、基于同义词词典的方法和基于规则的方法。③基于语料库的方法阶段。该方法以语料库作为知识源,通过自动或半自动的方法确定词在不同上下文中的词义。通过使用大规模的语料库,计算机能够自动获得各种统计数据,以此来解决知识空缺问题。近几年国内外许多研究者将统计学和机器学习引入到词义消歧中,提出基于语料库的统计机器学习方法。基于语料库的统计机器学习方法根据训练语料事先是否经过人工标注又分为有指导的和无指导的两类。无指导学习通常被称为聚类任务,而有指导学习通常被称为分类任务,所以所有用于分类的方法都可以用于词义消岐,如决策树、贝叶斯(Bayes)、人工神经网络(ANN)、支持向量机(SVM)、最大熵等等。本文综合了基于向量空间模型的相似度比较和BP神经网络这两种方法来提高消岐准确率向量空间模型(VSM)简介传统的信息检索是指用户给出一个查询(query)以后,在知识库中搜索能回答这个查询的答案文档(document),并通过一定测评机制对它们进行相关性计算.在诸多模型中,由于向量空间模型(vectorspacemodel)具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、文本分类和搜索引擎等信息检索领域的各项应用中,并且取得了较好的效果向量空间模型的基本思想将文档形式化为多维空间中的一个点,以向量的形式给出,即D=(W1,W2,W3,⋯,Wn)其中Wi表示第i个词在文档中的权重。词语权重计算唯一准则就是要最大限度的区分不同文档.采用了一种比较普遍的TF-DIF公式:查询和文档之间的相关性计算——余弦相似度基于VSM模型的词义消岐作类比:信息检索的过程被形式化为计算自然语言查询向量和答案文档之间的相似度,同样词义消歧的过程可以形式化为计算多义词上下文向量与义项向量之间的相似度.最后取相似度值最大的那个义项来标注该多义词。首先确定上下文范围大小。待消岐词周围一定范围的上下文可为词义义项的确定提供较为充分的语言信息。本文采用基于语料库的上下文位置权重统计性平均结果(信息增益)的计算方法来确定上下文有效范围为±6.其次上下文向量的形式化。其中每个分量Wterm-i为词语term-i的权重。Weight(pos)是该termi在上下文中所在位置的权重最后义项向量的形式化。为多义词的每个义项定义一个义项矩阵,矩阵每行是多义词该义项的一个上下文环境,每列是多义词上下文环境中距离该多义词的相对位置(基于一定规模的语料库)。把义项矩阵视为信息检索中的文档,直接采用信息检索向量空间模型中TF-DIF词语权重的计算来完成义项矩阵到向量空间的映射。分析:如果相似度的值太低(如小于0.3)会影响消歧的准确性,为了提高消歧的可靠性,可以设定一个阀值k。若相似度的值小于k,则采用BP神经网络模型进行义项的选择。BP神经网络模型简介BP神经网络(BackPropagation),是利用率很高的一种人工神经网络(ANN)模型,它依靠反馈值来不断调整节点之间的连接权值。这是根据梯度下降原理,加快期望值和实际输出值的收敛速度。在BP神经网络中,首先对输入信息数据化,输入信号从输入层输入后先向前传播到隐藏层,经过激发函数变换之后,把隐结点的输出信息传播到输出结点,再给出输出结果.通常选取的激发函数有Sigmoid型函数、双曲正切函数、线性函数等BP神经网络属于一种学习型的网络结构,即在确定了BP网络拓扑结构后,需要利用输入输出样本集对其进行训练,也就是对网络的权值和阈值进行学习和调整,以使网络实现给定的输入输出映射关系.同时,BP网络对于样本集中未训练过的输入,给出合适的输出,即BP网络的泛化功能。在BP神经网络中,节点之间的连接权值是通过对训练集误差的反向传递来进行不断的修改调整,最终来达到学习的目的。利用BP神经网络构建WSD模型确定输入向量。根据统计结果,在构建模型中,对通常的多义词取其三个义项来构建其向量特征.在模型中,确定的输入向量为:其中i=j=6MImi表示带消歧词的第m个义项与其上文中的第i个词的互信息;MImj′表示带消歧词的第m个义项与其下文中的第j个词的互信息确定输出向量。取每个待消歧词的三个义项来构成输出向量,即定义在输出的三个节点分别为:S1=-1;S2=0;S3=1.确定隐藏层的节点数。通过枚举的办法最终确定15个节点的实验结果最优.训练模型的过程。在训练过程中,使用经过人工标注的训练语料库进行训练。同时,对于每个多义词的每种义项需要选择相同数量的例句来进行学习。BP神经网络算法大致步骤Step1:初始化,在一个大的语料库中找出M个含待消歧词语W的句子;Step2:对于每个含有待消歧词的句子,计算互信息并输入到BP模型中,计算输出值和期望值的误差,进行权值的调整;Step3:当误差无限接近0时,模型构建完毕;否则,返回到Step2;Step4:对未知文本的测试,输入其上下文中的互信息,输出其义项词义消岐整个大致流程预处理文本向量和义项向量的形式化计算余弦相似度训练构造BP神经网络模型分类器测试文本输入输出Cos(V,M)k系统工程化分析系统总体上主要可以分为三个模块,即输入模块、计算模块、输出模块。输入计算输出输入模块省略前期的处理工作。这里的输入为:输入前期处理歧义词w及上下文计算模块计算模块是整个工程的核心,它主要可分为向量形式化计算、余弦相似度计算和BP网络权值调整计算三个部分。输出模块系统的输出为,多义词在给定上下文中的义项。谢谢!

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功