基于心理学原理的自然语言理解

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于心理学原理的自然语言理解演讲:佟毅计日1002班2013年11月15日引言自然语言是人类千百年来智慧的结晶,它的产生和现今成为人们交际的必要工具,这些都与人们的心理过程密切相关,通过对语言的运用,人的感觉、知觉、记忆、注意、思维、想象等各种心理过程都不可避免地出现了许多新特点。因而,基于心理学的原理实现对自然语言的理解,不仅是自然语言理解在人工智能方面的一种体现,也对于自然语言研究提供了新的研究途径。目录1234文字知觉加工与文字识别词语加工句法剖析的递归转移网络结论(一)、文字知觉加工与文字识别关于文字知觉加工的心理学理论大致包含有:模板匹配说,原型说,特征说,群魔殿理论,知觉加工理论,组块理论和语音知觉的心里模型等。这里主要讲述一下前三种学说在计算机领域中的应用。模板匹配说。原型说特征说模板匹配说人的文字知觉加工,是由于作用于人的视网膜的字母或汉字的刺激,激活了相应的视细胞,继而激活了相应的视觉神经元。每个这样的细胞只有一个“点”。因此人的文字知觉是从“点”开始的。相比之下,计算机扫描到的信息,也是分解到“点”的。而人眼所接受的文字信息其大小是不会完全一致,所以在进行匹配之前,不得不对接受的文字信息进行归一化的预处理,这种预处理,对于计算机的文字识别来说是相当必要的。归一化处理重心归一化计算出汉字的重心后将重心移到汉字点阵的规定位置,这样大多数汉字笔画分布比较匀称,因此重心归一化不会造成字形的失真。因为重心是全局性的,所以抗干扰能力强。外框归一化根据汉字点阵的外围边框进行的,先判断汉字点阵的外围外框,然后按比例将汉字进行放大或缩小。显然,边框搜索是局部性的,受外围边框的确定影响很大,为减少外围边框影响,可以用由外向内的累加笔画像素数达到一定阈值判为外的位置。原型说原型是指一类客体的所有成员的概括的内部表征,反映其中的基本特征。由于原型是一种概括的表征,所以这种比较不要求严格的表针匹配,只需近似的匹配就行。在信息的与处理中,平滑去噪处理大致与此相同。对文字图形来说,文字笔画附近的斑点,笔画中的空洞对于文字的匹配是有一定的影响。平滑去噪处理平滑去噪处理是采用临域投票的方法。其原理是对数字图像中的每个点(i,j),分别以该点为中心,考查该点周围领域内各点的值,从而确定该点的取值为邻域内多数点的取值情况。d1d2d3d8d0d4d7d6d5特征说特征与特征分析在客体的知觉中起着关键的作用,并且外部客体在人的长时记忆中是以各种特征来表征的。所以,在知觉的过程中,首先要对刺激的特征进行分析,然后将这些特征加以合并,再同长时记忆中的各种刺激的特征进行比较。特征分析说最符合人的知觉特点,因而得到了广泛应用。其中包括周边特征、网格特征、像素密度特征、笔画密度特征和复杂指数等方法。复杂指数复杂指数反映了文字x方向和y方向笔画的复杂程度,该特征对文字的位置、大小不敏感。x方向和y方向黑像素的总数水平散度和垂直散度质心位置(二)、词语加工关于词语的加工,大致包括了词法处理与分词、心理词典的结构以及词义的通达。这里重点介绍一下后两者。心理词典的结构词义通达词义消歧心理词典的结构心理词典指的是句法与单词语义信息的词典。语义就是单词代表的概念,这些概念彼此之间通过各种关系连接起来。当前心理词典的组织结构的主流观点是将该词典视为一部有各个概念相互连接而成的语义网络。其结构有如下三种模型:层次网络模型,激活扩展模型和语义特征模型。层次网络模型1969年,Collins与Quillian首次提出了心理词典的层次网络模型。这个模型成为关于语义记忆的第一个心理模型。层次网络模型的结构是由结点与连线构成的一个网络。其中节点表示概念,连线连接结点,表示节点间的关系。当一个概念被激活,先到相应节点提取相关信息,如有必要还要沿着连线向上搜索,直到找到需要的结点。激活扩展模型Collins与Loftus一道(1975)提出激活扩展模型。该模型保留了网络的结构,但没有层次的结构,用节点来表示概念,用连线来表示概念之间的关系,而连线的长短则代表联系的强弱关系。词义通达单词识别之后,通过查阅词典可以获得其意义。可以说,词义是单词识别的标志性变量。人如何获得词义的过程是人对言语理解的中心环节。而对于词义的理解的心理模型有两种:自动搜寻模型和联结主义的痕迹模型。自动搜寻模型Forster(1976)提出了一个自动搜寻模型。该模型主张,词义的通达具有自主性,不受自上而下的加工影响,语境对词义的通达既不起促进作用,也不起抑制作用。即利用知识本体自身来实现对于词汇的理解。这里介绍冯志伟设计的一个知识本体系统ONTOL-MT。其初始概念有事物、时间、空间、数量、行为状态和属性6个ONTOL-MTONTOL-MT知识本体系统中的概念,实际上也就是单词本身所固有的语义特征,它们是独立于上下文而存在的,因此,可以用这些概念来表示机器翻译词典中的单词的古有语义特征。在日汉机器翻译中,利用单词固有的这些语义特征在机器翻译系统中进行日与分析同形词的判别效果良好。ONTOL-MT例如:在日语中“きしゃ”包含三种含义,而在句子“きしゃ1はきしゃ2できしゃ3した”其中三个“きしゃ”存储的信息如下:如果语义特征是[HUMAN],则为“记者”;如果语义特征是[VEHICLE],则为“火车”;如果语义特征是[MOVEMENT],则为“回公司”。并且有语义框架“[HUMAN]は[VEHICLE]で[MOVEMENT]”则根据相关助词,就可正确翻译同形词的词义。词义消歧在词义的理解当中,对于歧义词的处理是最难解决的。作为语言的接受者,一般利用上下文信息来对歧义词进行解歧。在计算机当中,早期的词义消歧是采用基于规则的分析方法,而20世纪80年代后,机器学习方法也被用于语义消歧。这里介绍下基于互信息的消歧方法和基于贝叶斯分类器的消歧方法。基于互信息的消歧方法该方法是P.F.Brown等人(1991a)受到统计机器翻译模型的启发而提出的,其基本思想是对每个需要消歧的多义词寻找一个上下文特征,这个特征能够可靠地提示该多义词在特定上下文语境中使用的是哪种语义。而这个特征可以看作是语义指示器。P.F.Brown等人利用Flip-Flop算法来解决指示器分类问题。Flip-Flop算法假设T1,T2,…,Tm是一个多义单词的翻译,V1,V2,…,Vn是指示器可能的取值。那么,可将Flip-Flop算法简要描述如下:1.随机地将T1,T2,…,Tm划分为两个集合:P1和P2,即P={P1,P2};2.执行如下循环:找到V1,V2,…,Vn的一种划分Q={Q1,Q2},使其与P之间的互信息最大;找到T1,T2,…,Tm的一种改进的划分,使其与Q的互信息最大。根据互信息的定义:I(P;Q)=由公式可以看出,每次迭代互信息I(P;Q)都应该单调增加,因此,算法终止条件是其函数值不再增加。基于贝叶斯分类器的消歧方法W.A.Gale等人(1992)提出了基于贝叶斯分类器的词义消歧方法,其基本思想:在双语语料库中多义词的翻译取决于该词所处的上下文语境c,如果某个多义词w有多个翻译si(i≥2),可以通过计算确定w的词义。根据贝叶斯公式和独立性假设可以得到公式:基于贝叶斯分类器的消歧方法算法描述如下:训练过程对于多义词w的每一个语义si执行如下循环:对于词典中所有词vk计算对于多义词vk的每一个语义si计算消歧过程对于多义词w的每一个语义si计算P(si),并根据上下文中的每个词vk计算P(vk|si);选择(三)句法剖析的递归转移网络•一是不依赖于语义的知识而“自主”地进行的(Forster1979;Frazier1982)。该理论认为,句法剖析子系统在一定的原则的基础上自主地得出句子或短语的结构剖析,然后又语义分析子系统对这些结构分析进行语义匹配。如果匹配不成功,则再转回到句法剖析子系统中重新进行结构剖析。•另一种是Tyler与Marslen-Wilson(1986)以及Altmann与Steedman(1988)提出的相互作用理论。该理论认为在句法剖析同语义分析之间始终存在着很强的、即使的信息交换,语义信息既可限制、指导句法剖析得出正确的结构分析,也可以对句法剖析得到多种结果进行即时选择,从而影响下一步的句法剖析方向。(三)句法剖析的递归转移网络两种理论在句法剖析的过程中,在遇到歧义性的句子时,测试者的视线都会暂时停留在当前的位置或者回到之前的句子中,这实际上是人在文字知觉时的眼动行为。例如读下列句子时:1.Themansings.2.Themanwhothewomanseessings.3.Themanwhothewomanwhothegirlseesseessings.从上述例子中我们可以发现,语言符号是按同样的方式不扩张的性质,就是语言符号的递归性。所以在计算机中,我们可以利用一种递归转移网络来实现句法的剖析。递归转移网络递归转移网络(RecursiveTransitionNetwork,简称RTN)的建立可以如下图:例如:“ThetablethatlacksaleghitsJack”转移状态是:0→1→2→3→4→5→2→6→f递归转移网络把这些相似的子网络分离出来,构成单独的子网络S-网络:VP-子网络:NP-子网络:递归转移网络进一步化简NP-子网络:VP-子网络:递归转移网络为了方便阅读,我们规定网络中的状态用如下方式表示:S/0表示S-网络中状态0,VP/1表示VP-子网络中的1,NP-2表示NP-子网络中的2。PUSH表示下推到下一个子网络,POP表示上托到上一个子网络。ThetablethatlacksaleghitsJack(四)、结论综合自然语言理解中关于文字识别,词语加工以及句法剖析等的心理学原理在机器理解自然语言中的应用,我们不难发现,对于机器理解自然语言的处理中,许多都是基于人本身对于自然语言理解过程的而进一步的模型化。所以,对于未来机器理解自然语言的进一步扩展与完善中,不是单一盲目去构造抽象的算法与程序,而是结合人在理解自然语言过程中的心理模型,以促进自然语言理解的进一步发展。而对于已有所应用的模型,也有待做进一步的优化处理,达到更为实用的理想效果。参考文献李伯约,赛丹,2007,自然语言理解的心理学原理,学林出版社宗成庆,2008,统计自然语言处理,清华大学出版社杨宪泽等,2007,自然语言处理的原理及其应用,西南交通大学出版社冯志伟,2012,自然语言处理简明教程,上海外语教育出版社冯志伟,2010,自然语言处理的形式模型,中国科学技术大学出版社蔡自兴,徐光祐,2010,人工智能及其应用,清华大学出版社参考文献邹崇理,2000,自然语言逻辑研究,北京大学出版社鲍林格,1993,语言要略,外语教学与研究出版社心理学百科全书1995,浙江教育出版社谢谢聆听·

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功