ArtificialIntelligencePrinciplesandApplications第10章自然语言理解及其应用教材:王万良《人工智能及其应用》(第2版)高等教育出版社,2008.62第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别3第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别410.1.1自然语言理解的概念微观角度:从自然语言到机器内部的一个映射。宏观角度:使机器能够执行人类所期望的某种语言功能。(1)回答问题:计算机正确地回答用自然语言输入的有关问题。(2)文摘生成:机器能产生输入文本的摘要。(3)释义:机器能用不同的词语和句型来复述输入的自然语言信息。(4)翻译:机器能把一种语言翻译成另外一种语言。510.1.2自然语言理解研究的产生与发展1.萌芽时期(20世纪40年代末50年代初)2.以关键词匹配技术为主的时期(20世纪60年代始)A.DonaldBooth&W.WeaverM.Chomsky形式语言和文法3.以句法语义分析技术为主的时期(20世纪70年代后)4.基于知识的自然语言理解发展时期5.基于大规模语料库的自然语言理解发展时期68年B.Raphael:语义检索系统SIRJ.Weizenbaum:心理医疗ELIZA72年W.Woods:语音接口LUNART.Winograd:英语对话SHEDLU6第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别7文字表达句子的层次:词素→词或词形→词组或句子。声音表达句子的层次:音素→音节→音词→音句。语言处理过程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。语用分析:研究语言所存在的外界环境对语言使用产生的影响。构成单词发音的独立单元是音素。上下文不同而发音不同。语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。10.2语音分析8第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别910.3词法分析定义:从句子中切分出单词,找出词汇的各个词素,并确定其词义。例:unchangeable:un-change-able英语词法分析特点:切分单词容易,找出词素复杂。例:importable分为import-able或im-port-able词法分析算法举例:repeatlookforwordindictionaryifnotfoundthenmodifythewordUntilwordisfoundornofurthermodificationpossible1010.3词法分析例如:对于单词catches、ladies可以做如下的分析。catchesladies,词典中查不到catcheladie修改1:去掉scatchladi修改2:去掉elady修改3:把i变成y这样,在修改2的时候,就可以找到catch,在修改3的时候就可以找到lady。例如:优秀人才学人才学1.优秀人-才学人才学2.优秀人才-学人才学汉语词法分析特点:找出词素简单,切分出词困难。ly副词后辍;ed动词过去分词11第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别1210.4句法分析10.4.1乔姆斯基的形式文法10.4.2句法分析树10.4.3转移网络10.4.4扩充转移网络1310.4.1乔姆斯基的形式文法1950年提出,表示形式:G=(T,N,S,P)T:终结符集合N:非终结符集合S:起始符P:产生式规则集T=(the,man,killed,a,deer,likes)N=(S,NP,VP,N,ART,V,Prep,PP)S=SP:(1)S→NP+VP(2)NP→N(3)NP→ART+N(4)VP→V(5)VP→V+NP(6)ART→the|a(7)N→man|deer(8)V→killed|likes例1G=(T,N,S,P)141型文法:上下文有关文法2型文法:上下文无关文法3型文法:正则文法左线性文法:A→Bt或A→t(A→Bt→Ct*t)右线性文法:A→tB或A→t产生式规则:x→y产生式规则:x→y例:AB→CDE√ABC→DE×XaY→XbY产生式规则:A→x0型文法:无约束短语结构文法10.4.1乔姆斯基的形式文法1510.4.2句法分析树例如:Themankilledadeer.S→NP+VP→ART+N+VP→Theman+VP→Theman+V+NP→Themankilled+NP→Themankilled+ART+N→Themankilledadeer.在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来,那么这种图称为句法分析树。1610.4.2句法分析树句法分析树举例1710.4.3转移网络例:转移网络的一般结构由结点和带有标记的弧构成,其中结点表示状态,弧对应于符号,实现从一个状态转移到另一个状态。开始状态中间状态终止状态NPVP开始状态开始状态中间状态中间状态终止状态终止状态ARTNVNPVNS→NP+VPNP→ART+NNP→NNP→V+NPNP→V1810.4.3转移网络例Themanlaughed.1910.4.4扩充转移网络ATN(augmentedtransitionnetwork)ATN由一组转移网络组成:每个TN都有一个网络名,弧上的条件扩充为条件加上操作。由寄存器的方式实现。数:单数和复数,缺省为空ATN的寄存器构成:句法特征寄存器和句法功能寄存器。特征寄存器:每一维特征都由一个特征名和一组特征值以及一个缺省值来表示。功能寄存器:反映了句法成分之间的关系和功能。2010.4.4扩充转移网络短语(NP)的扩充转移网络:①f→gA:Number←*.Number②g→hC:Number←*.NumberorФ应用:检查NP中数的一致问题,其中特征是“数”,值为单数和复数。C是弧上的条件,A是弧上的操作。*是当前值。thisbook,thebook,thebooks,thesebooks可以顺利通过,而thisbooks或thesebook就无法通过。21第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别2210.5语义分析语义分析是将句法成分与应用领域中的目标表示相关联。简单做法:依次使用独立的句法分析程序和语义解释程序。缺点:使句法分析、语义分析分离语义文法格文法2310.5.1语义文法语义文法是将文法知识和语义知识组合起来,以统一的方式定义为文法规则集。舰船信息:S→PRESENTtheATTRIBUTEOFSHIPPRESENT→Whatis|CanyoutellmeATTRIBUTE→length|classSHIP→theSHIPNAME|CLASSNAMESHIPNAME→HUANGHE|CHANGJIANGCLASSNAME→carrier|submarine2410.5.2格文法目的:为了找出动词和跟动词处在结构关系中的名词的语义关系,同时也涉及动词或动词短语与其他的各种名词短语之间的关系。特点:允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却对应于语义关系,而非严格的句法关系。例:MaryhitBillBillwashitbyMary(Hit(AgentMary)(DativeBill))2510.5.2格文法SSNPNPVPVPVNPVPPBillMaryhitwashitbyBillMary主动句和被动句的句法分析树26第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别2710.6.1语料库及其特征1990年l3届国际计算机语言学大会提出大规模真实文本目标基于规则方法的缺点:自然语言理解的复杂性,各种知识的“数量”繁多,高度的不确定性和模糊性。传统词典特征及不足:特征:把各类不同的信息放入一个词汇单元中,包括拼音、读音、词形变化及派生词、词根、短语、时态变换的定义及说明、同义词、反义词、特殊用法注释,偶尔还有图示或插图。不足:以“树”为例,解释为一种大型的、木制的、多年生长的、具有明显树干的植物。缺失了很多构造性信息2810.6.1语料库及其特征90年代,自然语言理解的研究在基于规则的技术中引入语料库,包括统计方法、基于实例的方法和通过语料加工手段使语料库转化为语言知识库的方法等。WordNet语料库:1990年由Princeton大学的Miller等人设计和构造的。包含将近95600个词形(51500单词和44100搭配词)和70100个词义,分为名词、动词、形容词、副词和虚词5类。WordNet中,按语义而不是按词性来组织词汇信息,名词有57000个,含有48800个同义词集,分成25类文件,平均深度12层。最高层为根概念,不含有固有名词。2910.6.2汉语自动分词方法(1)最大匹配法:在计算机中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字串,与词典中的词进行匹配,若匹配不成功,则把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。(2)逆向最大匹配法:从待切分文本中截取字符串的方向是从右到左。匹配不成功时,将所截取的汉字串从左至右逐次减去一个汉字,再与词典中的词进行匹配,直到匹配成功为止。(3)逐词遍历匹配法:逐词遍历匹配法中存放的词按由长到短的顺序,逐个与待切分的语料文本进行匹配,直到把文本中的所有词都切分出来为止。3010.6.2汉语自动分词方法汉语自动分词难点:(1)词的概念(2)岐义问题(3)未登录词的识别各类名字、缩略语、派生词、专业术语3110.6.3汉语词性的标注方法难点:兼类词的词类歧义排除意义(1)对文本进行文法分析或句法分析等更高层次的文本加工提供基础。(2)通过对标注过的语料进行统计分析等处理。具有两个或两个以上词性的词3210.6.4汉语词义的标注方法难点:多义词的歧义排除意义(1)对文本中的每个词根据其所属上下文给出它的语义编码。(2)语音合成、情报检索、机器翻译、自动校对等。33第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语音分析10.3词法分析10.4句法分析10.5语义分析10.6基于语料库的大规模真实文本的处理10.7机器翻译10.8语音识别3410.7机器翻译10.7.1机器翻译方法概述10.7.2范例式机器翻译系统10.7.3翻译记忆3510.7.1机器翻译方法概述发展历程:直接型间接型中间语言型转换型361.直译式翻译系统(directtranslationMTsystems)通过快速的分析和双语词典,将原文译出。2.规则式翻译系统(rule-basedMTsystems)先分析原文内容,产生原文的句法结构,再转换成译文的句法结构,最后再生