第7章自然语言理解2•自然语言理解的概念与发展历史•语音分析•词法分析•句法分析•语义分析•句子的自动理解•机器翻译•自然语言理解系统应用举例3自然语言理解的概念与发展历史•语音分析•词法分析•句法分析•语义分析•句子的自动理解•机器翻译•自然语言理解系统应用举例自然语言理解的概念与发展历史1.什么是自然语言自然语言是指人类语言集团的本族语,如汉语、英语、日语等。自然语言是相对于人造语言而言的。人造语言是指世界语或计算机的各种程序设计语言。众所周知,语言是思维的载体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。2、自然语言的构成(如下图)自然语言理解的概念与发展历史6•微观角度:从自然语言到机器内部的一个映射。•宏观角度:使机器能够执行人类所期望的某种语言功能。(1)回答问题:计算机正确地回答用自然语言输入的有关问题。(2)文摘生成:机器能产生输入文本的摘要。(3)释义:机器能用不同的词语和句型来复述输入的自然语言信息。(4)翻译:机器能把一种语言翻译成另外一种语言。自然语言理解的概念与发展历史1.萌芽时期(20世纪40年代末50年代初)2.以关键词匹配技术为主的时期(20世纪60年代始)A.DonaldBooth&W.WeaverM.Chomsky形式语言和文法3.以句法语义分析技术为主的时期(20世纪70年代后)4.基于知识的自然语言理解发展时期5.基于大规模语料库的自然语言理解发展时期68年B.Raphael:语义检索系统SIRJ.Weizenbaum:心理医疗ELIZA72年W.Woods:语音接口LUNART.Winograd:英语对话SHEDLU自然语言理解的概念与发展历史8•自然语言理解的概念与发展历史语音分析•词法分析•句法分析•语义分析•句子的自动理解•机器翻译•自然语言理解系统应用举例9•声音表达句子的层次:音素→音节→音词→音句。•在有声语言中,最小的、可独立的声音单元是音素,音素是一个或一组音,它可与其他音素相区别。如pin和bin中分别有/p/和/b/这两个不同的音素,但pin,spin和tip中的音素/p/是同一个音素,它对应了一组略有差异的音。•语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。语音分析10•自然语言理解的概念与发展历史•语音分析词法分析•句法分析•语义分析•句子的自动理解•机器翻译•自然语言理解系统应用举例词法分析•定义:从句子中切分出单词,找出词汇的各个词素,并确定其词义。例:unchangeable:un-change-able英语词法分析特点:切分单词容易,找出词素复杂。例:importable分为import-able或im-port-able12•通过词法分析可以从词素中获得许多语言学信息。•英语中词尾中的词素“s通常表示名词复数,或动词第三人称单数,“ly是副词的后缀,而“ed通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。•另一方面,一个词可有许多的派生、变形,如work,可变化出works,worked,working,worker,workings,workable,workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。词法分析13词法分析例如:对于单词catches、ladies可以做如下的分析。catchesladies,词典中查不到catcheladie修改1:去掉scatchladi修改2:去掉elady修改3:把i变成y这样,在修改2的时候,就可以找到catch,在修改3的时候就可以找到lady。ly副词后辍;ed动词过去分词词法分析算法举例:repeatlookforwordindictionaryifnotfoundthenmodifythewordUntilwordisfoundornofurthermodificationpossible14•自然语言理解的概念与发展历史•语音分析•词法分析句法分析•语义分析•句子的自动理解•机器翻译•自然语言理解系统应用举例15句法分析乔姆斯基语法体系转移网络扩充转移网络句法分析树自动句法分析算法句法分析句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。•乔姆斯基(Chomsky)指出:人类语言具有无限性,一个人学习一种语言时,并不是通过接触语言的所有语句,而是学习语言的内在结构知识。•这种结构知识是一种严格形式化的规则系统,对自然语言进行描述,无须任何未在系统中明确表示的附加信息,就能生成符合所描述语言语法规范的自然语言语句,并且为每个句子赋予一个结构化描述。句法分析句法分析短语结构语法G的形式化定义一部短语结构语法G可以用如下的四元组来定义:G=(Vt,Vn,S,P)其中,Vt是终结符的集合,终结符是指被定义的那个语言的词(或符号);Vn是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。Vt和Vn的并构成了符号集V。V=Vt∪Vn,Vt∩Vn=φ(φ表示空集);S是起始符,它是集合Vn中的一个成员;P是一个产生式规则集。每条产生式具有如下的形式:a→b其中a∈V+,b∈V*,且a≠b;V*表示由V中的符号所构成的全部符号串(包括空符号串φ)的集合,V+表示V*中除φ之外的一切符号串的集合。短语结构语法理论与乔姆斯基语法体系19句法分析Vt=(the,man,killed,a,deer,likes)Vn=(S,NP,VP,N,ART,V,Prep,PP)S=SP:(1)S→NP+VP(2)NP→N(3)NP→ART+N(4)VP→V(5)VP→V+NP(6)ART→the|a(7)N→man|deer(8)V→killed|likes例1G=(Vt,Vn,S,P)乔姆斯基定义的四种形式语法(1)0型语法-无约束短语结构词法。(2)1型语法-上下文有关语法。(3)2型语法-上下文无关语法。(4)3型语法-正则语法。型号越高所受约束就越多,生成能力就越弱,能生成的语言集就越小。句法分析1型语法-上下文有关语法。Acontext-sensitivegrammar(CSG)isaformalgrammarinwhichtheleft-handsidesandright-handsidesofanyproductionrulesmaybesurroundedbyacontextofterminalandnonterminalsymbols.AformalgrammarG=(N,T,P,S)iscontext-sensitiveifallrulesinPareoftheformαAβ→αγβwhereA∈N(i.e.,Aisasinglenonterminal),α,β∈(NUΣ)*(i.e.,αandβarestringsofnonterminalsandterminals)andγ∈(NUT)+(i.e.,γisanonemptystringofnonterminalsandterminals).句法分析2型语法-上下文无关语法ThegrammarG=({S},{a,b},S,P),withproductionsS→aSa,S→bSb,S→ε,iscontext-free.AtypicalderivationinthisgrammarisS→aSa→aaSaa→aabSbaa→aabbaa.句法分析3型语法-正则语法AregulargrammarS→a,S→aS,S→bSTheterminalshereareaandb,whiletheonlynon-terminalisS.Thelanguagedescribedisallnonemptystringsofasandbsthatendina.Thisgrammarisregular:norulehasmorethanonenonterminalinitsright-handside,andeachofthesenonterminalsisatthesameendoftheright-handside.Everyregulargrammarcorrespondsdirectlytoanondeterministicfiniteautomaton,soweknowthatthisisaregularlanguage.Itiscommontolistallright-handsidesforthesameleft-handsideonthesameline,using|(thepipesymbol)toseparatethem.Hencethegrammarabovecanbedescribedmoreterselyasfollows:S→a|aS|bS句法分析24转移网络例:转移网络的一般结构由结点和带有标记的弧构成,其中结点表示状态,弧对应于符号,实现从一个状态转移到另一个状态。开始状态中间状态终止状态NPVP开始状态开始状态中间状态中间状态终止状态终止状态ARTNVNPVNS→NP+VPNP→ART+NNP→NNP→V+NPNP→V25转移网络例Themanlaughed.扩充转移网络AugmentedtransitionnetworkATNparsersTerminalsandnon-terminals(grammarsymbols)arerepresentedasframes.Grammarsymbolcharacteristicsarerepresentedasslots:DictionaryentriesforasimpleATNParsetreefor“Thedoglikesaman”likesThedogamansubject-verbagreement句法分析树例如:Themankilledadeer.S→NP+VP→ART+N+VP→Theman+VP→Theman+V+NP→Themankilled+NP→Themankilled+ART+N→Themankilledadeer.在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推导过程用树形图表示出来,那么这种图称为句法分析树。(1)S→NP+VP(2)NP→N(3)NP→ART+N(4)VP→V(5)VP→V+NP(6)ART→the|a(7)N→man|deer(8)V→killed|likes30句法分析自动句法分析算法1、自顶向下回朔算法2、自底向上并行算法自动句法分析算法.pptx32•自然语言理解的概念与发展历史•语音分析•词法分析•句法分析语义分析•机器翻译•自然语言理解系统应用举例33语义分析是将句法成分与应用领域中的目标表示相关联。只有在获得输入语句可靠的语义表示之后,系统才能进一步完成问答、释义、翻译和文摘生成等任务。语义文法格文法语义分析34•所谓语义文法是在传统的短语结构文法的基础上,将N(名词),V(动词)等语法类别的概念,用所讨论领域的专门类别来代替。下面给出的是为舰船管理数据库系统提供自然语言接口的示例系统中的语义文法片断:•S→whatisSHIP-PROPERTYofSHIP?•SHIP-PROPERTY→theSHIP-PROP|SHIP-PROP•SHIP-PROP→speed|length|draft|beam|type•SHIP→SHIP-NAME|thefastestSHIP2|thebiggestSHIP2|SHIP2•SHIP-NAME→Huanghe|Changjiang|Jin