第七章若干重要的自然语言处理的理论第一节概述本章将介绍若干重要的自然语言处理的理论,主要内容如下:--语言串分析法--短语结构语法--递归转移网络和扩充转移网络--通用句法生成器和线图分析法--范畴语法--链语法--依存语法和配价语法--管辖和约束理论--词汇功能语法--功能合一语法--中文信息MMT模型--蒙太谷语法--广义短语结构语法--中心语驱动的短语结构语法--定子句语法--格语法--优选语义学--概念依存理论第二节语言串分析法美国结构主义语言学的代表人物海里斯(ZelligHarris)是乔姆斯基(NoamChomsky)的老师,他在1964年发表的《句子结构的串分析》(StringAnalysisofSentenceStructure)中,提出了语言串理论(linguisticstringtheory),并在这种理论的基础上提出了“语言串分析法”(linguisticstringanalysis)。这是海里斯为计算机进行英语句法分析而专门研究的分析法。在海里斯的著作中,在不致引起误解的情况下,“串”(string)这个术语既可以用来表示词串(wordsequence),也可以用来表示串式(stringformula)。所谓词串是指任何一个句子或其组成部分中按线性顺序排列的一个或多个词。例如,客厅里坐着两位客人(1)这个句子是由8个词顺序排列而成的一个词串。其中,“客厅”、“里”、“坐”、“着”、“两”、“位”、“客人”分别是句子的组成部分,因而也是词串。所谓串式是指用词类或其次类替换词串中的具体得出单词而形成的符号串。例如,句子(1)的串式是:NFNVPARTNUMMEAN(2)其中,N表示名词,FN表示方位词,V表示动词,PART表示助词,NUM表示数词,MEA表示量词。而“客厅”、“里”、“坐”、“着”、“两”、“位”、“客人”等词串对应的串式分别是:N、FN、V、PART、NUM、MEA、N。词串和串式实际上都是符号按线性排列而成的符号串,它们之间的区别仅在于这些符号在词串中是词,在串式中是词类。在运用语言串分析法来分析句子时,我们将采用词串和串式这样的术语来被分析的句子或它们的某个组成部分。在语言串分析法中,每一个句子都可以看成是由若干个基本串通过附加、连接和替换等方式组合而成的。在组成句子的这些基本串中至少有一个是中心串(centerstring),中心串代表着这个句子的基干。例如,句子(1)中的中心串是:客厅坐客人(3)NVN(4)一般地说,中心串代表了一种语言中的基本句式。除了中心串之外,基本串还包括附加串(adjunctstring)、连接串(conjunctstring)和替换串(replacementstring)。每一个句子都由一个中心串加上零个或多个基本附加成分(elementaryadjuncts)组成,这些附加成分是具有特殊结构的词串,它们本身不是句子,它们直接邻接于中心串或附加成分的前后,或者邻接于中心串或附加成分内部的某个组成部分的前后,从而可以生成任意复杂的句子。例如,句子(1)可以看成是在中心串(3)的基础上,通过下列操作而构成的:1.中心串内部的名词“客厅”后面邻接上方位词“里”;2.中心串内部的动词“坐”后面邻接上助词“着”;3.中心串内部的名词“客人”前面邻接上数词和量词“两”和“位”,接受“两”和“位”的修饰。这样,从中心串出发,通过逐渐扩展的方式,就可以生成语言中无限的句子来。用语言串分析法可以总结出句法规则,其步骤如下:1.用相应的词类符号将词串替换成串式。例如,将(1)中的词串客厅里坐着两位客人(1)替换成串式:NFNVPARTNUMMEAN(2)2.逐步切除词串中的附加串,以获取中心串。例如,对于句子(1)来说,要做如下的切除:--切除“客厅”后面的附加串“里”;--切除“坐”后面的附加串“着”;--切除“客人”前面的数-量附加串“两”和“位”。这样,便获得了中心串及其串式:客厅坐客人(3)NVN(4)4.写出针对上述分析的句法规则。例如,对于(1)(2)(3)(4)来说,可以得到如下句法规则:R1:中心串→NVNR2:N→NFNR3:V→VPARTR4:N→NUMMEAN以上4条规则仅仅是根据一个例句分析归纳出来的。不过,这些句法规则已经具有了一定的抽象性,它们不仅可以描述这一个句子,而且还可以描述一类在结构上与这个句子相似的一类句子。例如,下面的句子都可以用上述4条规则来描述:桌子上放着五个苹果天空中出现了一朵朵云彩墙上挂着一幅山水画招待所里来了三位旅客花瓶里插着一束鲜花广场上耸立着一座纪念碑这些句子对应的串式都是:NFNVPARTNUMMEAN如果我们针对更丰富的语言事实,对上述句法规则稍加扩充,便可以得到更多的句法规则;如果我们用这样的语言串分析法来系统地剖析现代汉语的各种类型的句子,就有可能归纳出具有较广的覆盖面的汉语语法规则。海里斯用这样的方法,对英语的各类句子进行了语言串分析。随后,美国纽约州立大学的研究人员采用语言串分析法成功地开发了一些实用的英语句法分析程序。其中比较著名的系统有两个:一个是塞杰尔(N.Sager)在80年代研制的语言串分析器LSP(LinguisticStringparser),它包括大约250条上下文无关的句法规则和200条限制,词典收词近万条。LSP已经应用于美国的医学信息管理系统,在医院的病历和医学文献的语言信息处理方面获得了相当大的成功。另一个是斯特扎尔考斯基(T.Strzalkowski)开发的英语句法分析器TTP(TaggedTextParser)。TTP的机器词典是根据〈牛津现代高级英语词典〉开发的,语法分析主要采用语言串分析法,TTP接受的是带有词性标记的英语句子,已完成了对5000万词次的英语语料库的快速句法分析,每秒钟可分析两句。第三节短语结构语法短语结构语法是美国语言学家乔姆斯基(N.Chomsky)在50年代根据公理化方法提出的一种语言的形式描述理论。乔姆斯基在《语言描写的三个模型》(Threemodelsforthedescription,1956)《句法结构》(SyntacticStructure,1957)《有限状态语言》(Finite-statelanguage,1958)《论语法的某些形式特性》(Oncerttaiformalpropertiesofgrammars,1959)《语法的形式特性》(Formalpropertiesofgrammars,1963)等论著中,提出了形式语言理论,这种理论基本上是从语言生成的角度来进行研究的。短语结构语法是形式语言理论的主要内容。在形式语言理论中,乔姆斯基提出了不同于传统语法的“形式文法”的定义。我们要了解短语结构语法,首先必须了解乔姆斯基的形式文法究竟是什么。乔姆斯基把形式文法理解为数目有限的规则的集合,这些规则可以生成语言中的合格句子,并排除语言中的不合格句子。形式文法的符号用G表示,用文法G所生成的形式语言用L(G)表示。形式语言是一种外延极为广泛的语言,它既可以指自然语言,也可以指各种用符号构成的语言(例如,计算机使用的程序设计语言)。乔姆斯基把自然语言和各种符号语言放在一个统一的平面上进行研究,因而,他的理论就更加具有概括性。为了与传统语言学所用的术语“语法”相区别。我们把上述意义上的语法叫做“文法”。乔姆斯基把形式文法G定义为四个项目的组合:G=(Vn,Vt,S,P)其中,Vn是非终极符号,不能处于生成过程的终点,Vt是终极符号,只能处于生成过程的终点;Vn与Vt不相交,没有公共元素;S是Vn中的初始符号;P是重写规则,其一般形式为:φ→ψ这里,φ和ψ都是符号串。如果用符号#来表示符号串中的界限,那么,可以从初始符号串#S#开始,应用重写规则#S#→#φ1#,从#S#构成新的符号串#φ1#,再利用重写规则#φ1#→#φ2#,从#φ1#构成新的符号串#φ2#,……,一直到得出不能再继续重写的符号串#φn#为止,这样得出的终极符号串#φn#,显然就是形式语言L(G)中合格的句子。可以采用这种形式文法来生成自然语言。例如,对于汉语而言,我们写出如下的、最为简单的形式文法:G=(Vn,Vt,S,P)Vn={NP,VP,N}Vt={编写,研究,大学,教授,物理,教材,……}S=SP:①S→NPVP②NP→NN③VP→VNP④N→{大学,教授,物理,教材,…}⑤V→{编写,研究,…}这里,初始符号S表示句子,NP表示名词短语,VP表示动词短语,N表示名词。利用这些重写规则,可以从初始符号S开始,生成汉语句子“大学教授编写物理教材”,“大学教授研究物理教材”等。“大学教授编写物理教材”这个句子的生成过程可写成如下形式(后面注明所用规则的号码):SNPVP①NPVNP③NNVNP②NNVNN②大学NVNN④大学教授VNN④大学教授编写NN⑤大学教授编写物理N④大学教授编写物理教材④这样写出来的生成过程,叫做推导史。乔姆斯基根据重写规则的形式,把形式文法分为4类:1.0型文法:重写规则为φ→ψ,并且要求φ不是空符号串。2.上下文有关文法:重写规则为φ1Aφ2→φ1ωφ2,在上下文φ1-φ2中,单个的非终极符号A被重写为符号串ω,所以,这种文法对上下文敏感,是上下文有关的。上下文有关文法又叫做1型文法。3.上下文无关文法:重写规则为A→ω,当A重写为ω时,没有上下文的限制,所以,这种文法对上下文自由,是上下文无关的。上下文无关文法又叫做2型文法。把上下文无关文法应用于自然语言的形式分析中,就形成了“短语结构语法”(phrasestructuregrammar)4.有限状态文法:重写规则为A→aQ或A→a。其中,A和Q是非终极符号,a是终极符号,而A→a只不过是A→aQ这个重写规则中当Q为空符号时的一种特殊情况。如果把A和Q看成不同的状态,那么,由重写规则可知,由状态A转入状态Q时,可生成一个终极符号a,因此,这种文法叫做有限状态文法。有限状态文法又叫做3型文法。每一个有限状态文法的都是上下文无关的,每一个上下文无关文法都是上下文有关的,而每一个上下文有关文法都是0型的,乔姆斯基把由0型文法生成的语言叫0型语言,把由上下文有关文法、上下文无关文法、有限状态文法生成的语言分别叫做上下文有关语言、上下文无关语言、有限状态语言。有限状态语言包含于上下文无关语言之中,上下文无关语言包含于上下文有关语言之中,上下文有关语言包含于0型语言之中。在自然语言处理中,我们最感兴趣的是上下文无关语法和上下文无关语言,它们是短语结构语法理论的主要研究对象。乔姆斯基认为,根据这样的形式语言理论,可以采用有限的规则来描述形式上是潜在地无限的句子,达到以简驭繁的目的。他在我国黑龙江大学出版的《乔姆斯基语言理论简介》一书的序言中说:“一个人的语言知识是以某种方式体现在人脑这个有限的机体之中的,因此,语言知识就是一个由某种规则和原则构成的有限系统。但是一个会说话的人却能讲出并理解他从未听到过的句子以及和我们听到的不十分相似的句子。而且,这种能力是无限的。如果不受时间和记忆力的限制,那么一个人所获得的知识系统规定了特定形式、结构和意义的句子的数目也将是无限的。不难看到这种能力在正常的人类生活中得到自由的运用。我们在日常生活中所使用和理解的句子范围是极大的,无论就其实际情况而言还是为了理论描写上的需要,我们完全有理由认为人们使用和理解的句子范围都是无限的。”早在19世纪之初,德国杰出的语言学家和人文学者洪堡德(W.V.Humboldt,1767-1835)就观察到“语言是有限手段的无限运用”。洪堡德在《论人类语言结构的差异及其对人类精神发展的影响》(1836年单独印行)一书的第十二章“对语言方法的详细分析”中说,“语言面对着一个无限的、无边无际的领域,即一切可思维对象的