第四章典型的短语歧义格式举例及相应的排歧策略

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

面向中文信息处理的现代汉语短语结构规则研究第五章现代汉语短语结构歧义的消解策略分析§5.1现代汉语短语结构歧义消解策略概述实际上在第三章介绍具体的短语结构规则和在第四章宏观地分析现代汉语短语结构组合的各种歧义类型时,已经涉及到了不少有关解决歧义结构分析问题的具体措施,并提出了一些原则性的看法。本章主要是在此基础上,更集中地来讨论短语结构歧义的消解策略。概括而言,所有的短语结构歧义,都应该可以转化为两项成分的搭配问题来描述1。这包括:(一)两项成分能否搭配2。表现在形式规则上就是,有没有一条关于某两个成分的组合规则。比如,假设一个规则集合中只有一条“vp-vpnp”规则,那么关于vp跟np两项成分组合,不会有歧义,但如果再引入一条规则“np-vpnp”,显然就会发生歧义,即vp跟np组合,既可以理解为vp,也可以理解为np。不难看出,向规则集中增加规则,提高了规则对所描述的语言对象的覆盖能力。但必须意识到,增加一条规则,就必然增加更多的歧义可能性。(二)两项成分搭配时需要满足什么条件。这是看规则中有没有以合一等式表达的关于某两个成分搭配的限制条件。比如规则集中有规则“vp-vpnp”和“np-vpnp”,如果没有关于其中vp和np的任何限制,那么任何一个vp加上一个np就既可以理解为vp,也可以理解为np。但假如规定符合条件C1的vp加上符合条件C2的np才能形成vp,符合条件C3的vp加上符合条件C4的np才能形成np,那么对不同的具体的vp+np组合,就可能正确判断其到底应该理解为vp还是理解为np了(参见上文有关规则的条件说明)。不难看出,给出两项成分的搭配条件,是提高分析的精度(降低歧义),但同时会导致规则的覆盖面降低,即本来应该能分析出来的结构,可能由于条件的限制分析不出来了。很显然,(一)、(二)两方面也是关于规则集合的两个指标。前者可以大致表示规则对语言现象的覆盖能力,后者则决定了规则所能达到的对语言对象分析的精度。这两个指标间有制约关系。规则最终的整体表现,是在这两个指标间寻求一种平衡(参见3.6小结中相关说明)。以上述认识为背景,再来看如何处理第四章中区分出的不同歧义类型,问题可以得到进一步的清晰化。这里以“外显型歧义格式”和“内含型歧义格式”两种歧义类型的区分为主,同时兼及“真歧义”和“准歧义”的情况,来展开说明。(1)对“简单外显型歧义格式”,有可能在两项成分能否搭配的层面就可以解决歧义,或者可能在这个层面部分地解决。(2)对“复杂外显型歧义格式”和“内含型歧义格式”,光在“能否搭配”这个层面不能解决歧义问题,只有准确描述了两项成分的搭配条件,才有可能解决歧义问题。但根据歧义是“准歧义”还是“真歧义”,又有所不同。(3)对“内含型歧义格式”,同时又是“准歧义”类型的歧义情况,在短语结构层面通过描述两项成分的搭配条件,是可能解决歧义问题的。(4)对“内含型歧义格式”,同时又是“真歧义”类型的歧义情况,不可能在短语结构层面,以规则加条件描述的方式完全解决歧义问题。下面我们以三个歧义格式为例,分三个小节展开说明能通过短语组合规则加条件约束方式解决的歧义问题的情况。最后在“小结”中对在目前的分析框架下难以解决的歧义问题作些简单的说明。104第五章现代汉语短语结构歧义的消解策略分析§5.2现代汉语短语结构歧义的消解举例5.2.1“p对np的vp”格式歧义分析这个格式的歧义主要是短语结构的定界歧义,具体来说,就是“p对+np+的+vp”排列格式可以有下面两种组合(层次切分)方式。a.p对+np+的+vp例:对爷爷的死||||b.p对+np+的+vp例:对祖国的热爱||||按a方式组合,“p对+np+的+vp”格式的整体功能类是pp;按b方式组合,“p对+np+的+vp”格式的整体功能类是np。虽然上面两例分别都是单义的,但在实际语言使用中,也很容易找到有歧义的实例,如“对王经理的批评”,既可以按a分析为pp,也可以按b分析为np。因此,这个歧义格式实际上是一个“绝对外显型”的“真歧义”格式。从现代汉语短语结构的整体系统来看,pp跟np两个功能类基本不出现在同样的结构位置(类似与语音上互补的两个音位)。从搭配的角度就是,pp跟np基本没有共同的搭配对象。比如pp最典型的搭配是可以跟vp搭配形成一个状中式vp,而np没有这种搭配情况。同时,np的典型搭配是跟vp搭配形成主谓式dj(np+vp)或述宾式vp(vp+np),这也是pp所没有的搭配情况。因此当“p对+np+的+vp”格式出现在实际的句子中时,通常是很容易判别其应该按哪一种组合方式进行分析的。比如:(1)A小组长对王经理的批评产生了抵触情绪。(按a切分,pp作状语)B对王经理的批评有点太过分了。(按b切分,np作主语)尽管“对王经理的批评”本身是歧义短语结构,但出现在例(1A)中时,只能理解为pp;出现在例(1B)中时,只能理解为np。因为如果把例(1A)中的“对王经理的批评”按b方式切分来理解为np,全句分析不出结构。而按a方式切分标记为pp,则恰好能分析为后面vp“产生了抵触情绪”的状语成分,全句可以分析成功。例(1B)也是如此。需要指出的是,pp跟np有一个虽然结构位置不同,但在计算机看来也会被认为是同样的搭配的组合情况,即“pp+dj”和“np+dj”组合模式。这两个组合模式分别形成的更大组合体的功能类都是dj,差别只是前者为状中式dj(pp在状语位置),后者为主谓式dj(np在主语位置)。但对计算机来说,当“p对+np+的+vp”格式出现在dj前时,既可能形成状中式dj,也可能形成主谓式dj。这种情况下,要做出准确区分,就只能诉诸搭配条件了。这个条件比较容易给出。我们可以在“dj-np!dj”规则中限制主语np不能是“p对+np+的+vp”格式,即这条规则有绝对条件:IF%np.内部结构=定中,%np.中心语.cpcat=np,%np.定语.内部结构=的字,%np.定语.中心语.cpcat=pp,%np.定语.中心语.原形=对FALSE有了这个限制后,当“p对+np+的+vp”格式出现在dj前时,只能分析为pp,不能分析为np。比如:(2)对王经理的批评他们总是当耳边风。(按a切分,pp作状语)从上述对消解“p对+np+的+vp”格式歧义的分析中不难看出,要解决这个格式的歧义问题,基本可以不考虑格式内部组成成分的性质(如其中np和vp的句法语义性质),主要是关注这个格式所处上下文环境(搭配对象)的情况。这是消解歧义格式最简单的一种处理方式。当然,上述分析也只是能对“p对+np+的+vp”这个格式进行正确的层次切分而已,105面向中文信息处理的现代汉语短语结构规则研究如果要确定内部组成成分np和vp之间的语义关系,仅靠上述手段是不够的。实际上,np跟vp之间可以有多种语义关系,如“对英雄的牺牲”(主体—动作);“对这本书的出版”(客体—动作);“对昨天的训练”(时间—动作)等等。要能对这些语义关系作准确判断(解决语义分析的歧义),就必须对这个格式内部组成成分之间搭配的相对条件约束做更细致地描述。本章主要是探讨现代汉语短语歧义结构的层次分析和结构关系判定的问题,对结构成分间复杂的语义关系,就不展开讨论了。关于“P对+np+的+vp”格式中np与vp间语义关系的更详细的说明,可参见詹卫东(1998a,1998b)3。5.2.2“mpmp的np”格式歧义分析“mp+mp+的+np”格式也是结构定界歧义,它有两种分析方式4:a.mp+mp+的+np例:两张五毛的邮票||||b.mp+mp+的+np例:100元一条的裤子||||无论是按上面a、b哪一种方式切分,这个格式的整体功能类都是np。同时在实际语言使用中,很难找到一个具体的实例既可以按a切分又可以按b切分,因此这个格式属于“内含型”的“准歧义”格式。要解决这个歧义格式的分析问题,仅向外看这个格式跟其他成分能否搭配显然是不够的,必须向内看组成成分之间的搭配条件。具体来说,要考察三个搭配的情况:(1)最主要是看“mp+的”的搭配条件;(2)其次要看“mp+np”的搭配条件;(3)还要看“mp+mp”的搭配条件;在3.2.2中讨论“的”字np时我们已经提到,不是所有的mp都可以嵌入“的”结构中。能够嵌入“的”字结构的mp,一般得是度量单位量词、时量词、容器量词等,其他像个体量词、动量词、成形量词等,不大能形成“的”字结构,如不说“*三条的”、“*五次的”、“*三堆的”等。有了这个搭配条件限制,如果上面这个歧义格式中的第二项mp位置出现的是个体量词、动量词、成形量词等,整个格式就不可能按a切分,只可能按b切分。考察“mp+np”、“mp+mp”的搭配条件,都是为了对付这个格式的第二项mp位置出现度量单位量词、时量词、容器量词等时的情况。譬如上面的例子“两张五毛的邮票”,其中“五毛”是由度量单位量词形成的mp,出现在第二项mp位置。这时整个格式应该按a切分,而不按b切分。这是通过“dj-mp!mp”规则(见3.5.2相关讨论)来控制的,即有条件约束:IF%mp.量词子类=个体,%%mp.量词子类=度量THEN$.zhxyu4=否ENDIF这个条件约束限制了“两张五毛”形成“的”字结构的可能性,从而避免了把“两张五毛的邮票”按b方式进行分析。上面这个例子的第一项mp是由个体量词(“两张”)充任的。如果第一项mp不是个体量词,而是度量单位量词,譬如:“二十五元一米的电缆”,组合方式又得是按b切分,不能按a切分。对此,是通过描述“mp+np”组合的搭配条件来说明的,即对“np-mp!np”规则(见3.2.3相关讨论),有条件约束:IF%mp.量词子类=度量,%np.内部结构=定中,%np.定语.内部结构=的字,%np.定语.中心语.cpcat=mp,%np.定语.中心语.量词子类=度量FALSE这个条件约束限制了把“二十五元一米的电缆”按a方式进行分析,即不能分析成mp“二十五元”作定语修饰np“一米的电缆”这样的结构。同时,这个格式中的两项mp:“二106第五章现代汉语短语结构歧义的消解策略分析十五元”、“一米”跟上面提到的“dj-mp!mp”规则的条件约束不冲突,因此整个格式可以按b方式进行分析,即:[[[二十五元一米]的]电缆]。不难看出,mp内部可以分出不同的小类,这些小类相互之间,以及各自跟“的”字、np等成分之间,在搭配组合的能力上都有不同的表现。条件约束实际上就是对这些不同情况的描写和记录。相关的条件约束共同发挥作用,就能够帮助判断一个具体的“mp+mp+的+np”格式该按哪一种方式进行结构分析。实际上,对计算机分析而言,要得到正确的结果,总是包含着两个方面,即得到的结果中有正确的,并且,得到的结果中没有错误的。相应地,描述两项成分的搭配条件,也总是包括两个方面,即可以搭配的,和不能搭配的。此外,值得一提的是,度量单位量词可以加“的”形成“的”字np后作定语修饰另一个np(如“三斤的鱼”),也可以直接作定语修饰一个np(如“三斤鱼”)。这两种情况在语义上是有差别的,前者关注的是“鱼的重量属性”,后者关注的是“一定量的鱼”。这种差别实际上跟上述“mp+mp+的+np”格式切分的不同方式是密切相关的。比如“五元一斤的鱼”只能按b方式切分,从语义上可以就可以解释为,这个短语表达式关注的是“鱼”的重量属性与价格属性之间的对应关系,而不是“一定量的鱼”本身。对此我们不展开论述,更详细的讨论可以参见赵强(1998)5。5.2.3“pp把vpvp”格式歧义就短语结构定界而言,这个格式有两种切分可能性:a.[pp[vpvp]];b.[[ppvp]vp];就内部结构关系而言,“pp+vp”只能形成状中结构关系;“vp+vp”共有五种可能性:(1)述宾;(2)述补;(3)连谓;(4)联合;(5)主谓。这样,整个格式一共有2×5=10种组合可能性6。当整个格式内部包含主谓关系时,整个格式的功能类为dj,其他情况下整体功能类都是vp。pp因内部具

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功