JournalofChineseLanguageandComputing,14(1)21-3421基于中间转换格式的中英文语言生成方法研究曹文洁宗成庆徐波中国科学院自动化所模式识别国家重点实验室,北京100080,中国{caowj,cqzong,xubo}@nlpr.ia.ac.cn2003年12月5日收稿2004年5月10日修改并录用_____________________________________________________________摘要基于中间语言的翻译方法是实现多语言口语翻译的重要途径,而自然语言生成技术则是基于中间语言的机器翻译系统中的重要组成部分。本文介绍我们基于中间语言的中英文语言生成方面的研究工作。我们采用的是基于特征的深层生成技术与模板生成技术相结合的生成方法。其中,深层生成技术主要是为了保证口语翻译系统具有更好的灵活性与领域可移植性,而模板生成技术则是为了使口语翻译系统具有更高的效率。在深层生成中,我们采用微观规划和表层生成相结合的结构,使用系统功能语法为生成语法。实验表明该混合生成策略可以较好地满足基于中间转换格式的口语翻译系统的基本要求。关键词自然语言生成,微观规划,词汇化,表层生成,中间转换格式,系统功能语法_____________________________________________________________1.引言自然语言生成技术研究的是如何利用计算机把非自然语言表示的语义形式转换成某22WenjieCao,ChengqingZongandBoXu种自然语言的表示形式,从而产生人们可理解的,表达确切、自然流畅的自然语言语句。自然语言生成技术的目的实际上就是让人们能够用自己感到最为舒适方便的自然语言方式去表达各种语义信息。随着自然语言处理相关技术的快速发展,自然语言生成技术被广泛地应用于许多方面,机器翻译中的目标语言生成是其中最典型的应用之一。本文介绍的工作是基于国际语音翻译先进研究联盟(C-STAR:ConsortiumforSpeechTranslationAdvancedResearch)框架下多语言口语翻译系统中的中英文生成问题,所采用的中间语言称为中间转换格式(IF:InterchangeFormat)。关于背景的详细介绍,请参见(),本文不再赘述。基于中间转换格式的C-STAR口语翻译系统框图如下所示:图1.基于中间转换格式的语音翻译系统与其它基于中间语言的机器翻译系统相同,基于IF的口语翻译系统对目标语言生成器有着同样的要求:即要求具有灵活、高效、便于领域移植、以及较好的容错性等特点。除此之外,IF也给我们的目标语言生成研究带来新的问题(详见第二小节)。自然语言生成从上个世纪六十年代开始发展至今,经历了从简单到复杂的过程。句法实现系统主要有四种类型(JohnA.Bateman1996)。首先是固定文本生成系统(canned-textsystem),这种方法主要应用于大多数的软件的提示信息生成系统。然后是模板生成系统(templatesystem),如Kukich在1983年提出的ANA系统,这种方法效率高,而且在特定领域的应用效果比较好,但是领域可移植性差。再之后是基于短语的生成系统(phrase-basedsystem),如McDonald等在1980年建立的MUMBLE系统,Moore于1989年建立的EES文本规划器等。此方法主要用于单句生成,其优点是鲁棒性强,但是容易造成不恰当的短语扩展。后来又出现了基于特征的生成系统(feature-basedsystem),如Matthiessen于1983年建立的PENMAN系统,及其衍生出的KPML系统(Bateman,Maieret.al.1991)等等。这种方法的优点在于简化了概念,可以把任何语言上的差异作为特征加入到系统中;缺点是效率较低。本文中我们采用的是基于模板和基于特征的深层生成相结合的混合生成方法。之所以采用这样的混合方法,主要基于以下几点考虑:首先,特定领域的口语对话常常有一些固定的表达模式。根据我们初步统计,发现口语中含有“请”字的祈使句约占17%左语音识别源语解析语音合成知识库目标语生成源语文本IF目标语文本源语语音目标语音右;用“有…吗”、“有没有”、“能不能/可以不可以”等表示的疑问句约占44%左右;含有时间或数字的语句约占22%左右。其中,很多固定简短的表达非常适合使用模板的方法进行翻译(对两种语言直接互译的翻译系统而言)或目标语言的生成(对基于中间语言的翻译系统而言)以简化翻译模块。此外,模板的引入有助于提高系统的运行效率。其次,由于口语的表达形式灵活多样,对于非固定的表达方式,采用基于特征的深层生成方法无疑更能满足系统对灵活性的要求(EhudReiter1995)。再次,我们的生成器是中英文的双语生成,较其它方法而言,基于特征的方法可以把不同语言的差异作为特征加入系统中,使其更易于用统一的程序框架对不同语言进行处理。本文第二部分介绍中间转换格式IF的定义及其特点,第三部分具体介绍我们的生成方法,之后是实验结果及分析,第四部分为结束语。2.中间转换格式——IF目前C-STAR采用的IF由NESPOLE!计划提出,当前针对领域是旅游信息咨询,包括旅馆服务和病人请求帮助等。一个IF表达式通常由说话者(speaker)、话语行为(speechact)、概念序列(concepts,与话语行为合称为领域行为)和参数-属性值对的列表四部分组成。关于各部分的具体含义,请参见文献(解国栋等2004)。IF的理论基础是话语行为理论(吴华2000)。话语行为理论的基本思想是认为语言不只用来陈述事实,而是附载着说话者的意图。IF的理论基础决定IF主要具有以下几个特点:第一,对多语对话翻译系统而言,如果能准确捕捉对话者交际意图,语句的许多信息就可由此推断出,从而较基于Fillmore的语义格语法的中间语言而言,IF的定义大大简化。第二,由于IF的定义不涉及句子主要参与成分之间的句法和语义关系,所以与基于格语法的中间语言相比,IF更适合于多语翻译系统,尤其是避免了在不同语言的语义格不一致的情况下出现的问题,主要是中心词失配(head-mismatching)问题(LoriLevin,etal.2003)。第三,IF是一种不完备的语义描述(UnderspecifiedSemanticRepresentation,简称USR),这需要生成器在生成句子的表面形式之前,先根据IF和领域知识推断缺少的信息。第四,虽然IF会提供诸如情态、时态和一些修辞关系等信息,IF表达式的主体部分描述的是话语的领域行为,并没有指出句子所对应的谓词-论元框架。这使得生成器不能直接由IF生成表层句子,而是需要首先由IF主体部分获得句子的谓词框架,并把IF映射到适合于句子生成的语义表示形式。相反,IF的arguments列表中每一个“参数-属性值对”都对句子浅层信息进行了很好的描述和封装,从而这部分无需中间映射,可以直接进行短语的生成。IF示例:(1)c:request-information+departure+transportation(transportation-spec=(flight,identifiability=yes,destination=tokyo),time=(clock=(hours=2)))24WenjieCao,ChengqingZongandBoXu句子:DoestheflighttoTokyoleaveat2o’clock?||飞往东京的航班2点钟离开吗?(2)a:greeting(greeting=hello)句子:Hello.||你好。3.基于模板与特征的混合生成方法根据前面的介绍,针对中英文生成技术,我们的研究目标是:(1)研究与领域相关、针对话语行为描述的中间语言的句子规划技术;(2)研究针对多语口语翻译的目标语言生成策略,目前是针对汉语和英语的生成问题。同时考虑针对多语言生成目标的模块可扩展性。作为多语口语翻译系统的一个有机组成部分,目标语言生成器要求具有灵活、高效的特点,鲁棒的性能,易于维护并且易于进行领域移植。如图2所示,我们的目标语言生成器主要由两个模块组成:微观规划和表层生成。当中间转换格式IF进入生成器,首先经过微观规划得到一个句法功能结构,再由这个句法功能结构通过表层生成得到目标语言句子。我们所用的句法功能结构是基于系统功能语法而定义的,其格式是多个特征-属性值对的集合,包含生成一个句子所必须的各部分信息(语气、时态、语态、谓词框架等)。表层生成部分则相应的采用功能合一文法,利用目标语言的句法知识,把作为过渡的句法功能结构中的各个特征逐步聚合,最终线性化得到目标语句。中间转换格式(IF)目标语句表层生成器微观规划器目标语言语义句法特征集领域知识以及微观规划库词典语法规则库图2.目标语言生成器系统框图为满足口语翻译系统的效率与灵活性的要求,并使其易于进行领域移植,我们的生成器采用模板与深层生成相结合的生成策略。模板方法的效率很高,可是领域移植性比较差,而深层生成的方法则更为灵活,并具有更好的通用性,可是时效性差(StephanBusemannandHelmutHoracek1998)。二者结合起来,可以很好地起到相互取长补短的作用。由于IF是一种不完备的语义表示,而且源语言语音识别和理解模块往往存在错误而造成IF错误或信息丢失,为了迎合生成器对于鲁棒性的要求,在输入IF错误或不完整的情况下能够生成尽量正确和可理解的目标语句,我们采取的措施是设立缺省值,并放松微观规划规则和语法规则的约束,在某些情况下也允许生成不完整的句子。3.1微观规划通常微观规划器包括以下几个性质完全不同的子任务:(1)将内容规划对象映射到语言资源上;(2)确定句子辖域;(3)进行句子聚合,把几个信息通过不同的关系组合成长句;(4)进行句子的缩合,消除冗余,使语句精炼;(5)进行词汇选择,把领域概念和关系转化为词汇和语法关系;(6)生成指代。但在我们的口语翻译系统中,IF中的信息全部来自源语句子,而且一个IF表达式与一个句子或词组相对应,生成句子所必需的各项浅层信息都在IF的参数中给出,所以生成器所要做的事情就是根据IF以及领域知识生成目标语言语句,而无需进行句子的内容确定。IF没有提供句子生成所需的谓词-论元信息,需要生成器由IF、领域知识和中心词的搭配信息进行推断。由此决定我们的微观规划器需要实现如下几个功能:(1)根据IF和领域知识确定句子类型,获得句子生成所必须的谓词-论元框架;(2)把领域概念转化为词汇,进行词汇选择,并从词典中获得所有与词汇相关的词形变化(英文生成中的人称与数的变化等)、词语搭配等信息;(3)把领域关系转化为语法关系;(4)获得句子的语气、时态、情态、语态等信息。如图3所示,微观规划分为两个层次:句子规划和短语规划。句子规划的功能主要是根据IF表达式和领域知识推断句子的顶层信息,如主要动词、时态、语态,语气等等,并根据主要动词获得生成句子所必须的谓词——论元框架;短语规划是把IF格式中的属性和概念转换为句子的参与角色,换言之,就是获得句子的浅层短语信息。通过句子规划和短语规划能够把IF格式转换为句子的语义句法特征集,直接作为目标语言表层生成器的输入。微观规划所涉及的资源主要是句子及短语规划规则库、领域知识和词典。其中,领域知识没有作为独立的实体出现,而是体现在规划规则的制订上,我们在制订由IF到句子功能结构的映射规则时,根据说话者的角色和IF表达式的应用场景等领域信息的不同添加不同的句法和语义信息,或进行不同的映射。26WenjieCao,ChengqingZongandBoXu句子规划短语规划句子规划规则库短语规划规则库词典词汇化IF目标语言语义句法特征结构图3.微观规划流程图句子规划规则的描述由一个三元体(P,C,A)实现。P(Pattern)指的是IF的主体部分(包括说话者和领域行为)的模式,C(Constrai