厦门大学第四届机器翻译研讨会评测系统描述陈毅东史晓东周昌乐{ydchen,mandel,dozero}@xmu.edu.cn厦门大学信息科学与技术学院智能科学与技术系2008年11月北京提纲概述机器翻译系统概要系统融合方法概要测评数据与结果小结提纲概述机器翻译系统概要系统融合方法概要测评数据与结果小结概述厦门大学参加了–汉英新闻领域机器翻译(开放)–汉英新闻领域系统融合–英汉新闻领域机器翻译(受限)–英汉科技领域机器翻译(受限)使用的模型–汉英机器翻译:短语,短语+规则–英汉机器翻译:短语+规则、规则使用的融合方法和系统融合评测中使用的相同提纲概述机器翻译系统概要系统融合方法概要测评数据与结果小结机器翻译系统概要(1)统计翻译系统–短语模型–对数线性模型融合特征:短语翻译概率(正向/反向)、词汇化短语翻译概率(正向/反向)、语言模型、长度惩罚因子、短语惩罚因子–单调解码,动态规划方法–汉英机器翻译评测中,我们的短语翻译系统则结合了基于组块的词语调序模型机器翻译系统概要(2)规则翻译系统–基本模块:词法分析句法分析词义消歧译文生成–采用依存文法描述英语和汉语,文法由程序来描述–词典条目大约10万–结合了部分TM技术–没有专门针对这次评测进行调整提纲概述机器翻译系统概要系统融合方法概要测评数据与结果小结系统融合方法概要(1)早在1994年就有研究者研究多引擎翻译系统。多引擎系统的研究可以粗略地分成两类:–简单地在各系统的输出中选出一个最佳的结果。–从各系统的输出中各选取最佳片段并构成新的结果。由于融合粒度更细,第二类方法常常可以获得更好的融合效果。第二类系统融合技术需要解决的两个问题:–必须从候选翻译中抽取出与原文相对应的翻译片段。–必须在这些可用的翻译片段中筛选并组合成新的翻译结果。系统融合方法概要(2)参考文献–ChenYu,AndreasEisele,ChristianFedermann,EvaHasler,MichaelJellinghaus,andSilkeTheison.2007.Multi-EngineMachineTranslaitonwithanOpen-SourceDecoderforStatisticalMachineTranslaiton.In:ProceedingsoftheSecondWorkshoponStatisticalMachineTranslation,Prague,193-196.平行语料库候选翻译原文新句对短语表短语模型训练模块单语语料库语言模型语言模型训练模块短语翻译解码模块译文提纲概述机器翻译系统概要系统融合方法概要测评数据与结果小结评测数据与结果(1)使用的外部工具–GIZA++工具包对双语语料进行词对齐,训练模式是15H53545–使用SRI语言模型工具包来训练语言模型–使用CRF++工具包来训练组块分析器(汉英测评中)。评测数据与结果(2)汉英新闻机器翻译评测–数据–结果来源量双语句库训练数据(common部分),LDC2005T06,LDC2003E07,LDC2006T04,LDC2003T17,LDC2004T07,LDC2002T01,LDC2002E18,LDC2003E1496万句对树库LDC2005T011.8万句英语语料LDC2007T07(xinhuapart)275M词双语句库的英文部分18M词系统BLEU4NIST5时间(s)xmu-constrast-memt(统计+规则)0.24127.50826935.44xmu-primary-pumpkin(统计)0.23907.84015341.25评测数据与结果(3)汉英新闻系统融合评测–根据诸系统在ssmt2007测试集上的成绩仅挑选了前4名的系统参与融合–采用的数据情况同汉英新闻机器翻译评测–结果–constrast系统使用和汉英新闻机器翻译评测相同的参数,primary系统则将长度惩罚因子参数增加到原来的两倍。系统BLEU4NIST5时间(s)xmu-primary-memt10.27217.440815043.03xmu-constrast-memt20.23215.195515108.88评测数据与结果(4)英汉新闻机器翻译评测–数据情况–结果来源量双语句库所提供的训练数据(common部分)61万句对汉语语料双语句库的中文部分8M词系统BLEU5NIST6时间(s)xmu-primary-memt(统计+规则)0.23697.96243262.44xmu-constrast-neon(规则)0.22638.319936.45pbtm(统计)0.2020--评测数据与结果(5)英汉科技机器翻译评测–数据情况–结果–xmu-constrast-memt2系统仅使用科技语料来源数据量双语句库所提供的训练数据(common部分)61万句对所提供的训练数据(中信所语料)30万句对汉语语料双语句库的中文部分14M词系统BLEU5NIST6时间(s)xmu-primary-memt1(统计+规则)0.402610.32473362.61xmu-constrast-memt2(统计+规则)0.400410.27293091.70xmu-constrast-neon(规则)0.28169.140058.23提纲概述机器翻译系统概要系统融合方法概要测评数据与结果小结小结本次评测我们参加的系统在技术上没有太多的进步。本次评测我们所使用的系统融合技术太简陋,是将来努力的重点。谢谢大家!陈毅东史晓东{ydchen,mandel}@xmu.edu.cn