CWMT’08统计机器翻译研讨会自动化所技术报告何彦青2008年11月27日报告提纲引言参评系统描述实验结果结论引言自动化所作为参评单位之一参加了所有的四个评测任务,即:新闻的汉英翻译评测任务;新闻的英汉翻译评测任务;科技的英汉翻译评测任务新闻的汉英融合评测任务。参评系统描述在这次评测中我们共有四个系统参加,即:自主开发的基于短语的翻译系统(BPSMT);开源基于短语的翻译系统(Moses);基于中心词的概率化句法调序系统Bandore;基于词语调序的对齐方法融合系统(WRABC)。BPSMT模型训练:语言模型利用开源Srilm工具包来获取四元文法概率信息;翻译模型主要是根据开源Moses工具包来获取翻译短语表,其中的参数设置都利用Moses工具包的默认设置;解码算法采用Beam-Search进行单调搜索获取翻译结果。Moses模型训练:利用Moses的默认设置来进行训练解码只用到了词这一个信息作为特征,没有使用因子模型。Bandore作为前端调序处理;关键思想:基于中心词的调序,中心词包括动词与名词,调序的候选对象是动词修饰语以及名词修饰语;Bandore方法概要:由一个源语言句子得到一棵句法树;从句法树的根开始递归地考察每一个动词短语和名词短语,并利用最大熵的方法指导训练中心词(动词、名词)的修饰语是否需调至中心词的另一侧。WRABC源语言句子…………对齐参考一致对齐混淆网络合并相同的词目标语言句子混淆网络解码汇总的N-Best列表系统1N-Best列表系统nN-Best列表MBR解码对齐方法WRABC(续)在基于词的系统融合流程中,词对齐的质量直接关系到系统融合的性能。现阶段用于系统融合的词对齐包括基于词错误率(WER)的词对齐和基于翻译错误率(TER)的词对齐;WRABC(续)WER词对齐方法和TER词对齐方法能较好地对齐词序相同的翻译假设。当对齐的翻译假设间词序有很大不同时,WER词对齐方法完全忽略词序的不同;TER词对齐准则虽然理论上解决了这个问题,但是TER词对齐准则采用的贪心搜索算法,在很多情况下无法实现大范围的词语块的调序。WRABC(续)我们使用基于词语调序的对齐方法(WRA)。找出待对齐的翻译假设和参考对齐之间的所有公共的连续词语块;进行局部对齐;在局部对齐关系中寻找交叉的词语块对;利用已对齐的局部词语块的位置作为参考,对有词序变化的词语块位置进行调整。WRABC(续)采用单纯形算法调整参数;在词对齐时选择的参考对齐是从所有参与融合系统的top-Best中抽取得到:依次把每个系统的top-Best用BLEU4打分,打分时参考译文为其它系统的top-Best,然后用MBR解码选择得分最高的top-Best为参考对齐;操作系统性能CPU内存操作系统IntelXeonE53352.0G16GUbuntu-server8.04评测实验及结果机器翻译评测新闻汉英翻译评测;新闻英汉翻译评测;科技英汉翻译评测;系统融合评测新闻汉英融合评测;机器翻译评测数据准备短语表的获取开发集的获取对测试语料的特殊处理实验结果数据准备根据CWMT’08发布的新闻训练语料过滤后的LDC语料规模4.07M根据CWMT’08发布的科技训练语料过滤后的LDC语料规模2.41M根据CWMT’08发布的科技训练语料从CWMT’08发布的新闻训练语料中过滤出的训练语料规模532K最终用于CWMT’08新闻翻译模型的训练语料规模4.9M最终用于CWMT’08科技翻译模型的训练语料规模3.6M最终用于CWMT’08新闻语言模型的训练语料规模7.6M最终用于CWMT’08科技语言模型的训练语料规模7.4M预处理对中文数据进行的处理:中文的分词,ICTCLAS3.0;全角变半角,对英文数据进行的处理:大写转小写标点符号的分离处理。短语表的获取所有机器翻译参评项目的短语表都是利用Moses工具包进行训练获取的,其中的参数都利用Moses工具包的默认设置。开发集的获取评测任务新闻汉英新闻英汉科技英汉开发集规模2652个汉语句子,4个参考答案2046个英语句子,4个参考答案2593个英语句子,4个参考答案开发集的获取新闻评测任务以SSMT07的测试集作为基准利用相似度从剩余开发集中过滤一部分开发集与SSMT07测试集合并科技评测任务开发集1:以测试集为基准;利用相似度从科技训练语料中抽取一部分作为开发集;开发集2:利用测试集跟新闻发布训练中的英汉开发集的相似度来进行筛选过滤出来把这两个开发集合并成最终用于科技评测任务的开发集。对测试语料的特殊处理这次评测使用的是时事新闻语料和科技语料包含大量的命名实体,包括:人名、地名、机构名、时间、数字及未登陆词对测试语料进行特殊处理是很有必要的。对测试语料的特殊处理对这些实体词进行特殊处理并获得翻译列表,设置一个较大的概率添加到训练获得的翻译短语对中对测试语料进行解码。命名实体识别翻译中文命名实体识别采用[Wu,2005]开发的多知识源融合的汉语实体识别系统进行汉语命名实体的识别;英文命名实体识别采用公开的Mallet软件包中的基于条件随机场模型(ConditionalRandomFields,CRF)的英语实体标注工具进行英语命名实体的识别标注;命名实体识别翻译汉英实体翻译对人名和地名:采用字典查询方式进行翻译机构名的翻译:利用基于语块的层次翻译模型;英汉实体翻译对各类实体都采用逐词查询字典的方式进行翻译;所利用的词典主要是LDC2005T34实体词典和LDC2002L27词典。时间数字识别与翻译时间数字识别和翻译主要是利用规则方法,将时间数字细化为六类来进行处理:1、数量(Number);2、序数词(Ordinal);3、号码(Figure);4、月份(Month);5、日期(Date);6、星期(Week)。未登陆词识别与翻译采用n元语法进行识别首先通过对比测试集和训练集,找出测试集中的一元未登录词,并将中文一元未登录词周围的三元词组都作为未登录词,将英文一元未登录词周围的五元未登录词组都作为未登录词;未登录词的翻译主要是依赖LDC2005T34实体词典和LDC2002L27词典后处理汉语的后处理:合并空格英文的后处理:字母大小写标点符号的合并。实验结果评测系统BLEU-4大小写不敏感打分(基于词)Bandore0.3286Moses0.3271Combine0.3135BP0.3028评测系统BLEU-4大小写不敏感打分(基于词)Combine0.2510Moses0.2398BP0.2391评测系统BLEU-4大小写不敏感打分(基于词)Moses0.7570新闻汉英评测任务在开发集上的打分新闻英汉评测任务在开发集上的打分科技评测任务在开发集上的打分实验结果(续)评测任务BLEU-4大小写敏感新闻汉英评测任务(Primary)0.2188新闻英汉评测任务(Primary)0.2970科技评测任务(Primary)0.4718科技评测任务(Contrast)0.4421所有翻译评测任务在测试集上的翻译结果系统融合评测UNITU1(1,2)U3(1,2)U4U7U8U10(1,2,3)U11U12(1,2)U14(1,2,3)U15BLEU25.6525.5823.0126.6827.2415.7719.5920.7921.6721.6917.8429.8121.9720.9720.5221.2324.9610家单位的17个系统在开发集上的BLEU打分不同方式的系统融合后翻译结果的BLEU得分(WRABC)翻译假设数目采用的组合方式BLEU1-BestU1(1,2)U3(1,2)U4U7U8U10(1,2,3)U11U12(1,2)U14(1,2,3)U1526.19U1(1,2)U3(1,2)U4U10(1,2,3)U12(1,2)U14(1,2,3)U1526.20U1(1)U3(1)U4U10(1)U12(1)U14(1)U1529.7710-BestU3(1,2)U4U8U10(1,2,3)U11U12(1,2)U14(1,2,3)25.83U3(1,2)U4U10(1,2,3)U12(1,2)U14(1,2,3)26.20U3(1)U4U10(1)U12(1)U14(1)27.97系统融合评测(续)组合方式词对齐策略BLEUU1(1)U3(1)U4U10(1)U12(1)U14(1)U151-BestWER30.51TER29.82WRA29.77U3(1)U4U10(1)U12(1)U14(1)10-BestWER28.35TER28.01WRA27.97利用不同的词对齐策略进行系统融合后翻译结果的BLEU得分评测任务BLEU-4大小写敏感新闻汉英融合系统(Primary)0.2679新闻汉英融合系统(Contrast)0.2602系统融合评测任务在测试集上的翻译结果结论BPSMT只是使用了单调解码,因为没有加入调序模块,所以翻译结果并不是十分理想;Bandore系统的调序模型以前主要针对口语语料来做的,这次针对新闻语料只是对测试语料进行了调序,效果上也不太理想,要想取得更好的效果,我们需要对训练语料以及开发集都进行调序,以取得训练与测试集的一致性;结论融合系统采用了目前主流的系统融合方法,并做了部分改进,但是还有很多工作需要进一步深入研究和完善,例如,组成混淆网络的词对齐没有利用近义词信息和词根信息,语言模型也只使用了4元语言模型等;总之,希望通过这次评测,能够跟其它的研究机构和参评单位进行一次很好的沟通,努力学习其它参评系统的特长,总结经验,从而能够取长补短,进一步改进和完善我们目前的系统。谢谢!