机器翻译原理PartⅥ双语语料库对齐及翻译知识自动获取技术MTLABofHIT主要内容概述为什么要自动地获取知识(Why?)获取什么知识(What?)如何获取知识(How?)双语语料库对齐加工句子对齐词汇对齐结构对齐翻译知识的获取直接利用双语语料库获取翻译知识的研究间接利用双语语料库获取翻译知识的研究为什么要自动获取知识(Why?)机器翻译的发展现状Internet的发展进一步促进了对机器翻译技术的需求现有的机器翻译系统不能令人满意“满篇英文难不住,满篇中文看不懂”“MT,不是machinetranslation,而是madtranslation”存在的主要问题传统的机器翻译:手工编写规则知识获取瓶颈解决的途径从语料库中自动获取机器翻译所需要的各种知识什么是知识?Bacon:“知识就是力量”Feigenbaum:“知识与信息不一样.知识是信息经过加工整理、解释、挑选和改造而形成的”董振冬:知识是一个系统,是一个包含着各种概念与概念之间的关系,以及概念的属性与属性之间的关系的系统。获取什么知识(What?)单语词汇:分词、词性标注语法(结构):词性标注、句法分析语义:词义排歧、聚类分析双语翻译知识词典知识结构转换知识译文选择知识……如何获取知识(How?)知识获取的主要方法手工获取知识智能人机交互统计方法(HMM,PCFG……)机器学习方法决策树归纳学习基于转换的错误驱动的学习方法(EricBrill)基于实例的方法……翻译知识获取知识获取过程:数据预处理知识挖掘知识评价双语语料库对齐加工翻译知识自动获取双语语料库及其对齐技术(1)语料库语料库(Corpora)是按照一定的原则组织在一起的真实的自然语言数据(包括书面语和口语)的集合,主要用于研究自然语言的规律,特别是统计语言学模型的训练以及相关系统的评价和评测语料库语言学语料库语言学是以语料库为基本知识源来研究自然语言规律的学科,主要研究内容包括语料库加工的理论、方法和工具以及基于语料库的知识获取。单语语料库(MonolingualCorpus)和多语语料库(MultilingualCorpora)双语语料库及其对齐技术(2)双语语料库的建设双语语料库(BilingualCorpora,ParallelCorpora)国外:加拿大的议会会议录(CanadianHansards),(英法)英国Brighton大学语言中心双语语料库INTERSECT,(英法书面语)英国Birmingham大学的LINGUA多语语料库项目,英、法、希腊语加拿大的BCD(BilingualCanadianDictionary)词典编纂项目瑞典Uppsala大学语言学系建立的Scania多语语料库……国内:建立了一些单语语料,尚无大规模汉外双语库的报道目前国内基于汉外双语语料库的研究大都处于实验和摸索阶段香港科技大学的英汉双语语料库HKUST哈工大-微软联合实验室:6万句对双语语料库及其对齐技术(3)双语语料库的对齐技术对齐:从互译的不同语言文本中找出互译片断的过程语料库的加工深度决定语料库所能提供的知识的粒度双语语料库对齐可分为段落、句子、短语、单词不同级别句子对齐词对齐短语(结构)对齐双语语料库对齐技术:句子对齐(1)基于长度的句子对齐方法源语言文本的长度与译文长度有很强的相关性基于词数长度的对齐(Brown)基于字符数的长度对齐方法(GaleChurch)这些算法都把句子对齐看作是句子长的函数;不需要额外的词典信息;但是容易造成错误的蔓延。基于词汇的句子对齐方法Simard等人提出了在长度标准上加上同源概念(Cognate)来提高算法的性能Kay和Roscheisen提出了另一种基于语汇的对齐算法,在该算法中选择句子对齐的标准是其中词汇对齐的数量。双语语料库对齐技术:句子对齐(2)Debili和Sammouda实现了Simard的思想,并采用双语典为指导,以缩小搜索空间Church利用双语文本中字母的对应信息,在1993年设计了一种字符对齐算法长度方法与词汇方法相结合(Wu、Utsuro)不少学者认为句子对齐已经达到可以实用(~98%)双语语料库对齐技术:词汇对齐(1)词汇对齐是指在源文和对应的译文中找到词汇级的对译关系大家都叫他毛伯伯。EverybodycallshimUncleMao.由于词汇对齐比句子对齐提供了更细粒度的对译信息,因此可以为自然语言处理提供更大程度的支持双语语料库对齐技术:词汇对齐(2)词汇对齐的困难词汇对齐不满足次序性假设词汇对齐的模式十分复杂(1:1,1:m,m:1,m:m)她改变角度去写他的报告以迁就她的听众.Sheanglesherreportstosuitthepeoplesheisspeakingto.词汇对齐匹配关系难以断定(词典,长度)采用这种新装置…Theadoptionofthisnewdevice…..汉语的特点及英语和汉语间的固有差异汉语分词问题;惯用搭配、成语、谚语双语语料库的对齐技术:词汇对齐(3)基于统计的词汇对齐方法主要思想:对大规模双语语料库进行统计,获得对译词的翻译概率Brown(1,778,620),Gale(897,077),Dagan…基于统计机器翻译模型的词汇对齐(Brown)其中的翻译模型通过词汇对齐模型来实现;通过EM算法迭代训练词汇翻译概率;问题:参数空间巨大;局部最优基于同现的词汇对应抽取(Gale&Church)同现测度函数:联列表,互信息,Dice系数,对数似然比双语语料库的对齐技术:词汇对齐(4)基于词典的词汇对齐方法词典包含双语的对译信息,因此是进行词对齐的重要资源日本学者TakehitoUtsuro应用基于双语词典的改进算法对日英双语文本(439句日语423句英文)进行了试验:将词典中已经给出的词对共现删除,而后对剩下的词计算共现信息。采用含有50,000个词条的日英词典,试验表明提高了日英术语词典的抽取效果Ker,Wang等引入语义词典提高了对齐的召回率其他基于语言学比较(Huang),利用Chunk分析(Sun)英汉双语语料库词对齐实验现有方法存在的问题统计方法:语料库规模小,统计数据不足词典方法:词典译文覆盖率较低,对齐的召回率低改进统计方法:在小规模语料库提高统计学习质量词典方法:引入基于词典的模糊匹配使用语义词典,引入基于语义类的对齐统计、词典和语言学知识相结合基于词典的词对齐(1)完全基于词典的词对齐实验(DA)正确率:96.16%召回率:55.37%%100得到的对齐词对总数正确对齐的词对数正确率%100总数标准对齐文本中的词对正确对齐的词对数召回率基于词典的词对齐(2)词典模糊匹配Heabandonedhimselftogrief.他不胜悲伤。(悲痛,伤心事,忧伤)汉语词c1和c2的模糊匹配相似度:英语词e和汉语词c的模糊匹配相似度:基于模糊匹配的词对齐(DSimA)h10.5正确率:94.47%召回率:68.49%h10.7正确率:96.13%召回率:58.92%212121*2),(ccccccSim1.0*)1)),(((),(max),(1hcdSimCountcdSimceDTSimDTedDTed基于词典的词对齐(3)语义相似度(CSimA)同义词词林定义语义相似度:基于语义相似度的词对齐(CSimA):h0.5正确率:61.25%召回率:36.94%h1正确率:83.55%召回率:38.86%DA+DSimA+CSimA正确率:91.16%召回率:72.92%212121211),(/1),(SSSSSSClassDistSSClassSim基于统计的翻译词表自动获取(1)生成N-gram候选翻译单元多词对应问题:harddisk/硬盘;profile/配置文件…..汉语分词问题:驱动器:驱动-器;单击:单-击N-gram的抽取:停用词将句子分段Theprojectmanagermayusethee-mailsystemtoviewandreplytomessagefromworkgroupmember.生成的N-gram候选:projectproject-managerusee-maile-mail-systemviewreplymessageworkgroupworkgroup-member基于统计的翻译词表自动获取(2)翻译概率的计算模型对于任意一对源语词Ws和目标语词Wt,设:a=freq(Ws,Wt)b=freq(Ws)-freq(Ws,Wt)c=freq(Wt)-freq(Ws,Wt)d=N–a–b-c联列表法:hg(Ws,Wt)=(ad-bc)2/(a+b)(a+c)(b+d)(b+c)Dice系数(DiceCoefficient):Dice(Ws,Wt)=2freq(Ws,Wt)/[freq(Ws)+freq(Wt)]基于统计的翻译词表自动获取(3)翻译概率的计算模型互信息方法(MutualInformation):MI(Ws,Wt)=log2(freq(Ws,Wt)/freq(Ws)*freq(Wt))对数似然比(LogLikelihoodRatio,LLR):LLR(Ws,Wt)=2[logL(p1,a,a+b)+logL(p2,c,c+d)-logL(p,a,a+b)-logL(p,c,c+d))其中,logL(p,k,n)=klog(p)+(n-k)log(1-p),p1=a/(a+b),p2=c/(c+d),p=(a+c)/(a+b+c+d)词典加权同现测度:Wscore(Ws,Wt)=log2(2+DSim(Ws,Wt))*Score(Ws,Wt)基于统计的翻译词表自动获取(4)基于迭代的翻译词表自动抽取算法间接相关问题:贪心假设迭代的抽取算法…abc……pqr…基于统计的翻译词表自动获取(5)实验及结论N-gram模型有利于提取多词单元对应,并且能够有效地发现新词、术语及翻译;Click—单击;e-mail—电子邮件;networkdiagram—网络图;eventviewer—事件查看器……迭代算法大大提高了统计的正确率;词典加权同现测度能够提高统计质量在小规模训练语料条件下,LogLikelihoodRatio的统计特性较好基于混合策略的词对齐(1)对齐评价函数:EF(e,c)=T(e,c)*D(e,c)其中:T(e,c)为翻译概率,D(e,c)为位置形变概率,通过计算位置相对形变距离得到。位置相对形变距离是指一个可能的对齐相对于最近的确定对齐的距离。用贪心算法实现对齐过程和对齐歧义消除过程基于混合策略的词对齐(2)利用语言学知识改善词汇对齐结果利用词性对译关系实现词汇对齐后处理短语扩展利用词形变化特点,增加词汇对齐匹配规则如:n/v+”者”/”家”translationof(n/v)+“-er”/“-or”/“-ist”/“-ian”;可以得到诸如“赛跑+者runner”、“征服+者conqueror”等多词单元对应。数词的对齐专有名词的对齐实验结果及分析(1)语料库1语料库2统计属性英语汉语英语汉语词总数605,998569,503268,721276,699词类数21,44038,3356,8326,243词频大于3的词类数9,42212,4293,2243,116实验用语料库:语料库1:通用语料库(60,000句对)语料库2:计算机语料库(14,390句对)实验结果及分析(2)测试集1测试集2对齐方法和阈值正确率召回率F-score正确率召回率F-scoreDA96.1655.3770.2790.6452.3966.400.594.4768.4979.4189.3567.5576.94DSimA0.796.1358.9273.0690.3655.2168.540.561.2536.9446.0950.4431.8539.05CSimA183.5538.8653.0576.3236.5349.41Sta96.6027.3042.5792.6250.4365.30