第第1111章章机器翻译机器翻译(1/3)(1/3)NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR内容提要内容提要11.111.1机器翻译概论机器翻译概论11.211.2统计机器翻译统计机器翻译11.311.3语音翻译语音翻译NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR11.111.1机器翻译概论机器翻译概论NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR11.1.111.1.1引言引言有关专家已经指出,语言障碍是21世纪国际社会全球化面临的主要困难之一;机器翻译涉及语言学、计算语言学、认知科学和数学等多种学科,具有重要的科学意义;具有巨大的社会需求,以欧洲为例,有380多种语言,2004年5月1日以前欧盟有11种官方语言,每年为这11种语言翻译、转录文件耗费的人力费用大约549M欧元。目前欧盟20多种工作语言;汉语已经不再仅仅是中国人关注的语言。NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPRChineseSpanishEnglishHindi/UrduArabicPortugueseJapaneseFrench(Year)1000500300100019501970199020102030205011.1.111.1.1引言引言(Million)NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPRChineseSpanishEnglishHindi/UrduArabicPortugueseJapaneseFrench(Year)1000500300100019501970199020102030205011.1.111.1.1引言引言(Million)汉英两大强势语言的汉英两大强势语言的自动翻译问题是人类语言自动翻译问题是人类语言技术中最具挑战性的研究技术中最具挑战性的研究课题!课题!NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展概念:机器翻译(machinetranslation,MT)是用计算机把一种语言(源语言,sourcelanguage)翻译成另一种语言(目标语言,targetlanguage)的一门学科和技术。机器翻译MT源语言(SL)目标语言(TL)NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展古希腊时期17世纪:笛卡儿(Descartes)莱布尼兹(Leibniz)试图用统一的数字代码编写词典;17世纪中页贝克(CaveBeck)等人出版类似的词典。1930s:亚美尼亚法国工程师阿尔楚尼(G.B.Arsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做机器脑(mechanicalbrain)。NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR1933年,前苏联发明家特洛扬斯基设计了用机械方法把一种语言翻译成为另一种语言的机器。1946年,世界上第一台电子计算机ENIAC诞生以后,英国工程师A.D.Booth和美国洛克菲勒基金会(RockefellerFoundation)副总裁W.Weaver提出了利用计算机进行机器翻译的设想。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPRzA.D.Booth数学物理学家,曾研究利用X射线确定晶体结构,二战中参与计算机研制,在程序化计算机研究中成绩卓著;z1947年3月至9月,曾在普林斯顿大学参与JohnvonNeumann研究组,后来曾在伦敦大学工作。信息论先驱1920至1932年曾在Wisconsin大学教授数学;1932至1955年担任RockefellerInstitute自然科学部主任。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR1947年3月,W.Weaver给N.Wiener写信,讨论机器翻译问题,但遭到了N.Wiener的反对。1949年,W.Weaver发表了以‘Translation’为题目的备忘录,正式提出机器翻译问题。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPRWeaver的两个基本观点:(1)翻译类似于解读密码的过程:当我阅读一篇用俄语写的文章时,我可以说这篇文章实际上是用英文写的,只不过它用另外一种奇怪的符号编了码,当我阅读时,我是在进行解码;11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR(2)原文和译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着,从语言A出发,经过某一“通用语言(universallanguage)”或“中间语言(interlingua)”,然后转换为语言B,这种“通用语言”或“中间语言”可以假定是全人类共同的。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR美国和英国的学术界对机器翻译产生了浓厚的兴趣,并得到了实业界的支持。1954年Georgetown大学在IBM协助下,用IBM-701计算机实现了世界上第一个MT系统,实现俄译英翻译,1954年1月该系统在纽约公开演示。系统只有250条俄语词汇,6条语法规则,可以翻译简单的俄语句子。随后10多年里,MT研究在国际上出现热潮。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR1964年,美国科学院成立语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryCommittee,ALPAC),调查机器翻译的研究情况,并于1966年11月公布了一个题为“语言与机器”的报告,简称ALPAC报告,宣称:“在目前给机器翻译以大力支持还没有多少理由”,“机器翻译遇到了难以克服的语义障碍(semanticbarrier)”。从此,机器翻译研究在世界范围内进入低迷状态。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR1970~1976年,法国、日本、加拿大等国,仍坚持机器翻译研究,而且,在这一阶段语法与算法分开,机器翻译研究开始复苏。代表系统:法国的ARIANE-78。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR1976~至今,繁荣时期:z加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用机器翻译系统TAUM-METEO,用于天气预报翻译。每小时可以翻译6-30万个词;每天翻译1500-2000篇天气预报资料,并通过电视、报纸等立即公布。z1978年欧共体启动多语言机器翻译计划;11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPRz1982-1986,日本在提出第五代机的同时,研究日英双向机器翻译系统Mu和亚洲多语言机器翻译(日语、汉语、印尼语、马来西亚语、泰国语)z1990年,IBM提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR概括为三个阶段:1954~1970(ALPAC):草创时期;1970~1976:复苏阶段;1976~现在:繁荣时期。11.1.211.1.2机器翻译的产生与发展机器翻译的产生与发展NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR11.1.311.1.3机器翻译的困难机器翻译的困难NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR自然语言中普遍存在的歧义和未知现象¾句法结构歧义/词汇歧义/语用歧义…¾新的词汇、术语、结构、语义…机器翻译不仅仅是字符串的转换¾不同语言之间文化的差异¾现有方法无法表示和利用世界知识和常识机器翻译的解不唯一,而且始终存在的人为的标准11.1.311.1.3机器翻译的困难机器翻译的困难几乎自然语言处理中几乎自然语言处理中的所有问题在机器翻的所有问题在机器翻译中都会遇到。译中都会遇到。NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR111.1.41.1.4机器翻译研究现状机器翻译研究现状NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR若干翻译系统已实用化或接近实用化•Systran()•TAUM-METEO/Google•华建英汉翻译系统/金山词霸等111.1.41.1.4机器翻译研究现状机器翻译研究现状仍面临若干问题¾理论模型与方法¾实现技术问题¾用户认识问题NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR应尽快消除对机器翻译的误解编造的故事1962年8月号《哈泼杂志》(Harper’sMagazine)发表JohnA.Kouwenhoven的文章“翻译的困扰(Thetroublewithtranslation)”,编造了如下故事:一个机器翻译系统包含1500个基础英语词汇和相应的俄语词汇,翻译测试:英语:Outofsight,outofmind.(眼不见,心不烦。)111.1.41.1.4机器翻译研究现状机器翻译研究现状翻译成俄语句子的意思:Invisibleidiot.(看不见的白痴。)NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPRThespiritiswilling,butthefleshisweak.(心有余而力不足。)111.1.41.1.4机器翻译研究现状机器翻译研究现状翻译成俄语句子的意思:Theliquorisholdingoutallright,butthemeathasspoiled.(酒保存得很好,但肉已经腐烂。)NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR111.1.41.1.4机器翻译研究现状机器翻译研究现状黛玉自在枕上感念宝钗……又听见窗外竹梢焦叶之上,雨声淅沥,消寒透幕,不觉又滴下泪来。(《红楼梦》第45回)Asshelaytherealone,Dai-Yu’sthoughtsturnedtoBao-chai…Thenshelistenedtotheinsistentrustleoftherainonthebamboosandplantainsoutsideherwindow.Thecoldnesspenetratedthecurtainsofherbed.Almostwithoutnoticingitshebadbeguntocry.文学翻译家DavidHawkes摘自冯志伟著《机器翻译研究》,2004NLPR,CASIA2007-5-9宗成庆:《自然语言理解》讲义NLPR111.1.41.1.4机器翻译研究现状机器翻译研究现状SYSTRAN系统的实际水平(