1.2机器翻译的历史1.2.1什么是机器翻译?•机器翻译(machinetranslation),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。–文本机器翻译–语音机器翻译1.2.1什么是机器翻译?•机器辅助翻译(MachineAidedTranslation或ComputerAidedTranslation,简称MAT或CAT)–翻译记忆体(TranslationMemory,简称TM)–双语对照的文本编辑–...1.2.2现代语言学的崛起语言是一个民族相互交际的最重要工具,进入20世纪20年代以后,语言学成为一门新兴的学科。到了50年代,新的利用计算机研究语言的学科-----计算语言学诞生了。计算语言学的研究起始于机器翻译,机器翻译又称自动化翻译,是一种高级的人工智能技术,它是计算机科学、数学和语言学等多学科共同参与研制的结晶。机器翻译之所以成为可能,一是因为两种语言之间存在着可译性,二是因为人的翻译过程具有可模拟性。(1)机器翻译的萌芽(1966年以前)•1947,WarrenWeaver’smemo•1954,第一个公开展示的俄英MT原型系统•1966,美国科学院的ALPAC报告宣告机器翻译走入低谷刚刚兴起的机器翻译研究很快就遇到了困难,翻译质量的低劣引起了人们无休止的抱怨。其中,BarHillel作为当时最早参加研究的的专家,对机器翻译提出了批判,指出“自动翻译系统需要机器完全理解句子的意思后才能实现高质量的翻译,而机器不可能做到这些,因此不可能实现高质量的自动翻译系统”。1.2.3机器翻译的发展历史(1)机器翻译的萌芽受BarHillel的影响,美国国立科学院于1964年成立自动语言处理咨询委员会(AutomaticLanguageProcessingAdvisoryCommittee,简称ALPAC),对这10年的研究成果进行评价。2年后,该委员会发表了一个否定机器翻译系统实用性的调查报告,即被后人称之为ALPAC报告,并中止机器翻译项目的研究经费。从此机器翻译的研究跌入低谷。ALPAC报告•ALPAC报告核心内容:经过调查,机器翻译速度慢,准确率很差,比人工翻译费用高得多,在近期或可以预见的未来,开发出实用的机器翻译系统的可能性不大。这个报告后来虽曾受到许多严肃的批评,认为它是带有严重偏见的,但它对机器翻译研究造成了很大的损害。(2)机器翻译的第二阶段20世纪70年代中期,因ALPAC委员会发表的调查报告而跌入低谷的机器翻译研究开始在世界范围内复苏并日趋走向兴旺。这一阶段主要以欧洲为中心,确立了现代语言学理论在机器翻译中的地位。标志之一语言学家N.Chomsky于1957年提出的《句法结构(Syntaticstructure)》等形式语言理论被广泛地应用于自然语言的自动句法分析中,并成为计算语言学的基础理论之一。标志之二诞生了许多句法分析算法,如上下文无关文法解析流派中的CKY算法、Earley算法、Woods的ATN-Parser、LR-Parser、LINGOL等。在语义自动分析方面,有C.J.Fillmore提出的格文法理论、Schank的概念依存(ConceptualDpendency)理论、Montague语法理论及Wilks的优选语义学(PreferenceSemantics)等。(2)机器翻译的第二阶段(特征)•这一代机器翻译技术主要采用句法结构变换和中间语言方式,也称间接型机器翻译。具有实用价值的机器翻译系统取代了过去的实验系统,机器翻译由实验研究走向实用研究,并实现商品化,如加拿大蒙特利尔大学的气象预报机器翻译系统TAUM-METEO[10](英法)、法国格勒诺布尔大学的ARIANE机器翻译系统等。这一时期机器翻译系统所采用的方法也被称为理性主义方法(3)机器翻译第三阶段•20世纪80年代,机器翻译由面向句法、基于规则的理性主义方法过渡到语义处理阶段,诞生了基于实例(Example-BasedMachineTranslation)和基于统计(StatisticalBasedMachineTranslation)的机器翻译方法,被称之为经验主义方法主导的机器翻译系统。•这一期间,日本掀起了机器翻译的热潮,以形态素解析技术为主的语言处理技术得到空前发展,构文解析技术及格文法解析技术也成为研究热点。实现了大规模的日英、英日机器翻译系统,并开始了亚洲各国语言间的机器翻译研究(ODA)。•以Chomsky早年提出的形式语言理论为基础,语言学家针对自然语言处理的特点,又提出了众多新的语言学理论,如广义短语结构语法(GPSG)、词汇功能语法(LFG)、合一语法(UG)、功能合一语法(FUG)、中心词驱动的短语结构语法(HPSG)等(4)机器翻译第四阶段显著特点语料库语言学成为语言研究的主流,为满足实际应用的需要,基于大规模语料库的统计方法在自然语言处理领域中逐渐占据了主导地位[19];20世纪80年代提出的新的语言理论在实际系统中得到广泛应用,并与大规模语料库的统计方法结合,建立了具有实用性的新一代机器翻译系统;开始了新的机器翻译应用研究,如基于对话的机器翻译。以统计方法为主的统计机器翻译横行霸道!1.2.4中国机器翻译的发展机器翻译的研究开始于1956年,并从一开始就得到了国家的高度重视,机器翻译后来曾被列为“六五”、“七五”及“863”等重大科研项目。20世纪70年代中期,中国的机器翻译研究从停滞走向了复苏,80年代中期到90年代初期是我国机器翻译研究复苏以来比较活跃的时期。研究开发出两个在实用化系统:军事科学院的KY-1英汉机译系统(“译星”前身)及中科院计算所研制的863-IMT英汉机器翻译系统。在这一时期,中国还参加了由日本发起的亚洲五国机器翻译研发的合作项目(ODA),国内近10个科研院校参加了这一长达7年的国际项目。1.2.4中国机器翻译的发展•1990年代至今,中国的机器翻译进入了快速发展的时期,研制出了许多机器翻译系统。新一代机器翻译系统一般配有大规模的专业词典,并能在网上运行。此外,新的应用领域的机器翻译研究如对话翻译系统的研究也已开始。•在中日机器翻译方面,清华大学、南京大学、中软先后开展了实用机译系统的研究与开发,大连理工大学于1990年开始日中机器翻译的研发,1994年开始中日机器翻译的研究,并先后开发出PC版的SWK日中机器翻译系统和SWK中日机器翻译系统。1.2.5机器翻译的现状经过60年的发展,机器翻译对于许多人来说已经不是很陌生的了。今天我们可以在软件商店买到形形色色的PC机译软件,有各种语言间的机器翻译软件,如英文到中文的,中文到英文的,或者日文到中文的,甚至也有英文到日文的等等,还有家庭版的、专业版的,配带各种不同专业词典可供选择的等等。据估计,世界上目前市场上有1000多种不同的机器翻译软件在销售,我国具有一定规模的PC机器翻译软件也有近20种。在世界范围内PC机译软件的价格都不贵,而且价格还在不断地下降。现在可以在网上免费享用翻译系统的服务。1.2.5机器翻译的现状机器翻译现状可概括为:•发展很快,实用化翻译软件产品逐渐增多•译文质量普遍很低,可读性较差•理想与现实之间差距很大:用户期望值很大,而翻译软件能力很低,极度“弱智”•机器翻译的理论研究没有取得重大突破,但机器翻译的性能在逐渐提高。1.2.6机器翻译的未来机器翻译的未来可以概括为:•前途光明,道路曲折•没有最好,只有更好•路漫漫兮,其修远兮1.3机器翻译路在何方?•危机机器翻译比起10年前,可以说相当繁荣了。但是在这繁荣的后面,却存在着危机。前面说到的ALPAC报告曾给机器翻译带来的创伤如今似乎已被抚平了。但实际上它的阴影始终会时不时地再出现在机译研究者的头上。如今随着有越来越多的机译系统走向市场,政府部门感到在这种情况下如果还要投资攻关似乎有点名不正言不顺了。而商家则只是想现在该是把现成的技术包装包装就可以赚钱的时候了。1.3机器翻译路在何方?•研究者的尴尬:“你估计开发出产品要多长时间?你的系统正确率如何?”.如何回答?“正确率大约在百分之五十左右”?1.3机器翻译路在何方?•挑剔者的挖苦与讽刺:MT?不是machinetranslation,而是madtranslation(疯子的翻译)满篇英文难不住,满篇中文看不懂1.3机器翻译路在何方?--问题的症结•译文质量至今并没有取得实质性的进展,很多50年前未解决的问题如今依然存在。•研究人员认识上的危机:“在现有的技术条件下,机译译文质量也只能这样了”。这样一来,出现的情况将是投资者和研制者都在以较低水平的系统忙于行销赚钱,而不再有足够的经费和技术投入。机器翻译无论在理论上或是技术上都还未成熟。现在只是由于人们对于克服语言交流的障碍有着很强烈的需求,尤其是因特网的出现这种需求更显突出,机器翻译才获得了以较低的译文质量满足这种需求的机会,并利用这一机会来求得进一步的发展。1.3.1机器翻译与人工翻译的区别机译过程:•一句一句处理,处理第一句时不知道第二句的内容是什么,处理第二句时,也不再去参考第一句的内容了;•对源语言的分析只是求解句法关系,完全不是意义上的理解;•它的开发者要求它几乎是万能的,它似乎什么领域都能应付,从计算机到医学,从化工到法律,似乎只要换一部专业词典就可以了;•它的译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;•它的翻译只是句法结构的和词汇的机械对应。人工翻译:•一般会先通读全文,他会前后照应;•对源语言求得意义上的理解;•只有专业翻译人员,没有一个是可以包打天下的万能翻译人员;•他的译文是基于他对源语言的理解,不受源语言的句法结构的束缚;•他的翻译是一个再创造的过程。1.3.1机器翻译与人工翻译的区别1.3.2机器翻译的取舍•误区很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们任何解决问题。事实上,机器翻译出现误差在所难免。原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的。•比如《大话西游》中“给我一个杀你的理由,先”之类状语后置的句子。另外,机器翻译不适宜翻译带有复杂感情的文字。如果你拿着《诗经》中“所谓伊人,在水一方……所谓伊人,在水之湄……”等去翻译,其结果一定好不了。机器毕竟是机器,没有人对语言的特殊感情。毕竟汉语因其词法、语法、句法的变化及其语境的更换,其意思大相径庭,就连很多国人都是丈二和尚—摸不着头脑,就别说机器了。1.3.2机器翻译的取舍•机器翻译的作用在为机器翻译不精准开脱的同时,我们仍然不认为着机器翻译无用武之地,相反针对机器翻译可以大批量的做资料翻译的特点,可被用作日常事务、日常信息、日常交流往来等方面的翻译手段。随着经济发展,贸易、交流等各种事务跨越国界,信息交流量也在加快、加大,尤其是在网络不断普及的时候,人们需要迅速获取资讯,却苦于没有充足的多专业人员去翻译。今天,人们的阅读不再像古人那样字句点逗都要清清楚楚。现代人需要的是在爆炸式增长的信息中迅速获取自己所需的信息。1.3.2机器翻译的取舍•现实问题以《华盛顿邮报》为例,如果一百多版的《华盛顿邮报》需要细读的话,那每天看报的时间都不够。所以,在实际生活中,绝大部分人阅读的第一步只是了解大概,因此,在这样的要求下,采用机器翻译可以做到了“多、快、好、省”,而“信”、“达”、“雅”却费用高昂的人工翻译并非人人都需要。1.3.2机器翻译的取舍1.3.3在线翻译:机器翻译重头戏•鉴于机器翻译仍具相当市场,国内涉足这一领域的厂商也不一而足。目前,国内市场上的翻译软件产品可以划分为四大类:•全文翻译(专业翻译)•在线翻译•汉化软件•电子词典•外因:Internet网络的发展,“网民”数量高速增长;语言信息的交流更加频繁。•内因:基于服务器词库托管的翻译产品,服务器端的词库由厂商实时更新,词汇更加丰富,其中包括各类专业的词汇;在基于服务器词库翻译基础之上提供人工翻译服务