Machine translation

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

黄宗文16721539CONTENTS基本概念机器翻译(machinetranslation,MT)是利用计算机把一种语言(源语言,sourcelanguage)翻译成另一种语言(目标语言,targetlanguage)的一门学科和技术。基本概念发展历史翻译方法总结展望MachineTranslation机器翻译MT,theabbreviationofmachinetranslation,isasub-fieldofcomputationallinguisticsthatinvestigatestheuseofsoftwaretotranslatetextorspeechfromonenaturallanguagetoanother.机器翻译的缩写是计算语言学的一个子领域,它研究软件将文本或语言从一种自然语言翻译成另一种自然语言的用法。基本概念发展历史翻译方法总结展望MachineTranslation机器翻译机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合与计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。发展历史机器翻译的发展经历了兴起、低落和重新兴盛的曲折历程。在昌盛的时候,人们为研究成果的精彩纷呈和应用的成功而欢呼,即使在低潮时,人们也在不断的反思,为重新发展积蓄力量。基本概念发展历史翻译方法总结展望1954美国乔治敦大学在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译实验,拉开了机器翻译的序幕。1956中国把机器翻译列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。开创期从20世纪50年代开始到20世纪60年代前半期,美国和前苏联两个超级大国处于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。基本概念发展历史翻译方法总结展望1964ALPAC报告1966机器翻译进入萧条期。文革1979语言自动处理咨询委员会成立1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(简称ALPAC委员会),开始了为期两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为《语言与机器》的报告该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。受挫期进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切的需要计算机来从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏。恢复期EURPOTRA系统出现基本概念发展历史翻译方法总结展望201690年代Internet普遍应用机器翻译迅猛发展,商用机器翻译软件翻入实用化阶段。新时期随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。翻译方法机器翻译的处理对象是自然语言,而人类对于语言认知的过程还未研究清楚,因此,要实现理想、高质量的机器翻译至少目前还有较大的距离。基本概念发展历史翻译方法总结展望在机器翻译领域,机器翻译方法可以看成是两大类共四种方法,两大类是:基于规则一类;基于语料库一类。显而易见,基于规则一类包括了基于转换的机器翻译方法和基于中间语言的机器翻译方法;基于语料库一类包括了基于统计的机器翻译方法和基于实例的机器翻译方法。基本概念发展历史翻译方法总结展望基于实例的机器翻译基于实例的翻译方法不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。基于中间语言的机器翻译基于中间语言的翻译方法是对源语言进行分析以后产生一种称为中间语言的表示形式,然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算机表示形式的系统化,它试图创造出一种独立于各种自然语言,同时又能表示各种自然语言的人工语言。基于统计的机器翻译基于统计的机器翻译方法把机器翻译看成是一个信息传输过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。基于转换的机器翻译基于转换的翻译方法就是自动实现源语言到目标语言的转换,它采取了一系列的分析和转换的生成层次,使一个源语言句子经过不同的中间表达形式,最终达到目标语言句子的表示。其目的是尽可能地加深对源语言的理解,生成尽可能恰当的目标语言形式。基本概念发展历史翻译方法总结展望基于统计的机器翻译基于统计的机器翻译方法主要分为三类:第一类是基于词的方法,第二类是基于短语的方法,第三类是基于句法的方法。基于句法的模型是最复杂的、也是翻译质量最好的。基于统计的机器翻译方法可以简单的这样看:将原始的某个句子按词折开,然后全部单词存储;翻译则是取出,按概率统计的方法重组句子,这样的句子就是统计方法的翻译结果。为了提高统计机器翻译系统的准确性,普遍应用海量语料库训练出大规模语言模型和翻译模型。而模型的不断增大,给统计机器翻译带来了突出的计算性能问题,是的现有的单机串行化翻译处理难以在较快时间内完成计算。基本概念发展历史翻译方法总结展望基于内存分布的层次短语机器翻译并行化算法基本概念发展历史翻译方法总结展望这种工作方式基于MapReduce秉性框架实现,由MapReduce框架将文章分割为句子组,每个map端负责处理一个句子组,map端将会调用解码器完成翻译任务,最后reduce端汇总结果。这个并行框架充分利用了集群的大容量分布式内存,大幅提高了并发度,而且可以在需要时增加集群节点以扩充系统,因而具有很强的系统扩展性,很好地克服了单机解码器系统难以扩展的缺陷。采用分布式内存数据库存储数据后,由于每个节点存储的数据量变小(为总数据量的N分之一),且各节点可以同时进行检索,因此查表速度能够变快。基本概念发展历史翻译方法总结展望33.285.186.412.211.111.221.231.271.5302468101214148164080TranslationTimeperSentence/sThreads在单线程情况下,待机解码器平均翻译每个句子需要3s;我们的并行化解码器平均每句消耗约1.1s,解码速度是单机的2.7倍。在其他各个并发度级别下,并行化解码器平均每句的性能也都同样保持了领先。计算性能对比基本概念发展历史翻译方法总结展望2633720569351268978267.5134.869.733.505001000150020002500300014816408010^-3*TranslationjobTimeCost/sThreads随着线程数量增加,单机解码器性能下降较快,在80线程时已经无法工作;并行化解码器在80个线程时仍保持较好的性能。扩展性对比sparkMapReduce大数据处理后起之秀spark得益于其在迭代计算机和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。Mapreduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个mapreduce所也才能完成,多个作业之间存在着冗余的磁盘读写开销和多次自愿申请过程,使得基于mapreduce的算法实现存在严重的性能问题。基本概念发展历史翻译方法总结展望总结展望机器翻译技术在经济发展和社会生活中日趋重要,对加速和扩展世界范围内的信息传播具有深远意义.机器翻译是一个真正的科学与技术相结合的多学科产物.机器翻译的研究必将推动这些学科的迅速发展。基本概念发展历史翻译方法总结展望人工翻译机器翻译1、一句一句处理,并不参考上下文;2、对源语言的分析只是求解句法关系,完全不是意义上的理解译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;3、翻译只是句法结构和词汇的机械对应。1、先通读全文,前后照应;2、译文基于对源语言的理解,不受源语言的句法结构的束缚;3、人工翻译是一个在创造的过程。基本概念发展历史翻译方法总结展望明月几时有,把酒问青天MT:Whenthemoonis,wineaskbluesky.HT:Whenwillthemoonbeclearandbright?Withacupofwineinmyhand,Iaskthebluesky.满地黄花堆积,憔悴损,而今有谁堪摘?MT:Everywhereyellowfloweraccumulationgauntwhocanpickthelossnow?HT:Thegroundiscoveredwithyellowflowersfadedandfalleninshowers.Whowillpickthemupnow?别狗咬吕洞宾,不识好人心。MT:Thedogbitelvdongbindoesnotknowgoodhearts.HT:Don'tbitethehandthatfeedsyou.MT的限制:人名翻译、习语翻译、文学作品翻译、成语典故翻译机器翻译还不成熟(instate-of-the-art),需要的是人与系统的配合,而不是有意为难,辅助机器翻译可以大大减轻人的负担。我们需要的是计算机帮助人类完成某些翻译工作,而不是完全替代人,人与机器翻译系统之间应该是互补的关系,而不是相互竞争。目前机器翻译的价值不在于它可以取代翻译专家,而在于它可在一个完整翻译过程的部分环节中有所贡献。虽然机器翻译的可理解性和忠实度还不够理想,但倘若数学、计算机科学、翻译学及语言学等领域的研究者齐心协力,并且把上下文语境和文化语境考虑在程序编写过程中,就能使译文的语篇性更强,使语言的三大功能,即概念功能、人际功能和篇章功能表现得更加突出。基本概念发展历史翻译方法总结展望

1 / 23
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功