计算语言学讲义(11)机器翻译

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

计算语言学第11讲机器翻译刘群中国科学院计算技术研究所liuqun@ict.ac.cn中国科学院研究生院2011年春季课程讲义计算语言学讲义(11)机器翻译2内容提要计算语言学讲义(11)机器翻译3机器翻译的历史•W.J.Hutchens,latestDevelopmentinMTTechnology:BeginningaNewErainMTResearch.In:ProceedingsofMachineTranslationSummit-IV,Kobe,Japan,1993.•冯志伟,自动翻译,上海知识出版社,1987年•冯志伟,自然语言机器翻译新论,语文出版社,1994年•冯志伟,自然语言的计算机处理,上海外语教育出版社,1996年计算语言学讲义(11)机器翻译4机器翻译的历史•萌芽期(17世纪-1930年代)•草创期(1946-1964)•萧条期(1964-1960年代后期)•复苏期(1970年代初期)•繁荣期(1970年代后期-1980年代初期)•平台期(1980年代后期-1999年)•再度繁荣期(1999-现在)统计方法!计算语言学讲义(11)机器翻译5内容提要计算语言学讲义(11)机器翻译6机器翻译方法概述•机器翻译应用系统类型•机器翻译方法分类(按转换层面划分)•机器翻译方法分类(按知识表示划分)计算语言学讲义(11)机器翻译7机器翻译应用系统类型(1)•理想的机器翻译–全自动高质量,FAHQMTFullAutomaticHighQualityMachineTranslation•按人机关系分类–全自动机器翻译,FAMTFullAutomaticMachineTranslation–人助机译,HAMTHumanAssistedMachineTranslation–机助人译,CATCompute-AidedTranslation计算语言学讲义(11)机器翻译8机器翻译应用系统类型(2)•按应用方式分类–信息分发型MTfordissemination•要求高质量,不要求实时•采用人机互助,或者受限领域、受限语言等方式提高翻译质量–信息吸收型MTforassimilation•不要求高质量,要求方便、实时•翻译浏览器、便携式翻译设备、……计算语言学讲义(11)机器翻译9机器翻译应用系统类型(3)•按应用方式分类(续)–信息交流型MTforinterchange•不要求高质量,通常要求实时,语言随意性较大•语音翻译、网络聊天翻译、电子邮件翻译–信息存取型MTforinformationaccess•将机器翻译嵌入到其他应用系统中•跨语言检索、跨语言信息抽取、跨语言文摘、跨语言非文本数据库的检索……计算语言学讲义(11)机器翻译10机器翻译方法概述•机器翻译应用系统类型•机器翻译方法分类(按转换层面划分)•机器翻译方法分类(按知识表示划分)计算语言学讲义(11)机器翻译11机器翻译方法分类(按转换层面划分)源语言目标语言中间语言直接翻译句法转换语义转换形态分析形态生成句法分析句法生成语义分析语义生成计算语言学讲义(11)机器翻译12直接翻译方法•通过词语翻译、插入、删除和局部的词序调整来实现翻译,不进行深层次的句法和语义的分析,但可以采用一些统计方法对词语和词类序列进行分析•早期机器翻译系统常用的方法,近期IBM提出的统计机器翻译模型也可以认为是采用了这一范式•著名的机器翻译系统Systran早期也是采用这种方法,后来逐步引入了一些句法和语义分析计算语言学讲义(11)机器翻译13转换方法(1)•整个翻译过程分为“分析”、“转换”、“生成”三个阶段;•分析:源语言句子→源语言深层结构–相关分析:分析时考虑目标语言的特点–独立分析:分析过程与目标语言无关•转换:源语言深层结构→目标语言深层结构•生成:目标语言深层结构→目标语言句子–相关生成:生成时考虑源语言的特点–独立生成:生成过程与源语言无关计算语言学讲义(11)机器翻译14转换方法(2)•理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大减少分析和生成的工作量;•转换方法根据深层结构所处的层面可分为:–句法层转换:深层结构主要是句法信息–语义层转换:深层结构主要是语义信息•分析深度的权衡–分析的层次越深,歧义排除就越充分–分析的层次越深,错误率也越高计算语言学讲义(11)机器翻译15转换方法(3)形态生成源文结构源文词串源文句子译文结构结构转换结构分析基于转换方法的翻译流程结构生成形态分析译文词串译文句子词语转换计算语言学讲义(11)机器翻译16句法层面的转换方法(1)她把一束花放在桌上。Sheputabunchofflowersonthetable.她/r把/p-q-v-n一/m-d束/q花/n-v-a放/v在/p-d-v桌/n上/f-v。/w她/r把/p一/m-d束/q花/n放/v在/p-v桌/n上/f-v。/w切分/标注标注排歧计算语言学讲义(11)机器翻译17句法层面的转换方法(2)句法分析她/r把/p一/m-d束/q花/n放/v在/p-v桌/n上/f-v。/w她zjdjvp。vppp放ps上桌在pppnpmpn一束花把n计算语言学讲义(11)机器翻译18句法层面的转换方法(3)R/她NP/npSS/zjCS/djVP/vpVP/vpNP/ppPP/ppV/放#/pPP/spP/上N/桌#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花W/。她zjdjvp。vppp放ps上桌在pppnpmpn一束花把n句法结构转换计算语言学讲义(11)机器翻译19句法层面的转换方法(4)N/她NP/npSS/zjCS/djVP/vpVP/vpNP/ppPP/ppV/放#/pPP/spP/上N/桌#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花W/。N/她NP/npSS/zjCS/djVP/vpVP/vpV/放W/。NP/pp#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花PP/pp#/pPP/spP/上N/桌句法结构生成计算语言学讲义(11)机器翻译20句法层面的转换方法(5)Sheputsabunchofflowersontable.N/她NP/npSS/zjCS/djVP/vpVP/vpV/放W/。NP/pp#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花PP/pp#/pPP/spP/上N/桌词语转换与词语生成计算语言学讲义(11)机器翻译21中间语言方法(1)•利用一种中间语言(interlingua)作为翻译的中介表示形式;•整个翻译的过程分为“分析”和“生成”两个阶段•分析:源语言→中间语言•生成:中间语言→目标语言•分析过程只与源语言有关,与目标语言无关•生成过程只与目标语言有关,与源语言无关计算语言学讲义(11)机器翻译22中间语言方法(2)•中间语言方法的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)计算语言学讲义(11)机器翻译23中间语言方法(3)语言1语言2语言4语言3中间语言中间语言方法语言1语言2语言4语言3转换方法计算语言学讲义(11)机器翻译24中间语言方法(4)•中间语言的类型–自然语言:如英语、汉语–人工语言:如世界语–某种知识表示形式:如语义网络•以某种知识表示形式作为中间语言的机器翻译方法有时也称为基于知识的机器翻译方法计算语言学讲义(11)机器翻译25中间语言方法(5)•MakotoNagao(KyotoUniversity)said:“..whenthepivotlanguage[i.e.interlingua]isused,theresultsoftheanalyticstagemustbeinaformwhichcanbeutilizedbyallofthedifferentlanguagesintowhichtranslationistotakeplace.Thislevelofsubtletyisapracticalimpossibility.”(MachineTranslation,Oxford,1989)•Patel-Schneider(METALsystem)said:”METALemploysamodifiedtransferapproachratherthananinterlingua.Ifameta-language[aninterlingua]weretobeusedfortranslationpurposes,itwouldneedtoincorporateallpossiblefeaturesofmanylanguages.Thatwouldnotonlybeanendlesstaskbutprobablyafruitlessoneaswell.Suchasystemwouldsoonbecomeunmanageableandperhapscollapseunderitsownweight.”(Afour-valuedsemanticsforterminologicalreasoning,ArtificialIntelligence,38,1989)计算语言学讲义(11)机器翻译26中间语言方法(6)•基于中间语言方法一般都用于多语言的机器翻译系统中;•从实践看,基于中间语言的机器翻译系统还没有比较成功的先例,如日本主持的亚洲五国语言机器翻译系统,总体上是失败的;•在CSTAR多国语语音机器翻译系统中,曾经采用了一种中间语言方法,其中间语言是一种语义表示形式,由于语音翻译都限制在非常狭窄的领域中(如机票预定),语义描述可以做到非常精确,因此采用中间语言方法有一定的合理性。计算语言学讲义(11)机器翻译27中间语言示例-语义网络英语:Heboughtabookonphysics.汉语:他买了一本关于物理学的书。#one#physics#book#buy#he施事受事数量领域说明:这里#后面表示的是概念,而不是英语词。计算语言学讲义(11)机器翻译28机器翻译方法概述•机器翻译应用系统类型•机器翻译方法分类(按转换层面划分)•机器翻译方法分类(按知识表示划分)计算语言学讲义(11)机器翻译29机器翻译方法分类(按知识表示划分)•基于规则的机器翻译方法•基于实例的机器翻译方法•基于统计的机器翻译方法计算语言学讲义(11)机器翻译30内容提要计算语言学讲义(11)机器翻译31基于规则的方法(1)•采用规则作为知识表示形式–重叠词规则–切分规则–标注规则–句法分析规则–语义分析规则–结构转换规则(产生译文句法语义结构)–词语转换规则(译词选择)–结构生成规则(译文结构调整)–词语生成规则(译文词形生成)计算语言学讲义(11)机器翻译32基于规则的方法(2)•优点–直观,能够直接表达语言学家的知识–规则的颗粒度具有很大的可伸缩性大颗粒度的规则具有很强的概括能力小颗粒度的规则具有精细的描述能力–便于处理复杂的结构和进行深层次的理解,如解决长距离依赖问题–系统适应性强,不依赖于具体的训练语料计算语言学讲义(11)机器翻译33基于规则的方法(3)•缺点–规则主观因素重,有时与客观事实有一定差距–规则的覆盖性差,特别是细颗粒度的规则很难总结得比较全面–规则之间的冲突没有好的解决办法(翘翘板现象)–规则一般只局限于某一个具体的系统,规则库开发成本太高–规则库的调试极其枯燥乏味计算语言学讲义(11)机器翻译34基于规则的方法-译词选择$$开**{v}v$=[…]||$.主体=是,$.主体.语义类=植物Vbloom$=[…]||$.客体=是,$.客体.汉字=灯|机|器V(!VturnDon)$=[…]||$.客体=是,$.客体.语义类=交通工具=Vdrive$=[…]||OTHERWISE=Vopen$=[…]计算语言学讲义(11)机器翻译35基于规则的方

1 / 199
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功