机器翻译原理与方法讲义(02)机器翻译方法概述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

机器翻译原理与方法第二讲机器翻译方法概述中国科学院计算技术研究所2008-2009年度秋季课程刘群中国科学院计算技术研究所liuqun@ict.ac.cn机器翻译原理与方法讲义(02)机器翻译方法概述2内容提要•机器翻译方法(按转换层面划分)–直接翻译方法–句法转换方法–语义转换方法–中间语言方法•机器翻译方法(按知识表示形式划分)–基于规则的方法–基于实例的方法(含模板方法、翻译记忆方法)–统计方法机器翻译原理与方法讲义(02)机器翻译方法概述3按转换层面划分的机器翻译方法源语言目标语言中间语言直接翻译句法转换语义转换形态分析形态生成句法分析句法生成语义分析语义生成机器翻译原理与方法讲义(02)机器翻译方法概述4内容提要•机器翻译方法(按转换层面划分)–直接翻译方法–句法转换方法–语义转换方法–中间语言方法•机器翻译方法(按知识表示形式划分)–基于规则的方法–基于实例的方法(含模板方法、翻译记忆方法)–统计方法机器翻译原理与方法讲义(02)机器翻译方法概述5直接翻译方法•通过词语翻译、插入、删除和局部的词序调整来实现翻译,不进行深层次的句法和语义的分析,但可以采用一些统计方法对词语和词类序列进行分析•早期机器翻译系统常用的方法,近期IBM提出的统计机器翻译模型也可以认为是采用了这一范式•著名的机器翻译系统Systran早期也是采用这种方法,后来逐步引入了一些句法和语义分析机器翻译原理与方法讲义(02)机器翻译方法概述6内容提要•机器翻译方法(按转换层面划分)–直接翻译方法–句法转换方法–语义转换方法–中间语言方法•机器翻译方法(按知识表示形式划分)–基于规则的方法–基于实例的方法(含模板方法、翻译记忆方法)–统计方法机器翻译原理与方法讲义(02)机器翻译方法概述7转换方法(1)•整个翻译过程分为“分析”、“转换”、“生成”三个阶段;•分析:源语言句子源语言深层结构–相关分析:分析时考虑目标语言的特点–独立分析:分析过程与目标语言无关•转换:源语言深层结构目标语言深层结构•生成:目标语言深层结构目标语言句子–相关生成:生成时考虑源语言的特点–独立生成:生成过程与源语言无关机器翻译原理与方法讲义(02)机器翻译方法概述8转换方法(2)•理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大减少分析和生成的工作量;•转换方法根据深层结构所处的层面可分为:–句法层转换:深层结构主要是句法信息–语义层转换:深层结构主要是语义信息•分析深度的权衡–分析的层次越深,歧义排除就越充分–分析的层次越深,错误率也越高机器翻译原理与方法讲义(02)机器翻译方法概述9转换方法(3)形态生成源文结构源文词串源文句子译文结构结构转换结构分析基于转换方法的翻译流程结构生成形态分析译文词串译文句子词语转换机器翻译原理与方法讲义(02)机器翻译方法概述10句法层面的转换方法(1)她把一束花放在桌上。Sheputabunchofflowersonthetable.她/r把/p-q-v-n一/m-d束/q花/n-v-a放/v在/p-d-v桌/n上/f-v。/w她/r把/p一/m-d束/q花/n放/v在/p-v桌/n上/f-v。/w切分/标注标注排歧机器翻译原理与方法讲义(02)机器翻译方法概述11句法层面的转换方法(2)句法分析她/r把/p一/m-d束/q花/n放/v在/p-v桌/n上/f-v。/w她zjdjvp。vppp放ps上桌在pppnpmpn一束花把n机器翻译原理与方法讲义(02)机器翻译方法概述12句法层面的转换方法(3)R/她NP/npSS/zjCS/djVP/vpVP/vpNP/ppPP/ppV/放#/pPP/spP/上N/桌#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花W/。她zjdjvp。vppp放ps上桌在pppnpmpn一束花把n句法结构转换机器翻译原理与方法讲义(02)机器翻译方法概述13句法层面的转换方法(4)N/她NP/npSS/zjCS/djVP/vpVP/vpNP/ppPP/ppV/放#/pPP/spP/上N/桌#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花W/。N/她NP/npSS/zjCS/djVP/vpVP/vpV/放W/。NP/pp#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花PP/pp#/pPP/spP/上N/桌句法结构生成机器翻译原理与方法讲义(02)机器翻译方法概述14句法层面的转换方法(5)Sheputsabunchofflowersontable.N/她NP/npSS/zjCS/djVP/vpVP/vpW/。V/放NP/pp#/pNP/npNP/mpP/#NP/npT/一N/束ofN/花PP/pp#/pPP/spP/上N/桌词语转换与词语生成机器翻译原理与方法讲义(02)机器翻译方法概述15内容提要•机器翻译方法(按转换层面划分)–直接翻译方法–句法转换方法–语义转换方法–中间语言方法•机器翻译方法(按知识表示形式划分)–基于规则的方法–基于实例的方法(含模板方法、翻译记忆方法)–统计方法机器翻译原理与方法讲义(02)机器翻译方法概述16中间语言方法(1)•利用一种中间语言(interlingua)作为翻译的中介表示形式;•整个翻译的过程分为“分析”和“生成”两个阶段•分析:源语言中间语言•生成:中间语言目标语言•分析过程只与源语言有关,与目标语言无关•生成过程只与目标语言有关,与源语言无关机器翻译原理与方法讲义(02)机器翻译方法概述17中间语言方法(2)•中间语言方法的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)机器翻译原理与方法讲义(02)机器翻译方法概述18中间语言方法(3)语言1语言2语言4语言3中间语言中间语言方法语言1语言2语言4语言3转换方法机器翻译原理与方法讲义(02)机器翻译方法概述19中间语言方法(4)•中间语言的类型–自然语言:如英语、汉语–人工语言:如世界语–某种知识表示形式:如语义网络•以某种知识表示形式作为中间语言的机器翻译方法有时也称为基于知识的机器翻译方法机器翻译原理与方法讲义(02)机器翻译方法概述20中间语言方法(5)•MakotoNagao(KyotoUniversity)said:“..whenthepivotlanguage[i.e.interlingua]isused,theresultsoftheanalyticstagemustbeinaformwhichcanbeutilizedbyallofthedifferentlanguagesintowhichtranslationistotakeplace.Thislevelofsubtletyisapracticalimpossibility.”(MachineTranslation,Oxford,1989)•Patel-Schneider(METALsystem)said:”METALemploysamodifiedtransferapproachratherthananinterlingua.Ifameta-language[aninterlingua]weretobeusedfortranslationpurposes,itwouldneedtoincorporateallpossiblefeaturesofmanylanguages.Thatwouldnotonlybeanendlesstaskbutprobablyafruitlessoneaswell.Suchasystemwouldsoonbecomeunmanageableandperhapscollapseunderitsownweight.”(Afour-valuedsemanticsforterminologicalreasoning,ArtificialIntelligence,38,1989)机器翻译原理与方法讲义(02)机器翻译方法概述21中间语言方法(6)•基于中间语言方法一般都用于多语言的机器翻译系统中;•从实践看,基于中间语言的机器翻译系统还没有比较成功的先例,如日本主持的亚洲五国语言机器翻译系统,总体上是失败的;•在CSTAR多国语语音机器翻译系统中,曾经采用了一种中间语言方法,其中间语言是一种语义表示形式,由于语音翻译都限制在非常狭窄的领域中(如机票预定),语义描述可以做到非常精确,因此采用中间语言方法有一定的合理性。机器翻译原理与方法讲义(02)机器翻译方法概述22中间语言示例-语义网络英语:Heboughtabookonphysics.汉语:他买了一本关于物理学的书。#one#physics#book#buy#he施事受事数量领域说明:这里#后面表示的是概念,而不是英语词。机器翻译原理与方法讲义(02)机器翻译方法概述23内容提要•机器翻译方法(按转换层面划分)–直接翻译方法–句法转换方法–语义转换方法–中间语言方法•机器翻译方法(按知识表示形式划分)–基于规则的方法–基于实例的方法(含模板方法、翻译记忆方法)–统计方法机器翻译原理与方法讲义(02)机器翻译方法概述24按知识表示划分的机器翻译方法•基于规则的机器翻译方法•基于实例的机器翻译方法–基于翻译记忆的机器翻译方法–基于模板(模式)的机器翻译方法•基于统计的机器翻译方法机器翻译原理与方法讲义(02)机器翻译方法概述25内容提要•机器翻译方法(按转换层面划分)–直接翻译方法–句法转换方法–语义转换方法–中间语言方法•机器翻译方法(按知识表示形式划分)–基于规则的方法–基于实例的方法(含模板方法、翻译记忆方法)–统计方法机器翻译原理与方法讲义(02)机器翻译方法概述26基于规则的方法(1)•采用规则作为知识表示形式–重叠词规则–切分规则–标注规则–句法分析规则–语义分析规则–结构转换规则(产生译文句法语义结构)–词语转换规则(译词选择)–结构生成规则(译文结构调整)–词语生成规则(译文词形生成)机器翻译原理与方法讲义(02)机器翻译方法概述27基于规则的方法(2)•优点–直观,能够直接表达语言学家的知识–规则的颗粒度具有很大的可伸缩性大颗粒度的规则具有很强的概括能力小颗粒度的规则具有精细的描述能力–便于处理复杂的结构和进行深层次的理解,如解决长距离依赖问题–系统适应性强,不依赖于具体的训练语料机器翻译原理与方法讲义(02)机器翻译方法概述28基于规则的方法(3)•缺点–规则主观因素重,有时与客观事实有一定差距–规则的覆盖性差,特别是细颗粒度的规则很难总结得比较全面–规则之间的冲突没有好的解决办法(翘翘板现象)–规则一般只局限于某一个具体的系统,规则库开发成本太高–规则库的调试极其枯燥乏味机器翻译原理与方法讲义(02)机器翻译方法概述29基于规则的方法-译词选择$$开**{v}v$=[…]||$.主体=是,$.主体.语义类=植物Vbloom$=[…]||$.客体=是,$.客体.汉字=灯|机|器V(!VturnDon)$=[…]||$.客体=是,$.客体.语义类=交通工具=Vdrive$=[…]||OTHERWISE=Vopen$=[…]机器翻译原理与方法讲义(02)机器翻译方法概述30基于规则的方法-结构转换&&{mp7}mp-r!mp::$.内部结构=组合定中,…||%mp.定语.内部结构=单词,%mp.定语.yx=一,%mp.量词子类=集体|种类|容量|时量|度量|成形=NP(T/r!NP/mp)%T.TNNUM=%NP.NNUM/*这一年*/||%mp.定语.内部结构=单词,,%mp.定语.yx=一,%mp.量词子类=个体=T(T/rMone)/*这一个哪一个*/||%r.yx=这|那,IF%mp.定语.内部结构=单词,%mp.定语.yx=一FALSE=NP(T/r!M/mp)%T.TNNUM

1 / 75
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功