付文青14S101053HIT目录机器翻译概述1机器翻译的原理及方法2理解语言,机器翻译的根本瓶颈3机器翻译机器翻译的定义机器翻译(MachineTranslation),是使用电子计算机把一种自然语言(源语言,SourceLanguage)翻译成另外一种自然语言(目标语言,TargetLanguage)的一种学科。这门新学科同时也是一门新技术,它涉及到语言学,计算机科学,数学等许多部门,是非常典型的多边缘交叉学科。—在语言学中,机器翻译是计算语言学的研究领域—在计算机科学中,机器翻译是人工智能的研究领域—在数学中,机器翻译是数理逻辑和形式化方法的研究领域机器翻译的方法按转换层面划分—直接翻译方法—句法转换方法—语义转换方法—中间语言方法按知识表示形式划分—基于规则的方法—基于实例的方法—统计的方法基于句法的统计机器翻译方法基于统计的翻译方法是IBM的学者提出,可以归纳为三个重要部分,分别为语言模型的建模、翻译模型的建模以及解码三个子部分。语言模型的建模问题是统计估计中的一个经典问题,即根据当前词预测下一个词。它是语音识别或光学字符识别的基础,同时也被用来进行拼写纠错、手写体识别以及统计机器翻译。基于句法的统计机器翻译方法基于短语的统计翻译方法的问题•泛化能力差–中国大使馆、美国大使馆→月球大使馆?•产生的句子不符合语法–短语的简单组合,没有句法结构•无法表示不连续的短语搭配的翻译–召开了一次关于…的会议holdameetingon…•无法进行长距离的语序调整•解决办法:引入句法结构!基于句法的统计机器翻译方法形式上基于句法的模型–不使用任何语言学知识–所有句法结构直接从未标注的语料库中自动学习得到语言学上基于句法的模型–使用语言学知识–语言通常要从句法树库训练得到•树到串模型:只在源语言端使用语言知识•串到树模型:只在目标语言端使用语言知识•树到树模型:在源语言端和目标语言端都使用语言知识基于句法的统计机器翻译方法基于树到串对齐模板的翻译模型•基于树到串对齐模板(简称TAT)的统计翻译模型是一种在源语言进行句法分析的基于语言学句法结构的统计翻译模型•树到串对齐模板既可以生成终结符也可以生成非终结符既可以执行局部重排序也可以执行全局重排序•从经过词语对齐和源语言句法分析的双语语料库上自底向上自动抽取TAT基于句法的统计机器翻译方法解码解码问题最重要的是如何设计合适的搜索策略来获得最佳翻译效果,以及如何解决空间爆炸问题,为尽可能在有限的时间内找到最优解,必须采用启发式算法。最常用的有柱搜索算法、A*算法以及堆栈搜索算法。基于句法的统计机器翻译方法解码•自底向上•柱搜索(BeamSearch)•对于每一棵子树,找到所有与其根节点匹配的TAT,计算其候选译文(Candidate)•候选译文(Candidate)的数据结构:–TAT序列–部分翻译结果–累积的特征值–累积的概率值基于句法的统计机器翻译方法柱搜索算法采用宽度优先的方式构建搜索树,在搜索树的每层采用启发式函数对扩展的状态进行评分,通过剪枝选取N个最优的状态进行扩展基于句法的统计机器翻译方法剪枝策略*假设合并—汉语词位置相同—最后两个英语词相同—上一次翻译的汉语短语的最后一个词的位置相同*柱状图剪枝若假设栈中假设的数目超过设定的最大值,将假设栈中评分低的剪去*阈值剪枝设置栈中假设的最低概率值,当新假设小于阈值的时候进行剪枝基于句法的统计机器翻译方法机器翻译的瓶颈之前进行的机器翻译的有益的探索中,凡是取得了结果的研究,大都努力避开理解语言这一过程。因为这一过程本身涉及到了AI的终极目标,机器的智能化。然而,这又是一个无法回避的问题,不能理解语言就不可能进行真正意义上的翻译。机器翻译的瓶颈《burning》PassionissweetLovemakesweakYousaidyoucherishedfreedomsoYourefusetoletitgo原文译文:强烈的感情是甜蜜的而爱使我们脆弱你说你珍惜你的自由所以你拒绝丢失它机器译文:激情是甜的爱使弱你说你珍惜的自由,以便你不让它去机器翻译的瓶颈上文已经进行过论述过,要实现真正的机器翻译,必须依赖于机器智能的实现,而这在短期内是不可能实现的,那么如何能在可以预见的未来实现初步的机器翻译呢?机器翻译分为四个层次:“词汇,语法,语义,语用。”前三个阶段现在都已经各有发展,但是语用的机器实现却一直停滞不前,因为语用知识包罗万象,在不同的语言,不同的背景中,不同的文章中语用知识千差万别,在不同的对话中上下文背景可能截然不同,面对这样的现状,我们唯有面向翻译对象本身,才可能获得有效的信息,我认为有一种可能的途径解决语用问题:机器翻译的瓶颈对语句结构进行明确的分类,形成一系列“句型公式”,直到每一类中都可以只通过变换相同类型的单词就可以实现句意的转化,通过分类,将每个句子的翻译都递归变化到单词的翻译。并同时对词语进行分类,先按照词义进行种类分类,得到每个词语的具体分类库,这个过程类似于自然界对生物的分类,界-门-纲-目-科-属-种,再根据词汇可充当的句子成分,(依赖于句型公式的需要)进行分类,对于句型结构需要的每种词汇都建立一个词汇库,(以上两种过程均可以通过对词汇附加属性实现,实际上并不需要单独产生两个库)。还需要一个统计同一词汇不同含义比率的库,这个可以通过对现有所有网页进行字符统计实现。谢谢观看