中科院基于短语的统计机器翻译系统

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于短语的统计机器翻译系统“丝路”1.0版(SilkRoadV1.0)设计与使用说明中科院计算所中科院自动化所中科院软件所厦门大学哈尔滨工业大学2006年10月2引言“丝路”(SilkRoad)是一个基于短语的汉英统计机器翻译系统。该系统由中国的五家研究机构和高校联合开发(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学),并在2006年中国第二届统计机器翻译研讨会上发布,供国内外研究者共享使用。联合开发单位希望通过这个系统的发布,使更多的研究者能够更快、更容易地加入到统计机器翻译研究中来,推动国内统计机器翻译的迅速发展。本文档给出了“丝路”1.0版(SilkRoadV1.0)的设计与使用说明。系统采用了目前主流的基于短语的统计机器翻译方法。在系统实现上充分利用了国际上目前已有的一些资源,包括一些开放源代码工具和一些可以公开获得授权的工具。在此基础上,联合开发单位分工协作,补充完成了翻译系统中尚不能公开获得的关键模块,包括语料库预处理、后处理模块,词语对齐后处理模块,短语抽取模块,解码器模块等。本文档主要介绍系统的整体设计以及这些新开发模块的实现原理和使用说明。联合开发单位的具体分工如下:中科院计算所:总体设计、语言模型接口设计和“骆驼CAMEL”解码器;中科院软件所:语料的预处理、后处理模块“仙人掌”;中科院自动化所:词语对齐后处理模块“楼兰”和短语抽取模块“胡杨”;厦门大学:“商队Caravan”解码器;哈尔滨工业大学:“绿洲Oasis”解码器;解码器是统计翻译系统的核心模块,有三家单位分别开发了自己的解码器模块。这三个解码器是相互独立的,用户可以选择使用其中任何一个解码器来完成翻译过程。此外,该系统在实现时采用了“863中文信息处理与智能人机接口评测”2005年汉英机器翻译评测的数据集,包括训练集、开发集和测试集,这些数据可以通过ChineseLDC获得研究目的授权。3目录目录..................................................................................................................31“丝路”系统设计概述...............................................................................41.1基于短语的统计机器翻译模型..............................................................................................41.2系统流程.................................................................................................................................41.3模块划分.................................................................................................................................61.4已有资源和工具简介.............................................................................................................71.5数据格式定义.........................................................................................................................82训练模块设计与使用................................................................................172.1训练语料预处理...................................................................................................................172.2词语对齐...............................................................................................................................192.3短语抽取...............................................................................................................................223解码模块设计与使用................................................................................273.1输入预处理...........................................................................................................................273.2语言模型接口使用说明.......................................................................................................273.3“骆驼CAMEL”解码器....................................................................................................293.4“商队Caravan”解码器.....................................................................................................423.5“绿洲Oasis”解码器..........................................................................................................453.6输出后处理...........................................................................................................................514评测工具简介...........................................................................................524.1评价指标...............................................................................................................................524.2使用说明...............................................................................................................................535参考文献..................................................................................................5441“丝路”系统设计概述本章主要介绍“丝路”汉英统计机器翻译系统的总体设计。1.1基于短语的统计机器翻译模型基于短语的统计机器翻译(Koehnetal.,2003;Zensetal.,2002;Koehn,2004)以短语作为翻译的基本单位。对于一个汉语句子,翻译系统将其划分为多个连续的词语串(即所谓的“短语”),然后将每一个汉语短语翻译为英语短语,昀后将产生的英语短语进行顺序调整,并输出译文,请参考图1的例子。图1:基于短语的统计机器翻译过程示例1.2系统流程“丝路”系统包含以下4个主要部分:短语翻译模型的训练、语言模型的训练、解码、翻译结果的评价。下面以流程图的形式分别介绍这4部分。1.2.1短语翻译模型的训练通过短语翻译模型的训练,从汉英句子对齐的语料库中学习到汉语短语到英语短语的翻译概率表,流程图参见图2。原文:他将于4月10日访问美国短语划分:他将于4月10日访问美国翻译:HewillonApril10visitAmerica调整顺序:HewillvisitAmericaonApril105图2:短语翻译模型训练的流程1.2.2语言模型的训练在英语单语语料库上训练得到英语的语言模型,流程图参见图3。图3:语言模型训练的流程1.2.3解码解码器是系统的核心模块,通过解码,将一个输入的汉语句子翻译成英语句子,流程图参见图4。英语单语文本语言模型训练英语语言模型训练语料库训练语料库预处理分词的训练语料库词语对齐词语对齐的语料库短语抽取短语翻译概率表汉语切分工具英语切分工具语料库格式转换规范的训练语料库6图4:解码的流程1.2.4翻译结果的评价我们采用评价工具对系统的输出结果进行自动评价,流程图参见图5。图5:评价的流程1.3模块划分整个系统由以下模块构成:1)训练语料库预处理模块;2)汉语分词工具(利用开源工具ICTCLAS);3)英语分词工具(将开源工具tokenizeE.perl.tmpl改写为C++代码);4)词语对齐模块(利用开源工具GIZA++获得初始对齐,对其结果进行后处理);5)短语抽取模块;6)语言模型训练模块(利用开源工具SRI);7)语言模型应用工具(利用开源工具SRI);8)输入预处理模块;9)解码模块;输出文本(结果数据)评价工具评价结果参考答案输入文本(测试数据)输入预处理规范输入文本解码中间输出文本输出后处理输出文本(结果数据)短语翻译概率表英语语言模型语言模型应用工具710)输出后处理模块;11)评价模块(利用863评测工具);每个模块都是一个可独立执行的文件,可以运行在Windows或者Linux等不同的平台上;模块之间以文件作为接口,这些文件包括:1)训练语料库;2)规范的训练语料库(采用GIZA++定义);3)分词的训练语料库(采用GIZA++定义);4)词语对齐的语料库;5)短语翻译概率表;6)语言模型(采用SRI定义);7)输入文本(采用863评测定义);8)输出文本(采用863评测定义);9)参考答案(采用863评测定义);10)评价结果(采用863评测定义);1.4已有资源和工具简介从上面的介绍可以看到,这个系统相当一部分的工作都可以利用已有的资源,这里对这些资源作一个简单介绍。1.4.1汉语分词工具ICTCLAS汉语词法分析系统ICTCLAS是由中国科学院计算技术研究所自然语言处理课题组开发的一套开放源代码的汉语分词和词性标注工具,可以在“中文自然语言处理开放平台”上下载,该平台网址为:。注意下载之前要使用真实信息注册一个用户名。1.4.2词语对齐模块GIZA++GIZA是由Och等人在1999年JHU夏季讨论班上开发的一个开放

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功