双语语料库建设1)从TanslationMemory谈起2)TM系统的目标3)TM引擎的设计和实现4)双语语料库的其它应用价值5)语料库的编码和整理6)双语语料库的对齐加工7)双语语料库的展示和应用平台TranslationMemory基于实例的机器翻译TM技术几个著名的TM系统TRADOS(ATRIL)DéjàVu(STAR)transitTM技术的局限性TM系统的目标协助人工翻译而非取代人工翻译提高人工翻译的生产率(productivity)提高人工译文的一致性(consistency)提供一个翻译集成环境面向整个翻译过程、翻译项目的定义和管理、翻译进度管理协助翻译协作、拼写和语法检查文件格式支持、文本编辑、辅助双语索引、自学习机制(句子对齐和术语获取)TM引擎的实现1)基于句子的精确匹配(Exactmatch)2)基于句子的模糊匹配(Fuzzymatch)基于词替换的模糊匹配基于动态规划的模糊匹配模糊匹配的基本思想基本思想:找出输入句子和实例中共同的单词,对不同的词利用词典进行翻译。提供quickanddirtytranslation例子:E:美国国务卿奥尔布赖特今天起访问韩国。S:美国国务卿鲍威尔明起访问日本。所有相同的词必须顺序一致“兔子吃白菜”和“白菜吃兔子”翻译不一样。动态规划算法LCS模糊匹配的基本思想计算实例和输入的相似度生成转换表达式(如何把例子转换成输入)C(美国国务卿)r(奥尔布赖特今天,鲍威尔明)c(起访问)r(韩国,日本)在实例的汉语部分和英语部分之间进行词汇一级对齐(利用双语词典)对实例的英语部分进行和汉语部分同样的转换,生成英语(利用双语词典)nmkS*2试验(张牧)实例库中有实例33367个,另取162个测试句子相似度分布0-0.330.3-0.4150.4-0.5500.5-0.6470.6-0.7230.7-0.8180.8-0.930.9-12分析优点简单,仅需要一部双语词典,仅需要对汉语切词,此外无需任何处理缺点高相似度命中率低如果例子多一点,领域窄一点,可能很有用双语语料库的其它应用价值1)基于规则的机器翻译,翻译知识获取2)基于统计的机器翻译,训练翻译模型3)基于双语语料库的双语词典编纂4)基于双语语料库的术语提取5)双语教学和语言学研究双语语料库建设为机器翻译研究服务,同时兼顾其它应用类型双语语料库建设的三个层次1)语料库收集、整理和编码2)语料库对齐和加工3)语料库的呈现和应用语料库整理语料的存放方式各异语料的文件格式不同语料中有不利于加工的噪音信息语料的文体、领域、语式、创作时期不同……整理目标1)格式统一;2)篇章级对齐;3)消除噪音信息;语料库编码CES和TEI(基于SGML),很复杂我们也曾经提出一个基于XML的编码方案基于XML的编码方案(1)标记文本结构(2)标记切词、词性等(3)各个层级的对齐关系汉英双语语料库中文文本基本标记文件中文文本语言学标记文件中文英文对齐信息文件英文文本语言学标记文件英文文本基本标记文件4个DTD说明简化的编码被标记内容标记中文标题CH_TITLE…/CH_TITLE英文标题EN_TITLE…/EN_TITLE作者名AUTHOR…/AUTHOR译者名TRANSLATOR…/TRANSLATOR创作时间Time…/Time子标题Subtitle…/Subtitle图表公式和程序源码Diagram…/Diagram背景知识Background…/Background句子边界s…/s段落边界p…/p句子对齐单位a…/a辅助的语料库编码工具语料的属性信息很简单1)源语言2)文体3)领域4)语式6)时代对齐加工汉语篇章英语篇章段1s1s2…sk段2段1s1s2s3…sj段2段n段m……②③③③1)基于长度的段落对齐2)基于长度的句子对齐语料样例原文文件:DongYuanXinBingJi.zhpid=1aid=1no=1sid=1CH_TITLE动员新兵及新兵政治工作/CH_TITLE/s/a/ppid=2aid=2no=1sid=1Time(一九三八年一月十二日)/Time/s/a/ppid=3aid=3no=1sid=1Subtitle一/Subtitle/s/a/ppid=4aid=5no=1sid=1当前的战局,是处于暂时的局部的失利的境况,决不是抗日自卫战争的最后失败。/s/aaid=6no=1sid=2战争的最后胜败,要在持久抗战中去解决。/s/a/ppid=5aid=7no=1sid=1今天的战争,要求我们充分运用半年抗战的宝贵经验。/s/aaid=8no=1sid=2不仅应研究战略战术,而且还应以最大努力,利用一切可能,动员广大民众加入军队,补充现有兵团,组织新的部队,积蓄与扩大国家的武装力量,以支持长期艰苦的战争。/s/a/p语料样例译文文件:DongYuanXinBingJi.enpid=1aid=1no=1sid=1EN_TITLEMOBILIZENEWRECRUITSANDCONDUCTPOLITICALWORKAMONGTHEM/EN_TITLE/s/a/ppid=2aid=2no=1sid=1TimeJanuary12,1938/Time/s/a/ppid=3aid=3no=1sid=1SubtitleI/Subtitle/s/a/ppid=4aid=4no=1sid=1CurrentlywearesufferingatemporaryandpartialsetbackinourdefensivewaragainstJapan,butthisisnotfinaldefeat./s/aaid=5no=1sid=2Thefinaloutcomeofthewarwillbedeterminedbyaprotractedwarofresistance./s/a/ppid=5aid=6no=1sid=1Inordertocontinueinthepresentwar,wemusttakefulladvantageofthevaluableexperiencewehavegainedfromthepastsixmonths'fighting./s/aaid=7no=1sid=2Weshouldnotonlystudystrategyandtactics,butalsodoourutmostineverypossiblewaytobuildupandexpandthenationalarmedforcesbymobilizingthepeopletojointhearmy,replenishingtheexistingcorpsandorganizingnewarmedunitsinordertosupportanarduous,long-drawn-outwar./s/a/p双语相关集列可以集成到一个翻译环境中也是双语语料库的展示平台也能辅助语言教学研究最基本的双语语料库工具最基本的功能语料选取、抽样单语或双语项表达式检索相关集列显示搭配分析双语词频统计相关集列显示...15.Perpetuationoftestimony(O.39,r......examinedtoperpetuatetestimonyunlessanaction......toperpetuateanytestimonywhichmaybe......toperpetuatethetestimonyofwitnessesshall......withhispresenttestimony,but,beforesuch......withhispresenttestimony,doesnotdistinctly......consularofficerintestimonyofanysuch......forperpetuatingsuchtestimonyandforrendering......persontogivetestimony(eitherorallyor......方负责的任何裁定。15.证供的继续留存(第39号命令第15条?......(1)除非已有诉讼开展以使证供得以继续留存,否则不得对证人进?......存,否则不得对证人进行讯问以使证供得以继续留存。(2)任何......该权利或申索或会有关键性的任何证供得以继续留存。(3)不得......。(3)不得将为使证人证供得以继续留存的诉讼排期审讯。......证人在其它时间曾作出与他当前的证供不相符的陈述,但在提供该后述......程序的标的事项有关并与他当前的证供不相符的陈述被盘问时,并无明?......维护真相及公正,宜提供方法,使证供得以继续留存并在有需要时可供?......?宣誓而(以口述或书面方式)作出证供,则本款并不阻止该命令作出。...搭配统计分析2-Left1-Left1-Right2-Right2his2present2of1392perpetuate1any1and1An2to1give1but1any1officer1in1either1before1perpetuating1of101for1peretuation1perpetuate1unless1may1such1which1not1the1does1orally