机器翻译原理与方法第一讲概论刘群中国科学院计算技术研究所liuqun@ict.ac.cn中国科学院计算技术研究所2010年秋季课程2机器翻译原理与方法(01)概论内容提要•机器翻译定义•课程目的与特点•课程概况•机器翻译历史•机器翻译现状•机器翻译应用系统类型3机器翻译原理与方法(01)概论什么是机器翻译English中文4机器翻译原理与方法(01)概论什么是机器翻译•机器翻译(machinetranslation)是使用电子计算机把一种自然语言(源语言,sourcelanguage)翻译成另外一种自然语言(目标语言,targetlanguage)的一门学科•这门新学科同时也是一种新技术.它涉及到语言学、计算机科学、数学等许多部门,是非常典型的多边缘的交叉学科–在语言学中,机器翻译是计算语言学的一个研究领域–在计算机科学中,机器翻译是人工智能的一个研究领域–在数学中,机器翻译是数理逻辑和形式化方法的一个研究领域.以上定义引自冯志伟《澄清对机器翻译的一些误解(论文提要)》,现代语文(语言研究),2005.1,更改了个别子句5机器翻译原理与方法(01)概论内容提要•机器翻译定义•课程目的与特点•课程概况•机器翻译历史•机器翻译现状•机器翻译应用系统类型6机器翻译原理与方法(01)概论课程目的•讨论:为什么要学习机器翻译?•直接目的:学会机器翻译–了解机器翻译基本原理–掌握机器翻译实践技能:能够编写一个简单的机器翻译系统•间接目的:学会做研究–学会分析问题和解决问题–学会发现问题和提出问题:问题是嵌套的,尽量探究最原始、最本质的问题!7机器翻译原理与方法(01)概论课程特点•目标驱动–目标:解决机器翻译问题–目标驱动:•不是为学习而学习,为方法而方法•学习任何问题都要跟目的联系起来,多想想为什么•注重实践:知行合一(王阳明)–学不懂的时候,去编程实现!–编程效果不好的时候,去看书、看论文!8机器翻译原理与方法(01)概论内容提要•机器翻译定义•课程目的与特点•课程概况•机器翻译历史•机器翻译现状•机器翻译应用系统类型9机器翻译原理与方法(01)概论课程概况•教师介绍•学生情况•时间安排•课程内容•作业安排•网络资源•学术会议•学术刊物•参考文献10机器翻译原理与方法(01)概论教师介绍•主讲教师:刘群–中国科学院计算技术研究所研究员–办公电话:010-62600642–办公地点:计算所642室–电子邮件:liuqunatict.ac.cn–个人主页:~liuqun课件可在个人主页下载(教学工作⇨机器翻译)•课代表:姜广–手机:15001399149–邮件:jiangg_211@126.com11机器翻译原理与方法(01)概论课程邮件列表•邮件列表地址:mt-course-at-ict-2010@googlegroups.com(待开通)•邮件列表网址:•选课或旁听的同学同学都可以访问邮件列表网站并申请加入邮件列表,申请时请注明你的姓名和单位•申请邮件列表需要先注册一个GoogleAccount,最好是用Gmail信箱注册,也可以用非Gmail信箱注册,但有可能会丢失邮件•所有课程通知、作业相关资料都通过邮件列表发放12机器翻译原理与方法(01)概论时间安排(1)周月一二三四五六日1十月111213141516172181920212223243252627282930314十一月123456758910111213146151617181920217222324252627288十一月/十二月2930123459十二月67891011121013141516171819112021222324252612十二月/一月27282930311213一月34567891410111213141516授课讲座作业考试13机器翻译原理与方法(01)概论时间安排(2)•上课时间(12次共48学时):–每周四晚上:18:30-21:30–课堂讲授7次(含2次讲座)–项目报告4次•考试时间(1次2小时):–12月16日晚上:18:30-20:3014机器翻译原理与方法(01)概论课程内容讲课28学时(每一次课4学时)•第一讲:机器翻译概述•第二讲:机器翻译方法综述•第三讲:基于词的统计机器翻译方法•第四讲:基于短语的统计机器翻译方法•第五讲:基于句法的统计机器翻译方法•第六讲:讲座•第七讲:讲座课堂讨论16学时。答疑2学时,考试2学时。15机器翻译原理与方法(01)概论作业安排——项目(1)•目标:–利用开源的统计机器翻译工具Moses(摩西),实现两个英汉机器翻译系统–自己实现一个统计机器翻译解码器•资源:–开源的统计机器翻译系统Moses(摩西)–开源的汉语词法分析系统ICTCLAS–开源的语言模型工具SRILM–英汉双语语料库16机器翻译原理与方法(01)概论作业安排——项目(2)•第一阶段:–能够掌握Moses,并在给定的数据上跑完完整的统计机器翻译训练和解码流程•第二阶段:–在silkRoad的基础上,自己实现一个解码器,要求达到跟Moses接近的BLEU值•完成方式:每人独立完成•考核:–第5、第7、第7次、第11次为课堂报告,每位选课学生都要做一个报告,介绍项目作业的进展–最终要在给定的测试数据上测试并考察结果BLEU值17机器翻译原理与方法(01)概论开源统计机器翻译系统“摩西”简介••目前最有影响的开源统计机器翻译系统•代码经过大量优化,性能很高,已成为这一领域研究最主要的Baseline系统•开发单位:英国爱丁堡大学、德国亚琛工业大学、意大利ITC-IRST研究所、美国卡内基梅隆大学、美国麻省理工学院、捷克查尔斯大学在美国和欧盟的一些资助下完成•基本特点:–基于短语的统计机器翻译方法(Phrase-basedApproach)–基于混合网络的解码(ConfusionNetworkDecoding)–基于要素的翻译模型(FactoredTranslationModel)–柱搜索算法(BeamSearchAlgorithm)18机器翻译原理与方法(01)概论网络资源•ACL主页(ACLAnthology)•NLP新闻组•MachineTranslationArchive•LDC(LanguageDataConsortium)•ChineseLDC•中文自然语言处理开放平台•中科院计算所自然语言处理研究组•北京大学计算语言学研究所19机器翻译原理与方法(01)概论国际会议•ACL(NAACL,EACL,AFNLP)•EMNLP•COLING•MTSummit•AMTA•TMI•JSCL(全国计算语言学联合学术会议)•CWMT(统计机器翻译研讨会)•相关领域会议:计算机、人工智能、互联网、语音20机器翻译原理与方法(01)概论学术刊物•ComputationalLinguistics•MachineTranslation•中文信息学报•相关领域刊物:–计算机–人工智能–语音–互联网21机器翻译原理与方法(01)概论参考书目冯志伟(1995)《自然语言机器翻译新论》,语文出版社1995年版翁富良、王野翊(1998)《计算语言学导论》,中国社会科学陈小荷(2000)《现代汉语自动分析》,北京语言文化大学出版社赵铁军(2000)《机器翻译原理》,哈尔滨工业大学出版社杨沐昀(2000)《机器翻译系统》,哈尔滨工业大学出版社姚天顺等(2002)《自然语言理解——一种让机器懂得人类语言的研究(第二版)》,清华大学出版社、广西科学技术出版社俞士汶主编(2003)《计算语言学概论》,商务印书馆冯志伟(2005)《机器翻译研究》,中国对外翻译出版公司宗成庆(2008)《统计自然语言处理》,清华大学出版社刘群(2008)《汉英机器翻译若干关键技术研究》,清华大学出版社22机器翻译原理与方法(01)概论参考书目JamesAllen(1995),NaturalLanguageUnderstanding(SecondEdition),TheBenjamin/CummingsPublishingCompany,Inc.,中译本:刘群等译,自然语言理解(第二版),电子工业出版社,2005ChristopherD.ManningandHinrichSchutze(1999),FoundationsofStatisticalNaturalLanguageProcessing,TheMITPress,Cambridge,Massachusetts,中译本:苑春法等译,统计自然语言处理基础,电子工业出版社,2005DanielJurafsky,JamesH.Martin,SpeechandLanguageProcessing:anIntroductiontoNaturalLanguageProcessing,ComputationalLinguistics,andSpeechRecognition,PrenticeHall,USEdedition,January26,2000,中译本:冯志伟,孙乐译,自然语言处理综论,电子工业出版社,2005PhilippKoehn,StatisticalMachineTranslation,textbook,CambridgeUniversityPress,August200923机器翻译原理与方法(01)概论参考文献•Top10SMTpapers(2007ByYangLiu)•BibliographyforSMT(2007ByYangLiu)•其他–AhighlyselectiveMTbibliography(1996byAdamBerger)–BibliographyforMachineTranslationEvaluation(2003byFlorenceReederetal.)–BibliographyforStatisticalAlignmentandMachineTranslation(2003byAdriàdeGispert&PatrikLambert)–BibliographyforStatisticalMachineTranslation(2003byKevinKnight)24机器翻译原理与方法(01)概论内容提要•机器翻译定义•课程目的与特点•课程概况•机器翻译历史•机器翻译现状•机器翻译应用系统类型25机器翻译原理与方法(01)概论机器翻译的历史•W.J.Hutchens,latestDevelopmentinMTTechnology:BeginningaNewErainMTResearch.In:ProceedingsofMachineTranslationSummit-IV,Kobe,Japan,1993•冯志伟,自动翻译,上海知识出版社,1987年•冯志伟,自然语言机器翻译新论,语文出版社,1994年•冯志伟,自然语言的计算机处理,上海外语教育出版社,1996年以下有关机器翻译历史的资料大部分取材于冯志伟先生的相关著作,特此向冯志伟先生表示感谢!26机器翻译原理与方法(01)概论机器翻译的萌芽期(1)•关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。•在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。•笛卡儿(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(CaveBeck)、基尔施(AthanasiusKircher)和贝希尔(JohannJoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。•维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(AnEssaytowardsaRealCharacterandPhilosophicalLanguag