自然语言( natural language)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

自然语言(naturallanguage)•自然语言通常是指一种自然地随文化演化的语言,是人类交流和思维的主要工具。•英语、汉语、日语为自然语言的例子,而世界语则为人造语言,即是一种由人蓄意为某些特定目的而创造的语言。•不过,有时所有人类使用的语言(包括上述自然地随文化演化的语言,以及人造语言)都会被视为“自然”语言,以相对于如编程语言等为计算机而设的“人造”语言。这一种用法可见于自然语言处理一词中。自然语言处理•是计算机科学领域与人工智能领域中的一个重要方向。•它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。•自然语言处理是一门融语言学、计算机科学、数学于一体的科学。•这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。•自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。机器翻译(machinetranslation)•又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。•它是自然语言处理(NaturalLanguageProcessing)的一个分支,与计算语言学(ComputationalLinguistics)、自然语言理解(NaturalLanguageUnderstanding)之间存在着密不可分的关系。BriefHistory•20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。•1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。•1946年,第一台现代电子计算机ENIAC诞生。•美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。•1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。开创期(1947-1964)•1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。•从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。•这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。受挫期(1964-1975)•1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(AutomaticLanguageProcessingAdvisoryCommittee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。•1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞了。机器翻译步入萧条期。恢复期(1975-1989)•进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。•同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出。•而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“784”工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了KY-1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。新时期(1990至今)•随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。翻译过程译文生成原文译文转换原文分析在搞多种语言对一种语言的翻译时原文分析原文译文转换译文生成(独立)结合不考虑原语的特点考虑译语的特点建立相关独立生成系统在搞一种语言对多种语言的翻译时原文分析(独立)原文译文转换译文生成结合不考虑译语的特点考虑原语的特点建立独立分析相关生成系统在搞多种语言对多种语言的翻译时原文分析(独立)原文译文转换(独立)译文生成(独立)不考虑译语的特点不考虑原语的特点建立独立分析独立生成系统☆原语译语的差异通过原文译文转换来解决机译系统的系统划分机译系统基于规则的(Rule-Based)词典知识源来自规则库基于语料库(Corpus-Cased)由经过划分并具有标注的语料库构成不需要词典和规则,以统计规律为主知识源基于规则(Rule-Based)的机译系统•语法型•语义型研究重点是词法和句法以上下文无关文法为代表研究重点是在机译过程中引入语义特征信息以Burtop提出的语义文法和CharlesFillmore提出的格框架文法为代表。•知识型•智能型目标是给机器配上人类常识以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。目标是采用人工智能的最新成果,实现多路径动态选择以及知识库的自动重组技术,对不同句子实施在不同平面上的转换。语料库(Corpus-Based)的机译系统•不同于基于规则的机译系统由词典和语法规则库构成翻译知识库,基于语料库的机译系统是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。•基于统计(Statistics-based)的方法•基于实例(Example-based)的方法专业术语句法:syntax词法:morphology文法:grammar语法型:grammar-basedtype语义型:semantics-basedtype知识型:knowledge-basedtype智能型:intelligence-basedtype词法分析:Lexicalanalysis语法分析:syntacticanalysis语义分析:Semanticanalysis•分析机构:Analyticalmechanism•转换机构:Transformationalmechanism•生成机构:Generativemechanism•格框架:Caseframe•格框架语法:Caseframegrammar•语义切分规则:Thesemanticsegmentationrules•语义转化规则:Thesemantictransformationrules•源文:Sourcetext•概念依存表示形式:Conceptualdependencyrepresentation•语义内部表示:Semanticinternalrepresentation知识源(knowledgesource)•1.HowtoTreattheIgnoranceintheAggregationofInformationfromMultipleKnowledgeSources.多知识源信息综合中对不知信息的处理。来自互联网•Byknowingthenamesofthegroupandwhattheyworkedon,peopleontheperipherymayconnecttoaskquestionsandgainvaluableinsightintothislargelyuntappedknowledgesource.通过回顾业务流程和系统文档、功能或技术规范、数据字典、主题专家或其他数据知识源,可以进一步丰富内容。•Itmaybeenrichedbyreviewofbusinessprocessandsystemdocumentation,functionalortechnicalspecifications,datadictionaries,subjectmatterexperts,orothersourcesofdataknowledge.每个知识源由条件部分和动作部分组成,前者说明何时条件适用,而后者则处理相关的黑板元素和生成新的黑板元素。•Eachknowledgesourceisorganizedasaconditionpartthatspecifieswhenitisapplicableandanactionpartthatprocessesrelevantblackboardelementsandgeneratesnewones.cs.jnu.edu.cn通过数据挖掘技术将计算实例提炼出来,作为一种知识源参与到设计优化过程中去,将CAE从设计验证层次提升到设计驱动层次。标注Lebal•Asitisquitetime-consumingtolabeltextdocumentsonalargescale,akindoftextclassificationwithafewlabeleddataisneeded.Thus,semi—supervisedtextclassificationemergesanddevelopsrapidly.Differentfromtraditionalclassification,semi—supervisedtextclassificationonlyrequiresasmallsetof1abeleddataandalargesetofunlabeleddatatotrainaclassifier.Thesmallsetoflabeleddataisusedtoinitializetheclassificationmodelinmostcases.Itsrationalitywillaffecttheperformanceofthefinalclassifier.由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能。统计规律statisticallaw•Fromphotoelectriceffect,lightquantumtheory,ComptonscatteringeffectandthematterwaveofDeBroglieanditsstatisticallaw,theteachingmethodonwaveparticledualityinuniversityphysicsisdiscussed.从光电效应、光量子理论、康普顿散射效应、德布罗意物质波及其统计规律等方面对大学物理中波粒二象性概念的教学进行了的研究.•Inviewofthedefect,accordingtostatisticallaw,theauthorshavedesignedafixedcompressiondictionary,resultinginathoroughchangeofBarnsley′sfractionalcompressiondictionary.针对这一缺点,本文根据统计规律设计一个固定压缩字典对分形图像进行压缩编码,彻底地改变了Barnsley实现分形图像压缩编码使用变化压缩字典的方法.语料库语言学corpuslinguistics•1.Thetaggingo

1 / 33
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功