1自然语言处理2002.11.09中国科学院计算技术研究所21.综述.1.1.绪论.1.1.1.背景,目标.1.1.1.1.研究自然语言的动力1.语言是思维的裁体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在这样的社会需求下,自然语言理解作为语言信息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。2.由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。.1.1.1.2.什么是计算语言学计算语言学(ComputationalLinguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。计算语言学(ComputationalLinguistics)有时也叫计量语言学(QuantitativeLinguistics),数理语言学(MathematicalLinguistics),自然语言理解(NaturalLanguageUnderstanding),自然语言处理(NaturalLanguageProcessing),人类语言技术(HumanLanguageTechnology)。.1.1.1.3.图灵测验在人工智能界,或者语言信息处理领域中,人们普遍认为可以采用著名的1950年描述的图灵试验(TuringTest)来判断计算机是否“理解”了某种自然语言。.1.1.1.3.1.Turing模仿游戏(ImitationGame)场景:男性被试、女性被试、观察者,3者在3个不同的房间,房间号分别为X,Y,O规则:观察者用电传打字机与被试们通信,男性被试欺骗观察者、女性被试帮助观察者。目标:观察者要判断出X房间里被试的性别。3.1.1.1.3.2.Turing测试(TuringTest)场景:被试人、计算机、观察者3者在3个不同的房间,房间号分别为X,Y,O规则:观察者用“某种方式”与被试人和计算机通信计算机欺骗观察者、被试人帮助观察者目标:观察者要判断出被试人在那个房间.1.1.1.3.3.全Turing测试(TotalTuringTest)场景:被试对象(人或计算机)、观察者,观察者可以看到被试对象规则:观察者可以任意与被试对象通信目标:观察者要判断出被试对象是人还是计算机.1.1.1.3.4.参考文献1.A.M.Turing,COMPUTINGMACHINERYANDINTELLIGENCE,~asaygin/tt/ttest.html连接的.曹存根,《AI历史和问题》讲义,中科院计算所3.RolandHausser,FoundationsofComputationalLinguistics,Springer,1999.1.1.2.研究历史.1.1.2.1.20世纪50年代NLP于20世纪50年代早期开始于美国,当时美国害怕在空间竞赛中落败,需要翻译大量俄文科技文献,于是开发机器翻译系统,特别是俄英机器翻译系统,做法是采用词到词的翻译。由于成本高而效率低,渐渐撤去了资金支持。.1.1.2.2.20世纪60年代60年代开发的自然语言理解系统,大都没有真正意义上的语法分析,而主要依靠关键词匹配技术来识别输入句子的意义。在这些系统中设计者事先存放了大量包含某些关键词的模式,每个模式都与一个或多个解释(又叫响应式)相对应。系统将当前输入句子同这些模式逐个进行匹配,一旦匹配成功便立即得到了这个句子的解释,而不再考虑句子中那些不属于关键词的成分对句子意义会有什么影响。4SIRSIR(SemanticInformationRetrieval)是1968年B.Raphael完成的,这是他在美国麻省理工学院的博士论文研究工作的一部分。系统用LISP语言编程。这是一个理解机器的原型,因为它能把用户通过英语告诉它的事实记住,然后通过对这些事实的演绎来回答用户提出的问题。SIR有能力接受英语的一个受限子集,它把输入句子同如下类型的24种关键词模式进行匹配:*is**ispartof*Is**?Howmany*does*have?Whatisthe*of*?当符号“*”同输入句子中的一个名词相匹配时,该名词前面允许带有像a,the,every,each等冠词、量词或数词的修饰语。每当匹配到一种模式,便会在程序中触发相应的动作。STUDENT1968年美国麻省理工学院的博士研究生D.Bobrow完成了另一个基于模式匹配的自然语言理解系统STUDEN丁。系统能理解和求解中学代数题。ELIZA1968年,J.Weizenbaum在美国麻省理工学院设计的ELIZA系统,或许是这些基于“模式匹配”的自然语言系统中最有名一个。系统模拟一位心理治疗医生(机器)同一位患者(用户)的谈话。TGNoamChomsky创建了generativetransformationalgrammar。机器翻译中开始使用句法分析。.1.1.2.3.20世纪70年代进入70年代以后,一批采用句法—语义分析技术的自然语言理解系统脱颖而出,在语言分析的深度和难度方面都比早期系统有了长足的进步。这个时期的代表作是LUNAR,SHRDLU和MARGIE系统。LUNARLUNAR是第一个允许用普通英语同计算机数据库对话的人---机接口,是1972年美国BBN公司的W.Woods负责设计的。系统用来协助地质学家查找、比较和评价阿波罗—11飞船带回的月球岩石和土壤标本的化学分析数据。SHRDLUSHRDLU系统是1972年TerryWinograd设计的,这是他在美国麻省理工学院的博士学位研究工作。SHRDLU是一个在“积木世界”中进行英语对话的自然语言理解系统。系统模拟一个能操纵桌子上一些玩具积木的机器人手臂,用户通过人—机对话方式命令机器人捏弄那些积木块,系统则通过屏幕来给出回答并显示现场的相应情景。这个系统是想说明让计算机理解语言是可以做到的;MARGIEMARGIE(MeaningAnalysis,ResponseGeneration,andlnferenceonEng1ish)是由R.Schank及其学生们在美国斯坦福大学的人工智能实验室里建立的一个系统,目的是提供一种自然语言理解过程的直觉模型。5.1.1.2.4.20世纪80年代实用化和工程化系统进入80年代以来自然语言理解系统的最大特点就是实用化和工程化。其重要标志就是一批商品化的自然语言人----机接口和机器翻译系统出现在国际市场上。著名的有美国人工智能公司(AIC)生产的英语人—机接口系统Intellect,美国弗雷公司生产的Themis人----机接口,美国加里福尼亚工学院研制的ASK接口;欧洲共同体在美国乔治敦大学开发的机译系统SYSTRAN的基础上成功地进行了英、法、德、西、意、葡等多语对的机器翻译,加拿大蒙特利尔大学开发的服务于天气预报领域的英法机译系统TAUM—METE0,日本富士通公司开发的ATLAS英日、日英机译系统,日本日立公司开发的HICATS英日、日英机译系统等等。国内“七五”期间由中国软件总公司开发的商品化英汉机译系统“译星”(TRANSTAR),也是这方面的一个范例。语料库语言学(CorpusLinguistics)“语料库语言学(CorpusLinguistics)是80年代才崭露头角的一门计算语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用”。语料库语言学(CorpusLinguistics)开始崛起。首先它顺应大规模真实文本处理的需求,提出了以计算机语料库为基础的语言学研究及自然语言处理的新思想。这个学派坚持认为语言学知识的真正源泉是大规模活生生的语料,计算语言学工作者的任务是使计算机能自动或半自动地从大规模语料库中获取理解语言所需的各种知识,他们必须客观地而不是主观地对库存的语言事实作出描述。.1.1.2.5.20世纪90年代1990年8月,在赫尔辛基召开的第13届国际计算语言学大会上,大会组织者首次提出了处理大规模真实文本的战略目标,并在会前组织了“大型语料库在建造自然语言系统中的作用”、“词典知识的获取与表示”和“电子词典”等专题讲座,预告了语言信息处理的一个新的历史阶段即将到来。.1.1.2.6.21世纪初.1.1.2.7.21世纪20年代.1.1.2.8.参考文献1)石纯一、黄昌宁、王家钦,《人工智能原理》,清华大学出版社2)ChrisManningandHinrichSchutze,FoundationsofStatisticalNaturalLanguageProcessing,)周强,《基于语料库和面向统计学的自然语言处理技术介绍》,6研究内容.1.1.3.1.从计算的角度来研究语言的性质所谓从计算的角度来看语言的性质,就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像其他语言学研究那样,在表述语言的结构规律时一般采用非形式化的表达形式。.1.1.3.2.将语言作为计算对象来研究相应的算法所谓将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等7.1.1.4.语言分析的不同层次.1.1.4.1.基于语言构成划分层次.1.1.4.1.1.词汇.1.1.4.1.2.短语.1.1.4.1.3.句子.1.1.4.1.4.段落.1.1.4.1.5.篇章.1.1.4.2.基于语言特征划分层次.1.1.4.2.1.音韵词与其发音的关系。.1.1.4.2.2.词法如何用音节形成词,如friend-ly。.1.1.4.2.3.句法8.1.1.4.2.4.语义.1.1.4.2.5.语用.1.1.5.应用领域.1.1.5.1.机器翻译(MachineTranslation)和机助翻译.1.1.5.2.语音识别(SpeechRecognition).1.1.5.3.语音合成(SpeechSynthesis).1.1.5.4.文本分类(TextClassification).1.1.5.5.信息检索(InformationRetrieval).1.1.5.6.信息提取(InformationExtraction)与自动文摘(automaticsummarizing).1.1.5.7.人机接口(Human-MachineInterface).1.1.5.8.故事理解与问答系统9.1.1.6.相关学科.1.1.6.1.各学科的交叉.1.1.6.2.哲学一个词和一个句子怎么会有意义,如何用词指定世界中的物体。信念、目标、和意图是什么东西,与语言有什么关系。通过反例的直觉来扩展自然语言;.1.1.6.3.数学.1.1.6.3.1.数理逻辑.1.1.6.3.2.图论.1.1.6.3.3.概率论.1.1.6.4.语言学研究语