第十一章自然语言理解教学内容:自然语言理解的一般概念、句法和语法的自动分析原理、句子的自动理解方法和语言的自动生成等。教学重点:句法模式匹配、语义的分析、句子的自动理解和语言的自动生成。教学难点:转移网络、词汇功能语法(LFG)。教学方法:课堂教学为主。注意结合学生已学的内容,及时提问、收集学生学习的情况。并充分利用网络课程中的多媒体素材来表示比较抽象的概念。教学要求:掌握句法分析方法,掌握句子的自动理解,初步了解语言的自动生成,一般了解自然语言理解系统的应用实例。11.1语言及其理解的一般问题教学内容:本小节主要讨论自然语言理解的概念、发展简史以及系统组成与模型等。教学重点:语言和语言理解的概念、自然语言理解系统的模型。教学难点:自然语言理解与人类智能的关系、理解自然语言的计算机系统的组成方式。教学方法:课堂教学为主,结合网络课程中的多媒体素材来讲述。教学要求:掌握语言和语言理解的概念、自然语言理解过程的四个层次;一般了解自然语言理解研究的国内外进展。11.1.1语言与语言理解1、语言的构成语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。语言由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的和可理解的句子,句子按一定的形式再构成篇章等。语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规则。语法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。图11.1就是上述构造的一个完整的图解。图11.1语言的构成另一方面,语言是音义结合的,每个词汇有其语音形式。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。提问:构成词的最小的有意义的单位是什么?举例:列举几个由词素构成词的例子,“教师”、“teacher”等。2、语言的理解从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:(1)回答有关提问;(2)提取材料摘要;(3)不同词语叙述;(4)不同语言翻译。对自然语言的理解却是一个十分艰难的任务。自然语言不仅有语义、语法和语音问题,而且还存在模糊性等问题。具体地说,自然语言理解的困难是由下列3个因素引起的:(1)目标表示的复杂性;(2)映射类型的多样性;(3)源表达中各元素间交互程度的差异性。自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科;它能够理解口头语言或书面语言。语言理解包括下列几个方面的内容:(1)能够理解句子的正确词序规则和概念,又能理解不含规则的句子。(2)知道词的确切含义、形式、词类及构词法。(3)了解词的语义分类以及词的多义性和歧义性。(4)指定和不定特性及所有(隶属)特性。(5)问题领域的结构知识和时间概念。(6)语言的语气信息和韵律表现。(7)有关语言表达形式的文学知识。(8)论域的背景知识。思考题:什么是语言和语言理解?11.1.2自然语言理解研究的进展随着计算机技术和人工智能总体技术的发展,自然语言理解不断取得进展。机器翻译是自然语言理解最早的研究领域。由于早期研究中理论和技术的局限,所开发的机译系统的技术水平较低,不能满足实际应用的要求。到了70年代初期,对语言理解对话系统的研究取得进展。伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典型实例。进入80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又十分活跃,并出现了许多具有较高水平的实用化系统。这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论上和应用上取得了突破性进展。自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。11.1.3自然语言理解过程的层次语言的分析和理解过程是一个层次化的过程。现代语言学家把这一过程分为3个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述3个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。1、语音分析语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。2、词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。3、句法分析句法分析是对句子和短语的结构进行分析。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。4、语义分析语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为一个重要的研究内容。思考题:自然语言理解过程有哪些层次,各层次的功能如何?11.2句法和语义的自动分析教学内容:本小节主要讨论句法和语义的自动分析问题。它们是理解自然语言的基础。教学重点:句法分析的方法和语义分析的步骤。教学难点:转移网络的实现、词汇功能语法(LFG)的理解。教学方法:课堂教学为主,结合网络课程中的多媒体素材来讲述。教学要求:重点掌握句法分析的方法和语义分析的步骤,了解转移网络的概念和用LFG语法对句子进行分析的过程。11.2.1句法模式匹配和转移网络1、用转移网络表示句法模式句法模式匹配就是采用句法模式来对语言的句子进行匹配从而进行句法分析。但是自然语言是非常多样化的,因而需要有许多模式。这些模式可用状态转移图来表示,这种用状态转移图来表示的表达方式称之为转移网络(TN,transitionnetwork)。如图11.2所示,图中,q0,q1,…,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。该网络可用于分析句子也可用于生成句子。图11.2转移网络(TN)用TN来识别句子Thelittleorangeducksswallowflies的过程如表11.1。表11.1句子识别过程词当前状态弧新状态theablittlebborangebbducksbcswallowceflieseF(识别)这里忽略了词法分析,网络如图11.3所示图11.3转移网络实例2、网络识别算法识别过程到达f状态(终态),所以该句子被成功地识别了。分析结果如图11.4所示。从上述过程中可以看出,这个句子还可以在网络中走其他弧,如词ducks也可以走弧,但接下来的swallow就找不到合适的弧了。此时对应于这个路径,该句子就被拒识了。由此看出,网络识别的过程中应找出各种可能的路径,因此算法要采用并行或回溯机制。图11.4TN分析树(1)并行算法关键是在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。(2)回溯算法在所有可以通过的弧中选出一条往下走,并保留其他的可能性,以便必要时可回过来选择之。思考题:画出下列上下文无关语法所对应的转移网络:S→NPVPNP→AdjectiveNounNP→DeterminerNounPPNP→DeterminerNounVP→VerbAdverbNPVP→VerbVP→VerbAdverbVP→VerbPPPP→PropositionNP11.2.2扩充转移网络1、扩充转移网络的构成扩充转移网络ATN是由伍兹(Woods)在1970年提出的。ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。ATN的每个寄存器由两部分构成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一维特征都有一个特征名和一组特征值,以及一个缺省值来表示。功能寄存器则反映了句法成分之间的关系和功能。分析树的每个节点都有一个寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。图11.5所示是一个简单的名词短语(NP)的扩充转移网络,网络中弧上的条件和操作如下:图11.5名词短语(NP)的扩充转移网络2、扩充转移网络示例该网络主要是用来检查NP中的数的一致值问题。图11.6是一个句子的ATN,主要用来识别主、被动态的句子,从中可以看到功能寄存器的应用。图11.6句子的扩充转移网络网络描述如下:S-1:A:Subject←?/FONT*.S-2:A:Main-Verb←?/FONT*.S-3:C:Main-Verb.Type=Be,Do,HaveorModalA:Auxs=Main-Verb,Main-Verb←?/FONT*.S-4:D:*.Form=Past-partandMain-Verb.Type=BeA:Voice←?/FONTPassive,Auxs=Main-Verb,Main-Verb←?/FONT*.Direct-Obj←?/FONTSubject,Subject←?/FONTdummy-NP.S-5:A:Direct-Obj←?/FONT*.S-6:A:Modifiers=*.S-7:C:Voice=PassiveandSubject=dummy-NPand*.Prep=“by”.A:Subject←?/FONT*.Prep-Object.S-8:NoConditions,actionsorinitializations.当然作为一完整的ATN是相当复杂的,在实现过程中还必须解决许多问题,如非确定性分析、弧的顺序、非直接支配关系的处理等等。ATN方法在自然语言理解的研究中得到了广泛的应用。11.2.3词汇功能语法1、词汇功能语法的结构词汇功能语法(LFG)是由卡普兰和布鲁斯南(Bresnan)在1982年提出的,它是一种功能语法,但是更加强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。LFG对句子的描述分为两部分:直接成分结构(ConstituentStructure,简称C-Structure)和功能结构(FunctionalStructure,简称F-structure),C-structure是由上下文无关语法产生的表层分析结果。在此基础上经一系列代数变换产生F-structure。LFG采用两种规则:加入下标的上下文无关语法规则和词汇规则。表11.2给出了一些词汇功能语法的规则和词条。表11.2LFG语法与词典Grammarrules:S→NPVP(↑Subject)=↓↑=↓NP→DeterminerNounVP→VerbNPNP↑=↓(↑Object)=↓(↑Object-2)=↓Lexicalentries:ADeterminer(↑Definiteness)=Indefinite(↑Number)=SingularbabyNoun(↑Number)=Singular(↑Predicate)=‘Baby'girlNoun(↑Number)=Singular(↑Predicate)=‘Girl'handedVerb(↑Tense)=Past(↑Predicate)=Hand<(↑Subject),(↑Object),(↑Object2)>theDeterminer(↑Definiteness)=DefinitetoysNoun(↑Number)=Plural(↑Predicate)=‘To