人工智能导论第10章 自然语言理解

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

IntroductionofArtificialIntelligence第10章自然语言处理及其应用教材:王万良《人工智能导论》(第3版)高等教育出版社,2011.22第10章自然语言处理及其应用如果计算机能够理解、处理自然语言,这将是计算机技术的一项重大突破。自然语言理解的研究在应用和理论两个方面都具有重大的意义。本章首先自然语言理解的概念以及发展历史,然后从应用角度介绍机器翻译和语音识别技术。3第10章自然语言处理及其应用10.1自然语言理解的概念与发展历史10.2语言处理过程的层次10.3机器翻译10.4语音识别4第10章自然语言处理及其应用10.1自然语言理解的概念与发展历史10.2语言处理过程的层次10.3机器翻译10.4语音识别510.1.1自然语言理解的概念微观角度:从自然语言到机器内部的一个映射。宏观角度:使机器能够执行人类所期望的某种语言功能。(1)回答问题:计算机正确地回答用自然语言输入的有关问题。(2)文摘生成:机器能产生输入文本的摘要。(3)释义:机器能用不同的词语和句型来复述输入的自然语言信息。(4)翻译:机器能把一种语言翻译成另外一种语言。610.1.2自然语言理解研究的产生与发展1.萌芽时期(20世纪40年代末50年代初)2.以关键词匹配技术为主的时期(20世纪60年代始)A.DonaldBooth&W.WeaverM.Chomsky形式语言和文法3.以句法语义分析技术为主的时期(20世纪70年代后)4.基于知识的自然语言理解发展时期5.基于大规模语料库的自然语言理解发展时期68年B.Raphael:语义检索系统SIRJ.Weizenbaum:心理医疗ELIZA72年W.Woods:语音接口LUNART.Winograd:英语对话SHEDLU7第10章自然语言处理及其应用10.1自然语言理解的概念与发展历史10.2语言处理过程的层次10.3机器翻译10.4语音识别8文字表达句子的层次:词素→词或词形→词组或句子。声音表达句子的层次:音素→音节→音词→音句。语言处理过程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。语用分析:研究语言所存在的外界环境对语言使用产生的影响。构成单词发音的独立单元是音素。上下文不同而发音不同。语音分析就是根据音位规则,从语言流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。10.2语言处理过程的层次91.词法分析定义:从句子中切分出单词,找出词汇的各个词素,并确定其词义。例:unchangeable:un-change-able英语词法分析特点:切分单词容易,找出词素复杂。例:importable分为import-able或im-port-able词法分析算法举例:repeatlookforwordindictionaryifnotfoundthenmodifythewordUntilwordisfoundornofurthermodificationpossible101.词法分析例如:对于单词catches、ladies可以做如下的分析。catchesladies,词典中查不到catcheladie修改1:去掉scatchladi修改2:去掉elady修改3:把i变成y这样,在修改2的时候,就可以找到catch,在修改3的时候就可以找到lady。例如:优秀人才学人才学1.优秀人-才学人才学2.优秀人才-学人才学汉语词法分析特点:找出词素简单,切分出词困难。ly副词后辍;ed动词过去分词111型文法:上下文有关文法2型文法:上下文无关文法3型文法:正则文法左线性文法:A→Bt或A→t(A→Bt→Ct*t)右线性文法:A→tB或A→t产生式规则:x→y产生式规则:x→y例:AB→CDE√ABC→DE×XaY→XbY产生式规则:A→x0型文法:无约束短语结构文法2.句法分析:乔姆斯基的形式文法123.语义分析语义分析是将句法成分与应用领域中的目标表示相关联。简单做法:依次使用独立的句法分析程序和语义解释程序。缺点:使句法分析、语义分析分离语义文法格文法13语义文法是将文法知识和语义知识组合起来,以统一的方式定义为文法规则集。舰船信息:S→PRESENTtheATTRIBUTEOFSHIPPRESENT→Whatis|CanyoutellmeATTRIBUTE→length|classSHIP→theSHIPNAME|CLASSNAMESHIPNAME→HUANGHE|CHANGJIANGCLASSNAME→carrier|submarine3.语义分析14目的:为了找出动词和跟动词处在结构关系中的名词的语义关系,同时也涉及动词或动词短语与其他的各种名词短语之间的关系。特点:允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却对应于语义关系,而非严格的句法关系。例:MaryhitBillBillwashitbyMary(Hit(AgentMary)(DativeBill))3.语义分析15SSNPNPVPVPVNPVPPBillMaryhitwashitbyBillMary主动句和被动句的句法分析树3.语义分析16第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语言处理过程的层次10.7机器翻译10.8语音识别1710.3机器翻译10.3.1机器翻译方法概述10.3.2翻译记忆1810.3.1机器翻译方法概述发展历程:直接型间接型中间语言型转换型191.直译式翻译系统(directtranslationMTsystems)通过快速的分析和双语词典,将原文译出。2.规则式翻译系统(rule-basedMTsystems)先分析原文内容,产生原文的句法结构,再转换成译文的句法结构,最后再生成译文。10.3.1机器翻译方法概述203.中介语式翻译系统(inter-lingualMTsystems)先生成一种中介的表达方式,而非特定语言的结构;再由中介的表达式,转换成译文。基于规则的翻译中介语式的翻译10.3.1机器翻译方法概述214.知识库式翻译系统(knowledge-basedMTsystems)翻译经常需要除了词汇之外的各种知识,使用知识获取工具(knowledgeacquisition),以充实知识库的内容。6.范例式翻译系统(example-basedMTsystems)将过去的翻译结果,当成范例,产生一个范例库。5.统计式翻译系统(Statistics-basedMTsystems)源语言中任一句子都可能是目标语言中某些句子相似。7.混合式翻译系统(Statistics-basedMTsystems)同时采用多种策略,以达成翻译的目标。10.3.1机器翻译方法概述22基本原理:用户利用已有的原文和译文,建立起一个或多个翻译记忆库,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落等),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越“聪明”。德国塔多思(TRADOS)公司的翻译记忆软件基于UNICODE(统一字符编码),支持55种语言,覆盖了几乎所有语言版本的Windows95/98/NT。10.3.2翻译记忆23第10章自然语言理解及其应用10.1自然语言理解的概念与发展历史10.2语言处理过程的层次10.3机器翻译10.4语音识别2410.4.1语言识别的概念语音识别用语音作为输入,口语对话与语音信号中语言提取的不同:(1)上下文猜测(2)肢体语言传达信息机器翻译用印刷文本作为输入,能清楚地区分单个单词和单词串。fare|fairmale|mail2510.4.2语音识别的主要过程1.语音信号采集基于单片机,DSP芯片基于PC机2.语音信号预处理预滤波(1)抑制输入信号各频域分量中频率超出采样频率的一半的所有分量,以防止混叠干扰。(2)抑制50Hz的电源工频干扰。26语音信号预处理采样:对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。预加重:是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。端点检测:包含语音的一段信号中确定出语音的起点以及终点。10.4.2语音识别的主要过程27过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度。ZCR(i)=∑|sgn(xi(n))-sgn(xi(n+1))|10.4.2语音识别的主要过程28声波有两个主要特征:振幅和频率。线性预测编码(LPC):基本思想:由于语音样点之间存在相关性,所以可以用过去p个样点值来预测现在或未来的样点值。10.4.2语音识别的主要过程29矢量量化(vectorquantization,VQ)技术是七十年代后期发展起来的一种数据压缩和编码技术。在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替。矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。10.4.2语音识别的主要过程4.向量量化305.识别。识别系统的输入是从语音信号中提出的特征参数语音识别所采用的方法一般有:(1)模板匹配法。在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。(2)随机模型法。如隐马尔可夫模型(HMM)。用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果。(3)概率语法分析法。不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音。将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统。10.4.2语音识别的主要过程3110.4.3隐马尔可夫模型隐马尔可夫模型:表示序列可能出现的一种方法。y跟在ph后面出现的概率跟在t后面出现的概率例序列:12334。则概率0.9×0.5×0.4×0.6=0.10832状态隐含,观察可测10.4.4基于隐马尔可夫模型的语音识别方法(1)观察符号是一帧帧的语音参数(2)状态序列是具体的语音内容LPC或MFCC前进,后退例:33解决三个基本问题:(1)输出概率计算问题:给定观察序列和HMM模型,计算输出概率。(2)状态序列解码问题:给定观察序列和HMM模型,确定最优的转移序列。(3)模型参数估计问题:调整模型的参数,以使最大。),,,(21toooO),,,(21toooO),,(BA10.4.4基于隐马尔可夫模型的语音识别方法)(OP)(OP34输入语音比较结果语音分析矢量量化语音模型比较判断HMM训练概率计算特征提取10.4.4基于隐马尔可夫模型的语音识别方法基于HMM的孤立字(词)识别35THEENDIntroductionofArtificialIntelligence

1 / 35
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功