自然语言的处理

catfyn
2 ℃
2020-01-19

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1第3章自然语言的处理23.1基本概念3信息的主要载体－语言语言的两种形式－文字和声音文字和声音作为语言的两个不同形式的载体，所承载的信息占整个信息组成的90％以上。如何让计算机实现人们希望实现的语言处理功能？如何让计算机真正实现海量的语言信息的自动处理和有效利用？4自然语言处理（NaturalLanguageProcessing，简称NLP）是利用计算机为工具，对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。——冯志伟《自然语言的计算机处理》NLP是用计算机通过可计算的方法对自然语言的各级语言单位（字、词、语句、篇章等）进行转换、传输、存储、分析等加工处理的理论和方法。5其它名称自然语言理解(NaturalLanguageUnderstanding)计算语言学(ComputationalLinguistics)现代语言学的一大分支，它是用计算机理解、生成和处理自然语言，即它的研究范围不仅涵盖语言信息的处理，还包括语言的理解和生成。6研究语言的目的研究语言的目的为语言构造出足够精细的计算模型，以便能够写出由计算机程序来完成的涉及自然语言的各种任务。计算模型的用途作为科学研究的目的－可以探索语言交流的本质；作为实用的目的－能够实现有效的人机通信。终极目标能够给出一些模型，这些模型在完成阅读、写作、听、说等任务时能够接近人的行为。7不关注与所使用的特定媒介相关的问题，例如手写输入、键盘输入或语音输入的问题。关注在词语识别完成后理解和使用语言的过程。NLP的历史20世纪50年代起步提出机器翻译等重要问题50年代-60年代采用模式匹配法和文法分析方法对基于理解和基于统计方法的讨论60年代后期衰落70-80年代采用了面向受限域的深入理解方法80年代后期至今统计方法占据主流大规模语料可用，计算机性能大幅提高互联网的迅速发展为NLP提供了实验数据来源和新的应用场景893.2自然语言处理技术可以为我们做什么？1、信息检索•微软：106,000,000条（8年前2,060,000条）微软，亚洲研究院：1,060,000条微软，亚洲研究院，研究方向：116,000条微软，亚洲研究院，自然语言处理：38,900条⇒08年7月一万亿个网页，每天数十亿增加⇒获得的信息只有1％被有效利用“框”计算“框计算”是2009年8月18日，百度董事长兼首席执行官李彦宏在2009百度技术创新大会上所提出的全新技术概念。用户只要在“百度框”中输入服务需求，系统就能明确识别这种需求，并将该需求分配给最优的内容资源或应用提供商处理，最终精准高效地返回给用户相匹配的结果。这种高度智能的互联网需求交互模式，以及“最简单可依赖”的信息交互实现机制与过程，称之为“框计算”。10112、借助于语言信息处理的web智能1213微软亚洲研究院——人立方输入“王菲”得到的人物关系图15Ex-1:Thespiritiswilling,butthefleshisweak.（心有余，而力不足。）译：精神是愿意的,但骨肉是微弱的。(Systran，现在已经能够正确翻译)Ex-2:3、机器翻译16在网络上输入“问句”，自动给出精确地答案。自动问答系统的结构三个模块：提问处理模块（Question-Processing）；文献处理模块（Document-Processing）；答案的提取和构造模块（AnswerExtractionandFormulation）。——冯志伟4、自动问答系统17如“给我找出所有有关在1986年到1990年之间曾经尝试而最终失败且金额超过1亿美元的融资收买的文章。”处理方法：1、对数据库的每篇文章建立一种表示形式2、这种表示形式能用于后续的推理5、复杂的检索任务18输入：美欧贸易摩擦升级识别结果：美欧贸易摩擦生机输入：新技术的发展日新月异识别结果：新纪录的发展日新月异6、语音识别19信息过滤，信息安全文摘生成问答系统，人机交互语言教学文字输入，文字编辑与排版语音翻译网络内容管理与知识发现……201.3关于“理解”的理解他说：“她这个人真有意思(funny)”。她说：“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish)，并让他向她意思意思(express)。他火了：“我根本没有那个意思(thought)”！她也生气了：“你们这么说是什么意思(intention)”？事后有人说：“真有意思(funny)”。也有人说：“真没意思(nonsense)”。——《生活报》1994.11.13.第六版21人脑对语言的理解是一个复杂的思维过程。自然语言理解技术同多个学科有着千丝万缕的关系。语言学：研究语言本身的结构语言心理学：研究人类生成和理解语言的过程逻辑学：计算机科学人工智能数学与统计学……22一种测试机器是不是具备人类智能的方法。图灵测试231.4自然语言理解研究的基本问题研究的层次——语法学：研究语句的组成结构，包括词和短语在语句中的作用等。为什么一句话可以这么说也可以那么说？24研究的层次——语义学：研究如何从一个语句中推导词的意义，以及这些词在该语句中句法结构中的作用来推导出该语句的意义。这句话说了什么？(1)今天中午我吃食堂。(2)这个人真牛。(3)这个人眼下没些什么，那个人嘴不太好。25研究的层次——语用学：研究在不同上下文中的语句的应用，以及上下文对语句理解所产生的影响。为什么要说这句话？（1）火，火！（2）A:看看鱼怎么样了？B:我刚才翻了一下。自然语言理解的基本模型汉语的特点：汉语是大字符集（GBK字符集）的意音文字（图形符号既代表语素，又代表音节的文字系统）；汉语词与词之间没有空格，没有形态变化；汉语的同音词较多；字形复杂；汉语的语法研究尚未规范化；汉语的语言学知识的量化与形式化工作滞后。271.5汉语的自然语言理解英语只有26个字母,中文却有44908个汉字(《中华大辞典》)。英语有1500年历史《牛津英语辞典》收词40多万条。汉语长达六千多年历史《中华大辞典》收词六十多万条,比英语多50%。这一特性为汉字的输入和计算机编码造成了极大的困难。西方语言的形态对于计算机来说就是标记；汉语以字为基本单位，词之间没有明显的标记，需要词的切分，而分词本身有一定的错误率，降低了后续处理的实际效果。汉语词本身没有性、数、格、时态变化等形态标志，给语义分析增加了困难。方块汉字由象形文字演化而来，汉字字形的信息量较大，给计算机的内部信息压缩和文字显示制造了困难。汉语句子中词序虽同可能意义迥异；虚词并非非用不可，特别是在口语里，虚词更少，因此虚词只能是解决词与词、句与句关系问题的辅助手段；“意合”包含着许多语言环境、语言背景和语言风格知识以及缺省问题，如何全面把握有关意义的诸项要素，并把它形式化，是最大的难题。281、交集型切分歧义问题乒乓球/拍卖/完/了乒乓球拍/卖/完/了美国/会通过对台售武法案美/国会/通过对台售武法案汉语自然语言理解的难点292、未登录词（新词）问题汉语词典中未列入的词包括：专有名词：中文人名、地名、机构名称、外国译名、时间词重叠词：高高兴兴派生词：一次性用品专业术语：互联网303、词性岐义问题多词性和多词义是语言的一种普遍现象，汉语这种现象比西方语言严重得多。和根据《现代汉语词典》，可以有五种读音：he2；he4；hu2；huo2；huo4六种词性：名词、形容词、连词、动词、介词、量词十六种不同的词义314、否定词和语义上的混乱汉语上的否定词“不”有时并不表示否定。相反，反而会更肯定。如：“可不是”比“可是”更可是。325、汉语的岐义结构（短语歧义）岐义结构是句子自生固有的，必须在整个语境环境下才可能消歧，自动消歧是很难的。彩色铅笔盒子[彩色][铅笔盒子][彩色铅笔][盒子]他在看病他在给别人看病大夫给他看病6、汉语的词义岐义打乒乓球打电话打毛衣7、语用岐义你真讨厌！341.6自然语言处理技术如何描述一种语言？穷举：给出语言中所有的句子；只适合含有有限多个句子的语言。文法：给出可以生成语言中所有句子的方法；当且仅当能够用该方法产生的句子属于该语言。自动机：给出识别该语言中句子的机械方法；可以检验输入句子是否属于该语言。按技术路线分为：基于语言学规则的语言处理技术基于统计的语言处理技术两者结合1、基于语言学规则的语言处理技术通过对语言学知识的形式化、形式化规则的算法化，以及算法实现等步骤将语言学知识转化为计算机可以处理的形式。强调语言学家对语言现象的认识。采用非歧义的规则形式描述或解释歧义行为或歧义特性。37语言学家：撰写“规则库”（包括“词典”）计算机学家：编写算法程序，对“规则库”进行解释和执行。382、基于统计的语言处理技术从大规模真实语料库中获得各级语言单位上的统计信息，并依据较低级语言单位上的统计信息，用相关的统计推理技术计算较高级语言单位上的统计信息。注重用数学方法—概率论与数理统计。能从代表自然语言规律的大规模真实文本中发现知识，抽取语言现象或统计规律（从大量的语言数据中获得语言的知识结构）。39语言学家：建立“语料库”——经科学取样和加工的大规模电子文本库。•存放的是在语言的实际使用中真实出现过的语言材料；•以电子计算机为载体承载语言知识的基础资源；•真实语料需要经过加工（分析和处理），才能成为有用的资源。计算机学家：建立统计模型利用语料库训练模型参数编写算法解决问题40二者区别——研究对象不同基于规则的方法主要研究人的语言知识结构，实际的语言数据只提供了这种内在知识的间接证据。基于统计的方法研究对象就是实际的语言数据。41二者区别——理论基础不同基于规则的方法是基于乔姆斯基的语言理论的。通过语言所必须遵守的一系列原则来描述语言，以此判断一个句子是正确的还是错误的。基于统计的方法基于香农的信息论。将语言事件赋予概率，作为其可信度，由此来判断一个句子是常见的还是罕见的。42二者区别——范围不同基于规则的方法通过对一些特定领域或范围内的语言现象的研究来得到对人的语言能力的认识，而这些语言现象在实际应用中可能并不常见。基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。43二者区别——方法不同基于规则的方法：符号处理系统。基于统计的方法偏重于对语料库中人们实际使用的普通语言现象的统计表述。441.7基于语言学规则的语言处理技术规则举例新词抽取的常规规则：1、If(pos(A)=‘N’AND(pos(B)=‘V’ORpos(B)=‘A’orpos(B)=‘N’ORpos(B)=‘Q’))ThenABisnew该规则表示:如果由两个词构成的二元组中A为名词，而B为动词或形容词或名词或量词，则将该二元组做标记，认为是新词。2、If(pos(A)=‘V’ANDpos(B)=‘A’)ThenABisnew例如：减肥，模仿秀46分词结果中含词数最少等价于在有向图中搜索最短路径方法：最小匹配算法分段；逐段统计最短路径（dijkstra算法：用于计算一个节点到其他所有节点的最短路径）；得到若干分词结果：发展/中/国家发展/中国/家；统计排歧。最少分词问题4748按处理对象的不同，可分为：1、字处理技术2、词处理技术词是自然语言中最小的有意义的构成单位，是最基本的研究对象。词处理主要包括分词、词性标注、词义消歧。3、语句处理技术4、篇章处理技术基于规则的句法分析理论和方法Chomsky的形式语言理论上下文无关文法转移生成文法扩充转移网络491、chomsky的形式语言理论用G表示形式语法，G定义为四元组：G=（Vn,Vt,S,P）（1）Vt：终结符集合。是一个形式语言的基本符号。它们能在一个形式语法的推导规则的输入或输出字符串存在，而且它们不能被分解成更小的单位。一个语法的规则不能改变终结符。下面的语法有两个规则：x→xax→ax在这种语法之中，a是一个终结符，因为没有规则可以把a变成别的符号。不过，有