自然语言处理NaturalLanguageProcessingNLP

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

自然语言处理NaturalLanguageProcessing(NLP)陈家骏,戴新宇chenjj@nlp.nju.edu.cndxy@nlp.nju.edu.cn主要内容(1)自然语言处理概述什么是自然语言处理自然语言处理技术的应用自然语言处理的基本策略和实现方法自然语言处理的难点自然语言处理所涉及的学科()基于规则的自然语言处理方法(理性方法,传统方法)基于词典和规则的形态还原(英语)、词性标注以及分词(汉语、日语)基于CFG(上下文无关文法)和扩充的CFG(复杂特征集、合一运算)的句法表示及其分析技术基于逻辑形式和格语法的句义分析基于规则的机器翻译()主要内容(2)基于语料库的自然语言处理方法(经验方法)语言模型(N元文法)分词、词性标注(序列化标注模型)句法分析(概率上下文无关模型)文本分类(朴素贝叶斯模型、最大熵模型)机器翻译(IBMModel等)......(基于神经网络的深度学习方法)主要内容(3)所需的前导知识编译技术概率与统计参考书籍宗成庆,统计自然语言处理,清华大学出版社,2008刘群等译,自然语言理解(第二版),电子工业出版社,2005苑春法等译,统计自然语言处理基础,电子工业出版社,2005冯志伟等译,自然语言处理综论,电子工业出版社,2005黄昌宁等,语料库语言学,商务印书馆,2002冯志伟,计算语言学基础,商务印书馆,2001余士文,计算语言学概论,商务印书馆,2003姚天顺,自然语言理解--一种让机器懂得人类语言的研究(第2版),清华大学出版社,2002赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000宗成庆等译,统计机器翻译,电子工业出版社,2012PeterF.Brown,etal.,AStatisticalApproachtoMT,ComputationalLinguistics,1990,16(2)课程考核Projects提交报告(说明基本做法)和源程序及可运行的程序期末笔试自然语言处理概述什么是自然语言处理充分利用信息将会给人们带来巨大的收益,而大量的信息以自然语言(英语、汉语等)形式存在。如何有效地获取和利用以自然语言形式出现的信息?自然语言处理(NaturalLanguageProcessing,简称NLP)是指用计算机对语言信息进行处理的方法和技术。与NLP相近的两个研究领域:自然语言理解(NaturalLanguageUnderstanding,NLU):强调对语言含义和意图的深层次解释计算语言学(ComputationalLinguistics,CL):强调可计算的语言理论NLP技术的应用机器翻译自动摘要文本分类与信息过滤信息检索信息抽取与文本挖掘情感分析自动问答......机器翻译(MachineTranslation)机器翻译(MachineTranslation,简称MT)是指利用计算机实现自然语言(英语、汉语等)之间的自动翻译。是最早的计算机应用之一分为:文本机器翻译和语音机器翻译机器辅助翻译(MachineAidedTranslation或ComputerAidedTranslation,简称MAT或CAT)翻译记忆体(TranslationMemory,简称TM)双语对照的文本编辑...自动摘要(TextSummarization)利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简洁、连贯的短文。指标:压缩比、...文本分类(TextClassification)将一篇文档归于预先给定的一个类别集合中的某一类或某几类。可用于图书馆的图书分类信息过滤......信息检索(InformationRetrieval,IR)主题相关的文本获取。基于关键词,从某文档集合中检索出相关的文档。关键技术:倒排索引、...google、百度、...信息抽取(InformationExtraction,IE)主题相关的信息获取。基于某个主题模板,从非结构化或半结构化的自然语言文本中提取出相关的结构化信息。对机器翻译、自动问答、数据挖掘(文本挖掘)等提供支持。新华社北京3月8日电(记者李术峰):中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央1998年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正华主持了会议,他说,农工民主党有100多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在1998年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。信息抽取实例:会议报道(人民日报1998-03-09)信息抽取的结果会议时间Time1998年3月8日会议地点Spot北京会议召集者/主持人Convener个人姓名/团体名称Name蒋正华机构、职位Org/Post主席,农工民主党中央会议名/标题Conf-Title中国农工民主党第十二届中央常务委员会第一次会议情感分析(SentimentAnalysis或OpinionAnalysis)分析文章(评论)对某个对象(社会热点事件、产品或者服务)的态度(正面还是负面)。政府舆情分析:热点事件发现、预警企业市场决策:产品意见调查、产品推荐消费者购买决策......自动问答(QuestionAnswering,QA)针对用户提出的问题,给出具体的答案。Apple的Siri、IBM的Watson机器人、百度的“知道”、…自然语言处理的主要任务(工作)语言分析:分析语言表达的结构和含义词法分析:形态还原、词性标注、命名实体识别、分词(汉语、日语等)等句法分析:组块分析、结构分析、依存分析语义分析:词义、句义(逻辑、格关系、...)、篇章(上下文)(指代、实体关系)语言生成:从某种内部表示生成语言表达多语言处理(机器翻译、跨语言检索):语言之间的对应、转换不同的应用对上述任务有不同的要求。自然语言的分类(基于形态结构)分析型语言词形变化很少没有表示词的语法功能的附加成分,由词序和虚词表示词之间的语法关系汉语、藏语等黏着型语言有词形变化词的语法意义(功能)由附加成分表达日语、芬兰语等屈折型语言有词形变化词的语法意义由词的形态变化来表示英语、德语、法语等另外,还可以按SVO型(主-动-宾)、VSO型(动-主-宾)和SOV型(主-宾-动)分类自然语言处理的实现方法基于规则的理性方法(Rationalistapproach)基于以规则形式表达的语言知识(词、句法、语义以及转换、生成)进行推理。强调人对语言知识的理性整理。受Chomsky主张的人具有先天语言能力观点的影响,主宰1960-1985基于语料库的经验方法(Empiricistapproach)以大规模语料库(单语和双语)为语言知识基础。利用统计学习和基于神经网络的深度学习方法自动获取和运用隐含在语料库中的知识。学习到的知识体现为一系列模型参数。混合方法理性方法的优、缺点相应的语言学理论基础好语言知识描述精确处理效率高知识获取困难(高级劳动)系统鲁棒性(适应性)差:不完备的规则系统将导致推理的失败知识扩充困难,很难保证规则之间的一致性经验方法的优、缺点知识获取容易(低级劳动)系统鲁棒性好:概率大的作为结果知识扩充容易、一致性容易维护相应的语言学理论基础差缺乏对语言学知识的深入描述和利用,过于机械处理效率低利用各家之长,相互融合自然语言处理的难点歧义处理有限的词汇和规则表达复杂、多样的对象语言知识的表示、获取和运用成语和惯用型的处理对语言的灵活性和动态性的处理灵活性:同一个意图的不同表达,甚至包含错误的语法等动态性:语言在不断的变化,如:新词等上下文和世界知识(常识,语言无关)的利用和处理汉语处理的难点缺乏计算语言学的句法/语义理论,大都借用基于西方语言的句法/语义理论词法分析分词词性标注难句法分析主动词识别难词法分类与句法功能对应差语义分析句法结构与句义对应差时体态确定难(汉语无形态变化)资源(语料库)缺乏自然语言处理所涉及的学科计算语言学:各种语法、语义理论计算机科学(包括人工智能、机器学习)数学:逻辑、概率与统计、信息论等哲学(认知学)心理学......基于规则的自然语言处理方法(理性方法,传统方法)概述强调对语言知识的理性整理(知识工程)受计算语言学理论指导基于规则的知识表示和推导(符号计算)语言处理规则(数据)与程序分离,程序体现为规则语言的解释器!词法分析形态还原(针对英语、德语、法语等)把句子中的词还原成基本词形。词性标注为句子中的词标上预定义类别集合(标注集)中的类。命名实体识别人名地名机构名分词(针对汉语、日语等)识别出句子中的词。形态还原(英语)把句子中的词还原成原形,作为词的其它信息(词典、个性规则)的索引。构词特点屈折变化:词尾和词形变化,词性不变。如:study,studied,studied,studyingspeak,spoke,spoken,speaking派生变化:加前缀和后缀,词性发生变化。如:friend,friendly,friendship,...复合变化:多个单词以某种方式组合成一个词。还原规则通用规则:变化有规律个性规则:变化无规律形态还原规则举例英语“规则动词”还原*s-*(SINGULAR3)*es-*(SINGULAR3)*ies-*y(SINGULAR3)*ing-*(VING)*ing-*e(VING)*ying-*ie(VING)*??ing-*?(VING)*ed-*(PAST)(VEN)*ed-*e(PAST)(VEN)*ied-*y(PAST)(VEN)*??ed-*?(PAST)(VEN)英语不规则动词还原went-go(PAST)gone-go(VEN)sat-sit(PAST)(VEN)形态还原算法1.输入一个单词2.如果词典里有该词,输出该词及其属性,转4,否则,转33.如果有该词的还原规则,并且,词典里有还原后的词,则输出还原后的词及其属性,转4,否则,调用未登录词模块4.如果输入中还有单词,转(1),否则,结束。Proj.1实现一个英语单词还原工具。(词典:)词性标注为句子中的词标上预定义类别集合(标注集)中的类(词性),为后续的句法/语义分析提供必要的信息。标注体系的确定标注方法词性标注体系词的分类按形态和句法功能(句法相关性)按表达的意思(语义相关性)兼顾上述二者英语词的分类开放类(openclass)Nouns句法上:可作物主、可有限定词、有复数形式语义上:人名、地名和物名Verbs句法上:作谓语、有几种词形变化语义上:动作、过程(一系列动作)Adjectives句法上:修饰Nouns等语义上:性质Adverbs句法上:修饰Verbs等语义上:方向、程度、方式、时间封闭类(closedclass,functionwords)DeterminersPronounsPrepositionsConjunctionsAuxiliaryverbsParticles(if、n

1 / 115
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功