哈工大人工智能课件chpt9

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

人工智能原理第9章自然语言理解简介本章内容9.1语言与通讯9.2句法分析与语法9.3概率语言模型9.4信息检索9.5信息抽取9.6统计机器翻译参考书目第9章自然语言理解简介9.1概述9.1.1语言与通讯9.1.2自然语言处理第9章自然语言理解简介4语言与通讯•通讯是一种通过产生和感知信号带来的有意图的信息交换/信号来自一个由约定信号组成的共用系统•人类区别于其他动物的特征是语言—复杂的结构化信息系统•对智能体而言,产生语言的行动称为言语行为•“言语”=“言论自由”中的言论第9章自然语言理解简介5言语行为的目的•通过言语行为达成联合规划:•询问其他智能体关于世界的信息—提问•相互通知关于世界的信息—陈述•请求其他智能体行动—指令(包括礼貌的间接言语行为、命令等)•应答请求•承诺或提出计划•宣言式言语行为—对世界有更直接的影响—诸如“现在我宣布……”第9章自然语言理解简介6通讯的组成步骤•人类语言产生的目的—认知和通讯/典型的通讯情节—说话者S用词语集合W将关于命题P的信息通知聆听者H,包括7个过程•意图—S要把P告诉H•生成—P用W表示,H可判定P•合成—物理实现—语音/文字等•感知—H通过语音/文字识别等获知P•分析—可分为3部分:句法/语义/语用解释•排歧—H推断S的含义P•合并—H决定是否相信P第9章自然语言理解简介7通讯过程第9章自然语言理解简介意图:Know(H,¬Alive(Wumpus,S3))生成:Thewumpusisdead说话者合成:thaxwahmpaxsihzdehd]感知:Thewumpusisdead分析:(句法分析)SNPVPArticleNounAdjectiveVerbThedeadiswumpus(语义解释):(语用解释):¬Alive(Wumpus,Now)Tired(Wumpus,Now)¬Alive(Wumpus1,S3)Tired(Wumpus1,S3)聆听者排歧:¬Alive(Wumpus1,S3)合并:TELL(KB,¬Alive(Wumpus1,S3)8分析过程•分析分为3个子过程(人为划定—是否就是人类理解语言的过程?)•句法分析—为输入字符串建立句法分析树•语义解释—表示为某种表达式,如谓词逻辑/可能有歧义—此时存在多个表达式•语用解释—考虑到同样词语集合在不同情境下有不同含义/语用能为一个语句的最终解释给出更大贡献•有了3个子过程,分析仍然可能给出几个解释,排歧就是选择其中最好的一个第9章自然语言理解简介9.1.2自然语言处理第9章自然语言理解简介10WhatisNLP?•什么是自然语言处理(NaturalLanguageProcessing,NLP)•是用计算机通过可计算的方法对人类语言进行转换、传输、存贮、分析等加工处理的理论和方法。•构造计算模型,用于自然语言的分析、转换、生成。•其他名称:•计算语言学(ComputationLinguistics)•自然语言理解(NaturalLanguageUnderstanding,NLU)•人类语言技术(HumanLanguageTechnology)•相关名称:•中文信息处理(ChineseInformationProcessing)•网络信息处理(WebInformationProcessing)11基本概念•什么是自然语言•自然语言指人类使用的语言,如汉语、英语等。•语言是思维的载体,是人际交流的工具。•语言的两种属性-文字和声音•人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。12基本概念•什么是处理•处理是指对信息的接收、存储、转化、传送和发布等等操作•分级:字级处理、概念处理和智能处理•智能处理的主要研究领域:自然语言理解、计算机视觉、机器人学及知识工程•智能的未来发展,将会对知识库、专家系统、推理系统和神经网络等综合应用,达到能够模拟人类比较复杂的思维和行为13为什么要研究自然语言处理?•信息时代到了!语言是信息的载体。•提高计算机的智能:能理解和处理大量语言信息。14机器能够理解人的语言吗?•很难,但是没有证据表明不行。•什么是理解?•结构主义:机器的理解机制与人相同。•问题在于谁也说不清自己理解语言的步骤。•功能主义:机器的表现与人相同。•图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。15一个NLP的例子:英汉翻译•输入英文句子:•MissSmithputtwobooksonthistable.•形态分析(MorphologicalAnalysis)•词形还原(Lemmatization):将词还原为词典中的原型。•词汇符号化(Tokenization):相当于中文分词。•分析结果:MissSmithputtwobook+sonthistable.16•句法分析(SyntacticAnalysis):分析句子的结构。SNPVPMissSmithputtwobooksonthetable.VNPPP17•词汇转换Miss小姐Smith史密斯put(+ed)放two两book+s书on在…上面this这diningtable.餐桌•短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面18•生成•史密斯小姐放两书在这桌子上面。•史密斯小姐(把)两(本)书放在这(张)桌子上面。•最终翻译结果•英文:MissSmithputtwobooksonthetable.•中文:史密斯小姐把两本书放在这张桌子上面。19机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理文本采集文本格式转换:PDF、Office、HTML纯文本文本编码识别、转换:GB、Big5、Unicode。20机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理句子边界识别例如:Mr.Wanglikesswimming,dancingandreading.21机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理研究构词方法,词的有意义的组合。构词的基本单位:词素(词根、前缀、后缀、词尾)例如:老虎←老+虎;图书馆←图+书+馆例如:work+er→workerdo+ing→doing22机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理将句子切分为词序列例如:钓鱼岛/是/中国/的/领土/。23机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理给句子的词标注正确的词性例如:钓鱼岛n/是v/中国n/的de/领土n/。24机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理分析句子的组成结构,句子结构成分之间的相互关系。判定一个句子的合法性SNPVP钓鱼岛是中国的领土VNP25机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理研究给句子的词标注正确的词义。例如:这个人真牛。//牛:动物|了不起。26机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。语言和世界的映射关系施事、受事、工具等27机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理为什么要说这句话研究不同语境中的语句的应用,及语境对语句理解的作用语言交际目的:主题、述体、焦点28机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理分析篇章的结构、主题、观点、摘要、有用信息主题分析观点分析自动文摘信息抽取信息过滤29机器如何理解自然语言?•机器理解自然语言的步骤•文本预处理•句子切分•形态分析•分词•词性标注•句法分析•词义消岐•语义分析•语用分析•篇章分析•海量文档处理信息检索搜索引擎、数字图书馆文本分类、聚类分类检索、聚类检索话题探测与追踪30NLP的研究内容(基础研究)31NLP的研究内容(应用研究)32NLP的不同层次[应用系统]数字图书馆、电子商务、搜索引擎电子政务、远程教育、语言学习[基础研究]分词、词性标注、短语切分、句法分析、语义分析、篇章理解等[应用技术研究]自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取[资源建设]语料库资源建设语言学知识库建设语言学家NLP研究者软件企业33NLP的学科特点(交叉性学科)•语言学:语言学基础知识。•语言学理论:形式语言文法•语言学资源:词典、语料库、知识库•数学•语料库语言学的数学基础:概率论、统计学、信息论。•模型:自动机、Markov模型、HMM等。•计算机科学•机器学习:机器的学习算法•人工智能(问题求解,知识表示,状态空间图搜索算法)•心理语言学:研究人类理解自然语言的机制。9.2句法分析与语法9.2.1语言的基本原理9.2.2句法分析过程第9章自然语言理解简介359.2.1语言的基本原理•形式语言(人造语言)被定义为一个字符串集合/字符串由终结符(词汇)串联而成/都有严格的定义•自然语言却没有严格定义却被一个说话者群体所使用•考虑用处理形式语言的方式处理自然语言•自然语言可以用不同的但是相互联系的几组符号来表示—包括语法、语义、语用等/尽可能采用形式化表示第9章自然语言理解简介36自然语言的符号系统(1)•符号系统的核心是语义表示•语义的基础是词汇—自然语言中的终结符号,由它们依据一定规则构成有效字符串/不能“让人听不明白”•语义必须保证其表示能够在智能体之间有效地进行通讯—与有效的字符串结合/予以需要借助于语法进行表示•语法是详细说明一种语言的有限规则集合•自然语言没有正式语法/语言学家试图通过科学调查发现语言的特性,并编纂语法/还没有一个完全成功第9章自然语言理解简介37自然语言的符号系统(2)•语义离不开具体的通讯环境/理解一个字符串的语用很重要•语用是在一个特定情境(通讯环境)下表达出的字符串的实际含义•由于语义相对于语法是深层结构,而语法作为表层结构其规则经过了很长时间的研究形成了相对稳定的体系—更多的结构表示来自语法•合乎语法的字符串→子串—短语结构第9章自然语言理解简介38自然语言的符号系统(3)•短语结构是语言结构中的基础部分—构成自然语言语句的字符串是由来自不同范畴的称为短语的字串构成/短语通常对应自然语言语义元素•NP—名词短语,指代世界中的事物/VP—动词短语,描述事物的行为或状态/其他短语—介词短语、形容词短语、副词短语、数量短语、其他•短语符号和句子符号S统称为非终结符—语法系统使用产生式规则形式来定义这些符号,规则也叫重写规则第9章自然语言理解简介39语言文法•语言文法:•四元组:G=(VN,VT,R,S)•VN:非终结符的集合,表示句子结构分析的中间成分•VT:终结符的集合,相当于词汇表。•R:规则集:基本形式:。其中:,。•S:初始符号,代表语言的句子。•例如:句子:Themanatet

1 / 156
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功