第06章-贝叶斯网络

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2020/1/28史忠植高级人工智能1高级人工智能第六章贝叶斯网络概率推理AdvancedArtificialIntelligence史忠植中国科学院计算技术研究所2020/1/28史忠植高级人工智能2内容提要6.1概述6.2贝叶斯概率基础6.3贝叶斯问题的求解6.4简单贝叶斯学习模型6.5贝叶斯网络的建造6.6贝叶斯潜在语义模型6.7半监督文本挖掘算法2020/1/28史忠植高级人工智能36.1概述贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯方法以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。2020/1/28史忠植高级人工智能46.1概述6.1.1贝叶斯网络的发展历史贝叶斯(ReverendThomasBayes,1702-1761)学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方,这一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯(LaplaceP.S.)用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。2020/1/28史忠植高级人工智能56.1概述6.1.1贝叶斯网络的发展历史二十世纪初,意大利的菲纳特(B.deFinetti)以及英国的杰弗莱(JeffreysH.)都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后,瓦尔德(WaldA.)提出了统计的决策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文,20世纪50年代,以罗宾斯(RobbinsH.)为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。2020/1/28史忠植高级人工智能66.1概述6.1.1贝叶斯网络的发展历史随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。80年代贝叶斯网络用于专家系统的知识表示,90年代进一步研究可学习的贝叶斯网络,用于数据采掘和机器学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖了人工智能的大部分领域,包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊物InternationalSocietyBayesianAnalysis。2020/1/28史忠植高级人工智能76.1概述6.1.2贝叶斯方法的基本观点贝叶斯分析方法的特点是用概率去表示所有形式的不确定性,学习或其它形式的推理都用概率规则来实现。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。贝叶斯定理将事件的先验概率与后验概率联系起来。2020/1/28史忠植高级人工智能86.1概述6.1.2贝叶斯方法的基本观点假定随机向量x,θ的联合分布密度是p(x,θ),它们的边际密度分别为p(x)、p(θ)。一般情况下设x是观测向量,θ是未知参数向量,通过观测向量获得未知参数向量的估计,贝叶斯定理记作:dxpxpxpxpxp)|()()|()()()|()()|(π(θ)是θ的先验分布(6.1)2020/1/28史忠植高级人工智能96.1概述6.1.2贝叶斯方法的基本观点贝叶斯方法对未知参数向量估计的一般过程为:⑴将未知参数看成随机向量,这是贝叶斯方法与传统的参数估计方法的最大区别。⑵根据以往对参数θ的知识,确定先验分布π(θ),它是贝叶斯方法容易引起争议的一步,因此而受到经典统计界的攻击。⑶计算后验分布密度,做出对未知参数的推断。在第⑵步,如果没有任何以往的知识来帮助确定π(θ),贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的,称这个假定为贝叶斯假设。2020/1/28史忠植高级人工智能106.1概述6.1.3贝叶斯网络的应用领域辅助智能决策数据融合模式识别医疗诊断文本理解数据挖掘1.贝叶斯方法用于分类及回归分析2.用于因果推理和不确定知识表达3.用于聚类模式发现2020/1/28史忠植高级人工智能116.2贝叶斯概率基础6.2.1概率论基础概率论是研究随机现象规律性的数学。随机现象是指在相同的条件下,其出现的结果是不确定的现象。随机现象又可分为个别随机现象和大量的随机现象。对大量的随机现象进行观察所得到的规律性,被人们称为统计规律性。在统计上,我们习惯把一次对现象的观察、登记或实验叫做一次试验。随机性实验是指对随机现象的观察。随机试验在完全相同的条件下,可能出现不同的结果,但所有可能结果的范围是可以估计的,即随机试验的结果具有不确定性和可预计性。在统计上,一般把随机实验的结果,即随机现象的具体表现称为随机事件,简称事件。随机事件是指试验中可能出现,也可能不出现的结果。2020/1/28史忠植高级人工智能126.2贝叶斯概率基础6.2.1概率论基础定义6.1统计概率若在大量重复试验中,事件A发生的频率稳定地接近于一个固定的常数p,它表明事件A出现的可能性大小,则称此常数p为事件A发生的概率,记为P(A),即p=P(A)(6.2)可见概率就是频率的稳定中心。任何事件A的概率为不大于1的非负实数,即0<P(A)<12020/1/28史忠植高级人工智能136.2贝叶斯概率基础定义6.2古典概率我们设一种次试验有且仅有有限的N个可能结果,即N个基本事件,而A事件包含着K个可能结果,则称K/N为事件A的概率,记为P(A)。即P(A)=K/N定义6.3几何概率假设Ω是几何型随机试验的基本事件空间,F是Ω中一切可测集的集合,则对于F中的任意事件A的概率P(A)为A与Ω的体积之比,即P(A)=V(A)/V(Ω)(6.3)2020/1/28史忠植高级人工智能146.2贝叶斯概率基础定义6.4条件概率我们把事件B已经出现的条件下,事件A发生的概率记做为P(A|B)。并称为在B出现的条件下A出现的条件概率,而称P(A)为无条件概率。若事件A与B中的任一个出现,并不影响另一事件出现的概率,即当P(A)=P(A·B)或P(B)=P(B·A)时,则称A与B是相互独立的事件。2020/1/28史忠植高级人工智能156.2贝叶斯概率基础定理6.1加法定理两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即P(A+B)=P(A)+P(B)两个互逆事件A和A-1的概率之和为1。即当A+A-1=Ω,且A与A-1互斥,则P(A)+P(A-1)=1,或常有P(A)=1-P(A-1)。若A、B为两任意事件,则P(A+B)=P(A)+P(B)-P(AB)2020/1/28史忠植高级人工智能166.2贝叶斯概率基础定理6.2乘法定理设A、B为两个不相容(互斥)非零事件,则其乘积的概率等于A和B概率的乘积,即P(AB)=P(A)P(B)或P(AB)=P(B)P(A)设A、B为两个任意的非零事件,则其乘积的概率等于A(或B)的概率与在A(或B)出现的条件下B(或A)出现的条件概率的乘积。P(A·B)=P(A)·P(B|A)或P(A·B)=P(B)·P(A|B)2020/1/28史忠植高级人工智能176.2贝叶斯概率基础6.2.2贝叶斯概率(1)先验概率。先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率,该类概率没能经过实验证实,属于检验前的概率,所以称之为先验概率。先验概率一般分为两类,一是客观先验概率,是指利用过去的历史资料计算得到的概率;二是主观先验概率,是指在无历史资料或历史资料不全的时候,只能凭借人们的主观经验来判断取得的概率。2020/1/28史忠植高级人工智能186.2贝叶斯概率基础(2)后验概率。后验概率一般是指利用贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率进行修正后得到的更符合实际的概率。(3)联合概率。联合概率也叫乘法公式,是指两个任意事件的乘积的概率,或称之为交事件的概率。2020/1/28史忠植高级人工智能196.2贝叶斯概率基础(4)全概率公式。设B1,B2,…,Bn是两两互斥的事件,且P(Bi)0,i=1,2,…,n,B1+B2+…,+Bn=Ω。另有一事件A=AB1+AB2+…,+ABnniiiBAPBPAP1)()()(|称满足上述条件的B1,B2,…,Bn为完备事件组。B1B2B3BnA6.2贝叶斯概率基础由此可以形象地把全概率公式看成为“由原因推结果”,每个原因对结果的发生有一定的“作用”,即结果发生的可能性与各种原因的“作用”大小有关。全概率公式表达了它们之间的关系。诸Bi是原因A是结果B1B2B3B4B5B6B7B8A6.2贝叶斯概率基础mkikiijijiBAPBPBAPBPABP1)()()()()|(||该公式于1763年由贝叶斯(Bayes)给出。它是在观察到事件A已发生的条件下,寻找导致A发生的每个原因的概率。(5)贝叶斯公式。贝叶斯公式也叫后验概率公式,亦叫逆概率公式,其用途很广。设先验概率为P(Bi),调查所获的新附加信息为P(Aj|Bi)(i=1,2,…,n;j=1,2,…,m),则贝叶斯公式计算的后验概率为(6.5)2020/1/28史忠植高级人工智能22贝叶斯规则基于条件概率的定义p(Ai|E)是在给定证据下的后验概率p(Ai)是先验概率P(E|Ai)是在给定Ai下的证据似然p(E)是证据的预定义后验概率iiiiiiii))p(AA|p(E))p(AA|p(Ep(E)))p(AA|p(EE)|p(Ap(B)A)p(A)|p(Bp(B)B)p(A,B)|p(AA1A2A3A4A5A6E2020/1/28史忠植高级人工智能23贝叶斯网络的概率解释任何完整的概率模型必须具有表示(直接或间接)该领域变量联合分布的能力。完全的枚举需要指数级的规模(相对于领域变量个数)贝叶斯网络提供了这种联合概率分布的紧凑表示:分解联合分布为几个局部分布的乘积:从公式可以看出,需要的参数个数随网络中节点个数呈线性增长,而联合分布的计算呈指数增长。网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。iiinpaxPxxxP)|(),,(212020/1/28史忠植高级人工智能246.4简单贝叶斯学习模型简单贝叶斯(naïveBayes或simpleBayes)学习模型将训练实例I分解成特征向量X和决策类别变量C。简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级降低了贝叶斯网络构建的复杂性,而且在许多领域,在违背这种假定的条件下,简单贝叶斯也表现出相当的健壮性和高效性[111],它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于改善特征变量间独立性的限制[54],以使它适用于更大的范围。2020/1/28史忠植高级人工智能25简单贝叶斯NaïveBayesian结构简单-只有两层结构推理复杂性与网络节点个数呈线性关系2020/1/28史忠植高级人工智能26设样本A表示成属性向量,如果属性对于给定的类别独立,那么P(A|Ci)可以分解成几个分量的积:)|(*)|(*)|(21imiiCaPCaPCaPai是样本A的第i个属性6.4简单贝叶斯学习模型2020/1/28史忠植高级

1 / 117
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功