概率推理史忠植中国科学院计算技术研究所高级人工智能第六章2012/3/22史忠植高级人工智能2内容提要6.1概述6.2贝叶斯概率基础6.3贝叶斯学习理论6.4简单贝叶斯学习模型6.5贝叶斯网络的建造6.6主动贝叶斯网络6.7贝叶斯潜在语义模型6.8贝叶斯网络的证据推理2012/3/22史忠植高级人工智能3贝叶斯网络是什么贝叶斯网络是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯方法正在以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。2012/3/22史忠植高级人工智能4贝叶斯网络是什么贝叶斯(ReverendThomasBayes1702-1761)学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方,这一论文在他生前并没有发表,而是在他死后,由他的朋友发表的。著名的数学家拉普拉斯(LaplaceP.S.)用贝叶斯的方法导出了重要的“相继律”,贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方,因而在十九世纪并未被普遍接受。2012/3/22史忠植高级人工智能5贝叶斯网络是什么二十世纪初,意大利的菲纳特(B.deFinetti)以及英国的杰弗莱(JeffreysH.)都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后,瓦尔德(WaldA.)提出了统计的决策理论,在这一理论中,贝叶斯解占有重要的地位;信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文,20世纪50年代,以罗宾斯(RobbinsH.)为代表,提出了经验贝叶斯方法和经典方法相结合,引起统计界的广泛注意,这一方法很快就显示出它的优点,成为很活跃的一个方向。2012/3/22史忠植高级人工智能6贝叶斯网络是什么随着人工智能的发展,尤其是机器学习、数据挖掘等兴起,为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。80年代贝叶斯网络用于专家系统的知识表示,90年代进一步研究可学习的贝叶斯网络,用于数据采掘和机器学习。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涵盖了人工智能的大部分领域,包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊物ISBA2012/3/22史忠植高级人工智能7贝叶斯网络的应用领域辅助智能决策数据融合模式识别医疗诊断文本理解数据挖掘2012/3/22史忠植高级人工智能8统计概率统计概率:若在大量重复试验中,事件A发生的频率稳定地接近于一个固定的常数p,它表明事件A出现的可能性大小,则称此常数p为事件A发生的概率,记为P(A),即p=P(A)可见概率就是频率的稳定中心。任何事件A的概率为不大于1的非负实数,即0<P(A)<12012/3/22史忠植高级人工智能9条件概率条件概率:我们把事件B已经出现的条件下,事件A发生的概率记做为P(A|B)。并称之为在B出现的条件下A出现的条件概率,而称P(A)为无条件概率。若事件A与B中的任一个出现,并不影响另一事件出现的概率,即当P(A)=P(A·B)或P(B)=P(B·A)时,则称A与B是相互独立的事件。2012/3/22史忠植高级人工智能10加法定理两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即P(A+B)=P(A)+P(B)若A、B为两任意事件,则:P(A+B)=P(A)+P(B)-P(AB)2012/3/22史忠植高级人工智能11乘法定理设A、B为两个任意的非零事件,则其乘积的概率等于A(或B)的概率与在A(或B)出现的条件下B(或A)出现的条件概率的乘积。P(A·B)=P(A)·P(B|A)或P(A·B)=P(B)·P(A|B)2012/3/22史忠植高级人工智能12贝叶斯网络定义贝叶斯网络是表示变量间概率依赖关系的有向无环图,这里每个节点表示领域变量,每条边表示变量间的概率依赖关系,同时对每个节点都对应着一个条件概率分布表(CPT),指明了该变量与父节点之间概率依赖的数量关系。2012/3/22史忠植高级人工智能13贝叶斯网的表示方法=P(A)P(S)P(T|A)P(L|S)P(B|S)P(C|T,L)P(D|T,L,B)P(A,S,T,L,B,C,D)条件独立性假设有效的表示CPT:TLBD=0D=10000.10.90010.70.30100.80.20110.90.1...LungCancerSmokingChestX-rayBronchitisDyspnoeaTuberculosisVisittoAsiaP(D|T,L,B)P(B|S)P(S)P(C|T,L)P(L|S)P(A)P(T|A)贝叶斯网络是表示变量间概率依赖关系的有向无环图2012/3/22史忠植高级人工智能14先验概率先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率,该类概率没能经过实验证实,属于检验前的概率,所以称之为先验概率。先验概率一般分为两类,一是客观先验概率,是指利用过去的历史资料计算得到的概率;二是主观先验概率,是指在无历史资料或历史资料不全的时候,只能凭借人们的主观经验来判断取得的概率。2012/3/22史忠植高级人工智能15后验概率后验概率一般是指利用贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率进行修正后得到的更符合实际的概率。2012/3/22史忠植高级人工智能16联合概率联合概率也叫乘法公式,是指两个任意事件的乘积的概率,或称之为交事件的概率。2012/3/22史忠植高级人工智能17设A1,A2,…,An是两两互斥的事件,且P(Ai)0,i=1,2,…,n,A1+A2+…,+An=ΩniiiABPAPBP1)()()(|全概率公式A1A2A3AnB另有一事件B=BA1+BA2+…,+BAn称满足上述条件的A1,A2,…,An为完备事件组.2012/3/22史忠植高级人工智能18全概率例:某汽车公司下属有两个汽车制造厂,全部产品的40%由甲厂生产,60%由乙厂生产.而甲乙二厂生产的汽车的不合格率分别为1%,2%.求从公司生产的汽车中随机抽取一辆为不合品的概率.解:设A1,A2分别表示{甲厂汽车}{乙厂汽车},B表示{不合格品}P(A1)=0.4,P(A2)=0.6P(B/A1)=0.01,P(B/A2)=0.02∵A1A2=φP(B)=P(A1B+A2B)=P(A1B)+P(A2B)=P(A1)P(B/A1)+P(A2)P(B/A2)=0.4×0.01+0.6×0.02=0.016甲乙BA1A22012/3/22史忠植高级人工智能19由此可以形象地把全概率公式看成为“由原因推结果”,每个原因对结果的发生有一定的“作用”,即结果发生的可能性与各种原因的“作用”大小有关.全概率公式表达了它们之间的关系.诸Ai是原因B是结果A1A2A3A4A5A6A7A8B全概率2012/3/22史忠植高级人工智能20njjjiiiABPAPABPAPBAP1)()()()()|(||该公式于1763年由贝叶斯(Bayes)给出.它是在观察到事件B已发生的条件下,寻找导致B发生的每个原因的概率.贝叶斯公式设A1,A2,…,An是样本空间中的完备事件组且P(Ai)0,i=1,2,…,n,另有一事件B,则有ni,,,212012/3/22史忠植高级人工智能21贝叶斯规则基于条件概率的定义p(Ai|E)是在给定证据下的后验概率p(Ai)是先验概率P(E|Ai)是在给定Ai下的证据似然p(E)是证据的预定义后验概率iiiiiiii))p(AA|p(E))p(AA|p(Ep(E)))p(AA|p(EE)|p(Ap(B)A)p(A)|p(Bp(B)B)p(A,B)|p(AA1A2A3A4A5A6E2012/3/22史忠植高级人工智能22贝叶斯网络的概率解释任何完整的概率模型必须具有表示(直接或间接)该领域变量联合分布的能力。完全的枚举需要指数级的规模(相对于领域变量个数)贝叶斯网络提供了这种联合概率分布的紧凑表示:分解联合分布为几个局部分布的乘积:从公式可以看出,需要的参数个数随网络中节点个数呈线性增长,而联合分布的计算呈指数增长。网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。iiinpaxPxxxP)|(),,(212012/3/22史忠植高级人工智能23简单贝叶斯学习模型简单贝叶斯学习模型(SimpleBayes或NaïveBayes)将训练实例I分解成特征向量X和决策类别变量C。简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级降低了贝叶斯网络构建的复杂性,而且在许多领域,在违背这种假定的条件下,简单贝叶斯也表现出相当的健壮性和高效性[111],它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前,许多研究人员正致力于改善特征变量间独立性的限制[54],以使它适用于更大的范围。2012/3/22史忠植高级人工智能24简单贝叶斯NaïveBayesian结构简单-只有两层结构推理复杂性与网络节点个数呈线性关系2012/3/22史忠植高级人工智能25设样本A表示成属性向量,如果属性对于给定的类别独立,那么P(A|Ci)可以分解成几个分量的积:)|(*)|(*)|(21imiiCaPCaPCaPai是样本A的第i个属性简单贝叶斯学习模型2012/3/22史忠植高级人工智能26简单贝叶斯分类模型)|()()()|(1mjijiiCaPAPCPACP)|(ijCaP)(iCP这个过程称之为简单贝叶斯分类(SBC:SimpleBayesianClassifier)。一般认为,只有在独立性假定成立的时候,SBC才能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得近似最优的分类效果。简单贝叶斯学习模型2012/3/22史忠植高级人工智能27基于Boosting简单贝叶斯模型。提升方法(Boosting)总的思想是学习一系列分类器,在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给与更大的重视。尤其是,在学习完分类器Hk之后,增加了由Hk导致分类错误的训练例子的权值,并且通过重新对训练例子计算权值,再学习下一个分类器Hk+1。这个过程重复T次。最终的分类器从这一系列的分类器中综合得出。简单贝叶斯模型的提升2012/3/22史忠植高级人工智能28Boosting背景来源于:PAC-LearningModelValiant1984-11提出问题:强学习算法:准确率很高的学习算法弱学习算法:准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法2012/3/22史忠植高级人工智能29Boosting背景最初的boosting算法Schapire1989AdaBoost算法FreundandSchapire19952012/3/22史忠植高级人工智能30Boosting—concepts(3)弱学习机(weaklearner):对一定分布的训练样本给出假设(仅仅强于随机猜测)根据有云猜测可能会下雨强学习机(stronglearner):根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almostperfectexpert)根据CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测弱学习机强学习机Boosting2012/3/22史忠植高级人工智能31Boosting流程(loop1)强学习机弱学习机