5贝叶斯分类

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘:朴素贝叶斯分类王成(副教授)华侨大学计算机科学与技术学院1.概率论基本知识•确定事件:概念是确定的,发生也是确定的;•随机事件:概念是确定的,发生是不确定的;•模糊事件:概念本身就不确定。随机变量•随机变量:随机事件的数量表示;•离散随机变量:取值为离散的随机变量;•连续随机变量:取值为连续的随机变量;频率和概率(概率的频率学派解释)•频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A)=M/N;•概率:当N很大时,频率会趋向一个稳定值,称为A的概率:limNNPAfA联合概率和条件概率•联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(AB);•条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B);•乘法定理:P(A|B)=P(AB)/P(B)。概率密度函数•概率分布函数:设X为连续型随机变量,定义分布函数;F(x)=P(X≤x);•概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(ab)有P(a<X≤b)=∫f(x)dx,(积分下限是a,上限是b),则称f(x)为X的概率密度函数贝叶斯公式)()()|()|(BPAPABPBAP)()|()()()()|(BPABPAPBPABPBAP)()()|(APABPABP证:P(A)通常在试验之前已知,因此习惯上称为先验概率。P(A|B)反映了B发生之后,事件A发生的可能性大小,通常称之为后验概率贝叶斯公式P(cj|x)=P(x|cj)P(cj)P(x)先验概率P(cj)联合概率P(xcj)后验概率P(cj|x)先验概率P(cj)P(cj)代表还没有训练数据前,cj拥有的初始概率。P(cj)常被称为cj的先验概率(priorprobability),它反映了我们所拥有的关于cj是正确分类机会的背景知识,它应该是独立于样本的。如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于cj的样例数|cj|比上总样例数|D|来近似,即jj|c|P(c)=|D|后验概率P(cj|x)即给定数据样本x时cj成立的概率,而这正是我们所感兴趣的P(cj|x)被称为C的后验概率(posteriorprobability),因为它反映了在看到数据样本x后cj成立的置信度贝叶斯贝叶斯(ThomasBayes,1701—1761),英国牧师、业余数学家。生活在18世纪的贝叶斯生前是位受人尊敬英格兰长老会牧师。为了证明上帝的存在,他发明了概率统计学原理,遗憾的是,他的这一美好愿望至死也未能实现。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。1763年发表了这方面的论著,对于现代概率论和数理统计都有很重要的作用。贝叶斯的另一著作《机会的学说概论》发表于1758年。贝叶斯所采用的许多术语被沿用至今。贝叶斯思想和方法对概率统计的发展产生了深远的影响。今天,贝叶斯思想和方法在许多领域都获得了广泛的应用。条件概率在实际问题中,往往会遇到求在事件B已经发生的条件下,事件A的概率这时由于附加了条件,它与事件A的概率P(A)的意义是不同的我们把这种概率记为P(A|B)条件概率考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:(1)在所有人口中只有0.008的人患癌症。(2)此外,化验测试对有癌症的患者有98%的可能返回阳性结果,对无癌症患者有97%的可能返回阴性结果。条件概率上面的数据可以用以下概率式子表示:P(cancer)=0.008P(无cancer)=1-P(cancer)=1-0.008=0.992P(阳性|cancer)=0.98P(阴性|cancer)=1-P(阳性|cancer)=1-0.98=0.02P(阴性|无cancer)=0.97P(阳性|无cancer)=1-P(阴性|无cancer)=1-0.97=0.03假设现在有一个新病人,化验测试结果为阳性,是否将病人断定为有癌症呢?在这里,Y={cancer,无cancer},共两个类别,这个新病人是一个样本,他有一个属性阳性,可以令x=(阳性)。条件概率我们可以来计算各个类别的后验概率:P(cancer阳性)=P(阳性|cancer)*p(cancer)=0.98*0.008=0.0078P(无cancer阳性)=P(阳性|无cancer)*p(无cancer)=0.03*0.992=0.0298P(阳性)=P(cancer阳性)+P(无cancer阳性)=0.0078+0.0298P(cancer|阳性)=P(cancer阳性)/P(阳性)=0.0078/(0.0078+0.0298)=0.207P(无cancer|阳性)=1-P(癌症|阳性)=1-0.207=0.793贝叶斯分类贝叶斯分类是统计学方法。他们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率贝叶斯分类主要是基于贝叶斯定理,通过计算给定样本属于一个特定类的概率来对给定样本进行分类由于概率统计与数据挖掘天然的联系,数据挖掘兴起后,贝叶斯成为引人注目的热点贝叶斯分类)()()|()|(BPAPABPBAP贝叶斯分类基本思路:假设有两种类别C1和C2,给定实例X,要求得到X所属的类别是C1还是C2。计算P(C1|X)和P(C2|X),如果P(C1|X)P(C2|X),则实例X属于C1,否则属于C2。简单的说,就是去计算在X出现的情况下,X属于哪种类别的概率更高。如何计算P(Ci|X)?朴素贝叶斯分类(NaiveBayes)假设有n个类别C1,C2...Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为)()()|()|(wPCPCwPwCPiiiP(Ci)的计算:将训练样本中属于类Ci的实例数量除以训练样本数量即P(Ci),例如动物图片识别中,假设有100个训练实例,其中有15张为猫,则P(猫)=15/100=0.15P(w)的计算:因为利用贝叶斯进行分类时,我们只要比较概率的大小即可,而P(w)对于所有的类别都是一样的,因此无须计算朴素贝叶斯分类(NaiveBayes)假设有n个类别C1,C2...Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为)()()|()|(wPCPCwPwCPiiiP(w|Ci)的计算:w是特征向量,若将其展开,则可将P(w|Ci)写作P(w0,w1,w2...wn|Ci)朴素贝叶斯假设实例的各个属性互相独立,互不影响,因此,上式等价于P(w0|Ci)P(w1|Ci)P(w2|Ci)...P(wn|Ci)朴素贝叶斯分类(NaiveBayes)假设有n个类别C1,C2...Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为)()()|()|(wPCPCwPwCPiiiP(w|Ci)的计算:P(w|Ci)=P(w0|Ci)P(w1|Ci)P(w2|Ci)...P(wn|Ci)假设一个实例的特征向量为(有四条腿,会飞),即w0=有四条腿,w1为会飞,共有三个类别分别是鸟、狗、鱼,则P(w0|C0)=P(有四条腿|鸟)=训练样本中有四条腿的鸟(实例)的数量,除以样本中鸟(实例)的数量P(w1|C0)=P(会飞|鸟)=训练样本中会飞的鸟(实例)的数量,除以样本中鸟(实例)的数量P(w0,w1|C0)=P(w0|C0)*P(w1|C0)P(有四条腿,会飞|鸟)=P(有四条腿|鸟)*P(会飞|鸟)朴素贝叶斯(NaiveBayes)朴素贝叶斯假设所有属性之间都是互相独立的,这也正是算法名称中“朴素(naive)”一词的由来但现实中属性之间往往存在依赖,但有意思的是,即使是在朴素贝叶斯算法的独立性假设明显不成立的情况下,它也仍然能得到非常好的分类结果C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNaïveBayesCART十大数据挖掘算法之一朴素贝叶斯分类举例年龄收入学生信用买了电脑30高否一般否30高否好否30-40高否一般是40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否30低是一般是40中是一般是30中是好是30-40中否好是30-40高是一般是40中否好否共14个训练实例。共两个类别,“会买电脑”和不会买电脑。每个训练实例有4个属性。待分类实例:(年龄30,收入中等,是学生,信用一般)他会买电脑吗?朴素贝叶斯分类举例年龄收入学生信用买了电脑30高否一般否30高否好否30-40高否一般是40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否30低是一般是40中是一般是30中是好是30-40中否好是30-40高是一般是40中否好否)()()|()|(wPCPCwPwCPiii计算P(Ci)本例中C0为未买电脑,C1为买了电脑P(未买电脑)=P(买了电脑)=5/14=0.3579/14=0.643P(w)不用算朴素贝叶斯分类举例年龄收入学生信用买了电脑30高否一般否30高否好否30-40高否一般是40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否30低是一般是40中是一般是30中是好是30-40中否好是30-40高是一般是40中否好否)()()|()|(wPCPCwPwCPiii计算P(w|未买电脑)w=(年龄30,收入中等,是学生,信用一般)P(w|Ci)=P(w0|Ci)*P(w1|Ci)*P(w2|Ci)*P(w3|Ci)P(年龄30|未买电脑)=3/5=0.600P(收入中等|未买电脑)=2/5=0.400P(是学生|未买电脑)=1/5=0.200P(信用一般|未买电脑)=2/5=0.400P(w|未买电脑)=P(w|C0)P(C0)=P(w|未买电脑)*P(未买电脑)=0.019*0.357=0.0070.6*0.4*0.2*0.4=0.019朴素贝叶斯分类举例年龄收入学生信用买了电脑30高否一般否30高否好否30-40高否一般是40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否30低是一般是40中是一般是30中是好是30-40中否好是30-40高是一般是40中否好否)()()|()|(wPCPCwPwCPiii计算P(w|买了电脑)w=(年龄30,收入中等,是学生,信用一般)P(w|Ci)=P(w0|Ci)*P(w1|Ci)*P(w2|Ci)*P(w3|Ci)P(年龄30|买了电脑)=2/9=0.222P(收入中等|买了电脑)=4/9=0.444P(是学生|买了电脑)=6/9=0.667P(信用一般|买了电脑)=6/9=0.667P(w|买了电脑)=P(w|C1)*P(C1)=P(w|买了电脑)*P(买了电脑)=0.044*0.643=0.0280.222*0.444*0.667*0.667=0.044朴素贝叶斯分类举例年龄收入学生信用买了电脑30高否一般否30高否好否30-40高否一般是40中等否一般是40低是一般是40低是好否30-40低是好是30中否一般否30低是一般是40中是一般是30中是好是30-40中否好是30-40高是一般是40中否好否)()()|()|(wPCPCwPwCPiiiP(w|C0)*P(C0)=P(w|未买电脑)*P(未买电脑)=0.019*0.357=0.007P(w|C1)*P(C1)=P(w|买了电脑)*P(买了电脑)=0.044*0.643=0.028P(不买电脑|w)=P(C0|w)=P(w|(C0)P((C0)/P(w)=0.007/P(w)P(会买电脑|w)=P(C1|w)=P(w|C1)*P

1 / 56
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功