02贝叶斯决策理论

jetlix20a
7 ℃
2016-03-31

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第二章贝叶斯决策理论•2.1引言•2.2最小错误率贝叶斯决策•2.3最小风险贝叶斯决策•2.4正态分布下的贝叶斯决策2.1引言•统计决策理论是根据每一类总体的概率分布决定未知类别的样本属于哪一类•贝叶斯决策是统计决策理论的基本方法，它的基本假定是分类决策是在概率空间中进行的，并且以下概率分布是已知的–每一类的概率分布–类条件概率密度继续考虑鲈鱼和鲑鱼的例子•假定传送带上送过来的鱼的种类是随机的，令ω表示鱼的种类，且为鲈鱼时ω=ω1，为鲑鱼时ω=ω2。由于我们无法确定性地预测鱼的种类，因此ω为随机变量。•如果要分类的鱼中鲈鱼和鲑鱼的数目相等，则我们认为下一次出现鲈鱼和鲑鱼的可能性一样。一般的，假定已知出现鲈鱼的概率P(ω1)和出现鲑鱼的概率P(ω2)，则P(ω1)+P(ω2)=1.这是我们在决策之前已知的先验知识，因此称为先验概率分布只依赖先验概率的决策•先验概率反映了我们在鱼真正出现之前就已经具有的关于鲈鱼和鲑鱼的出现的可能性的知识。它受很多因素的影响，比如一年中的时节和所在的区域等等。•假定在某个鱼还没有出现的时刻我们就不得不做出一种分类决策，这时我们拥有的信息只有两种鱼的先验概率。为了减少分类的错误率，合理的决策规则应该是：如果P(ω1)P(ω2)，则决策为ω1，否则决策为ω2。分类决策的分析•如果只对一条鱼做分类决策，则前面的决策规则是合理的，如果要对连续出现的多条鱼重复这一决策规则，就略显怪异了：尽管我们知道会出现的鱼有两种，但我们只是重复同一决策。•这一决策规则的好坏取决于先验概率P(ω1)，P(ω2)的相对大小，如果P(ω1)P(ω2)，则这一决策规则的错误率就比较小，如果P(ω1)=P(ω2)，则错误率将达到50%•可以证明错误率是P(ω1)，P(ω2)中小的那个加入后验信息•多数情况下，我们不会只依据先验信息来做分类决策•假定我们利用光泽度来提高分类效果，由于不同的鱼会有不同的光泽度，我们仍然把它表示为一个随机变量•令x为一个连续值的随机变量，其分布取决于鱼的种类，并表示为p(x|ω)，这就是条件概率密度，也就是鱼的种类为ω时x的概率密度函数。类条件概率密度函数光泽度的类条件概率密度函数反应了两种鱼之间光泽度的差异后验概率•假定我们知道先验概率P(ωj)和类条件概率密度p(x|ωj),j=1,2，并且测得一条鱼的光泽度为x，那么如何在分类决策中利用这一信息呢？•由于联合概率分布满足可得贝叶斯公式其中•P(ωj|x)就是类别关于光泽度的后验概率p(,x)P(|x)p(x)(|)()jjjjpxP(x|)P()(|x).(x)jjjpPp21()(x|)P()jjjpxp贝叶斯公式•贝叶斯公式的直观理解Posterior=(LikelihoodxPrior)/Evidence•贝叶斯公式表明通过观测x的值可以将先验概率转变成后验概率，也就是当观测值x给定后样本属于各个类别的概率•p(x|ωj)也称为似然度，也就是在其他条件都相同的情况下，使p(x|ωj)越大的ωj越可能是样本所在的真实类别后验概率贝叶斯决策规则•如果对于观测到的x满足则我们自然地决策为ω1，否则决策为ω2。•在这一规则下的错误率为P(error|x)=P(1|x)决策为2P(error|x)=P(2|x)决策为1。显然，对于给定的x，上述决策规则使得错误率最小。12(|x)P(|x),P贝叶斯决策•如果P(1|x)P(2|x)，则决策为1，否则决策为2。•在这一规则下的错误率为P(error|x)=min[P(1|x),P(2|x)]。思考：相比于直接利用先验概率的决策，贝叶斯决策的错误率是否减小了？分类器，判别函数和决策面•特征分类器有多种表示形式，最常用的是判别函数。给定一个判别函数集合如果特征x满足则决策为。•最小错误率贝叶斯决策中，可令gi(x)=P(ωi|x)。•最小风险贝叶斯决策中，可令gi(x)=-R(αi|x)。•判别函数的选择并不唯一，可以为gi(x)的任意单调增函数f(gi(x))。(x),1,,.igic()(),ijgxgxjiix等价形式•因为p(x)只是一个伸缩因子，并不影响后验概率的相对大小，因此决策规则中可以不考虑p(x):•如果p(x|1)P(1)p(x|2)P(2)，则决策为1，否则决策为2。–如果p(x|1)=p(x|2)，则x不提供任何信息，决策结果完全取决于先验概率–如果P(1)=P(2)，两种类别等概率出现，决策规则取决于似然度p(x|j)。•基于最小错误率的贝叶斯决策规则：16贝叶斯决策规则及等价形式121122(|)(|)(|)(|)PxPxxPxPxx1,21,2112221111222(1)(|)max(|)(2)(|)()max(|)()(|)()(3)()(|)()()(4)()ln[()]ln(|)ln(|)ln()ijijiijjijPxPxxpxPpxPxpxPlxxpxPPhxlxpxpxxP似然比形式等价形式2.2最小错误率贝叶斯决策•令为c个类别的有限集，特征向量x是一个d维的随机向量，p(x|ωj)为类条件概率密度，P(ωj)是ωj的先验概率，则利用贝叶斯公式，可以计算后验概率其中，1{}c，，(x|)P()P(|x),(x)jjjpp1(x)(x|)P().cjjjpp决策规则•如果对所有都有则决策为ωi.•在这一决策规则下，分类错误率•决策的平均错误率jiP(|x)P(|x),ij(|x)(|x)1(|x).jijiPePP()(,x)dx(|x)(x)dxPePePep例：假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为正常状态：异常状态：现有一待识别的细胞，其观察值为x，类条件概率密度分别为,试对该细胞x进行分类。解：1()0.9P2()0.1P12(|)0.2,(|)0.4pxpx1112121121(|)()0.20.9(|)0.8180.20.90.40.1(|)()(|)1(|)0.182(|)0.818(|)0.182jjjpxPPxpxPPxPxPxPxx决策例子最小错误率的讨论•以一维情况为例讨论基于最小错误率的贝叶斯决策确实对应最小错误率–统计意义上的错误率，即平均错误率，用P(e)表示20()(,)(|)()PePexdxPexpxdx121212(|)(|)(|)(|)(|)(|)(|)PxPxPxPexPxPxPx当其中，当最小错误率的讨论212122112211()(|)()=(|)()(|)()(|)()(|)()()()()()ttttPePexpxdxPxpxdxPxpxdxpxPdxpxPdxPPePPe两类错误率•在很多实际问题中，两类并不是同等的，比如在疾病的诊断中，假阳性是指误诊，而假阴性则为漏诊，假阳（阴）性率是指假阳（阴）性样本占整个阴性（阳性）样本的比例。•在评价一种检测方法的效果时，常用的两个概念是灵敏度(sensitivity)和特异性(specificity)。前者是指在真正的阳性样本中有多少能被检测出来，而后者是指在阴性样本中有多少比例没有被误判。两者是一对矛盾，需要根据实际情况取得最佳平衡。•在统计学上，假阳性又被称为第一类错误(Type-IError)，假阴性被称为第二类错误(Type-IIError)。两类错误率•用FP,FN,TP,TN分别表示假阳性，假阴性，真阳性，真阴性的样本数，Sn和Sp分别表示灵敏度和特异性，α,β分别表示第一类和第二类错误率，则•如果令ω1表示阴性，ω2表示阳性，则前面最小错误率讨论中的P1(e)和P2(e)分别对应于第一类错误率和第二类错误率。总的错误率是两类错误率的加权平均。TPTNSn1,Sp1.TP+FNTN+FPNeyman-Pearson决策•在某些应用中，我们希望保证某个错误率不超过一个固定水平，在此前提下再考虑另一类错误率尽可能低。–比如，在鲈鱼和鲑鱼的例子中，可能政府会强制性规定，鲑鱼错分为鲈鱼的比例不得超过1%–对某些重要疾病的诊断，我们希望确保漏诊率低于一个水平ε0(比如0.1%).•这种限定一类错误率而使另一类错误率最小的决策规则称作Neyman-Pearson决策规则。•可以用Lagrange乘子法求解。120min()(()).PePe2.3最小风险贝叶斯决策•在实际问题中，我们关心的可能不是分类的错误率本身，而是它所带来的风险–在鲈鱼和鲑鱼的例子中，把鲈鱼错判为鲑鱼和把鲑鱼错判为鲈鱼的损失是不一样的–在癌细胞的识别中，把正常细胞误判为癌细胞和把癌细胞误判为正常细胞的代价也是不一样的•因此，不考虑不同错误所带来的不同风险而将它们一视同仁，在很多情况下是不恰当的•所谓最小风险贝叶斯决策，就是考虑各种错误造成损失不同时的一种最优决策问题描述•令为c个类组成的状态空间，样本为d维随机向量，对随机向量x可能采取的决策组成了决策空间设对于实际状态为ωj的向量x,采取决策αi所带来的损失为λ(αi,ωj),i=1,…k,j=1,…c.•λ(αi,ωj),i=1,…k,j=1,…c称为损失函数，通常用表格给出，在应用中需要根据问题的背景知识确定。1={}c，，T12x[,,,]dxxx12{,,,}k。A最小风险贝叶斯决策•对于某个样本x，它属于各个状态的后验概率是对它采取决策的期望损失是•设有某一个决策规则，它对所有可能样本x采取决策所造成的期望损失是P(|x),1,,jjc,1,,iik1(|x)[(,)|x](,)P(|x),,.ciijijjjREi1,k(x)()((x)|x)p(x)dxRR最小风险贝叶斯决策的决策规则•最小风险贝叶斯决策的决策规则即是最小化期望风险R(α)。•由于R(α(x)|x)和p(x)都是非负的，且p(x)是已知的，因此要使R(α)最小，就要对所有x使R(α(x)|x)最小，因此，最小风险贝叶斯决策就是：若则1,,(|x)min(|x),ijjkRRi。决策步骤•利用贝叶斯公式计算后验概率•利用决策表，计算条件风险•在各种风险中选择风险最小的决策，即1(x|)P()(|x),1,,.(x|)P()jjjciiipPjcp1(|x)(,)(|x),1,,.ciijjjRPik1,,argmin(|x).iikR特殊情形•在样本和决策都是两类的情形下，最小风险贝叶斯决策为：其中，•显然，当时，最小风险贝叶斯决策就变为最小错误率贝叶斯决策。11111222112222(|x)(|x)(|x)(|x),x.PPPP若则(,).ijij11221221==0==1，几种等价形式11121122122211112212122222221121211111112222222111()P(|x)()P(|x)x.P(|x)(x|)P()x.(|x)(x|)P()(x|)P()()(x)x.(x|)P()()pPpplp若，则若，则若，则决策例子决策状态ω1ω2α106α210在前面例子的基础上，利用下面的决策表，按最小风险贝叶斯决策重新进行分类决策。P(ω1)=0.9，P(ω2)=0.1,未知细胞x满足P(x|ω1)=0.2，P(x|ω2)=0.4。决策例子•解：已计算出的