贝叶斯决策理论BayesianDecisionTheory贝叶斯决策理论引言贝叶斯决策常用的准则分类器,判别函数,决策面正态分布的判别函数引言机器自动识别分类,能不能避免错分类,做到百分之百正确?怎样才能减少错误?错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,那么有没有可能对危害大的错误严格控制?什么是先验概率、类概率密度函数和后验概率?它们的定义和相互关系如何?贝叶斯公式正是体现三者关系的式子。引言贝叶斯决策理论贝叶斯统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器(Classifier)的设计起指导作用。贝叶斯决策的两个要求各个类别的总体概率分布(先验概率和类条件概率密度)是已知的要决策分类的类别数是一定的引言在连续情况下,假设对要识别的物理对象有d种特征观察量x1,x2,…xd,这些特征的所有可能的取值范围构成了d维特征空间。称向量假设要研究的分类问题有c个类别,类型空间表示为:12,,,TddxxxRxx12,,,,ic为d维特征向量。引言评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。贝叶斯决策常用的准则:最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则贝叶斯决策理论引言贝叶斯决策常用的准则分类器,判别函数,决策面正态分布的判别函数Bayesian置信网Bayes决策准则最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则假设你昨晚目击了一起夜间出租车肇事逃逸事件,你记得看到的肇事出租车是蓝色的,而且你还知道下面2条信息,那么你会认为肇事出租车是什么颜色的?(1)西安所有的出租车都是绿色或蓝色的;(2)大量实验表明,在昏暗的灯光条件下,人眼对于蓝色和绿色的区分的可靠度是75%;假设随后你又了解到第3条信息:(3)西安的出租车10辆中有9辆是绿色的,此时你又会得出怎样的结论?SomeaboutBayes(1)用B表示事件“肇事车是蓝色的”,用LB表示“肇事车看起来是蓝色的”,则对颜色区分准确程度的概率可以表示为P(LB|B)=0.75P(~LB|~B)=0.75对当肇事车看起来是蓝色的情况下,确实是蓝色的概率为P(B|LB)∝P(LB|B)P(B)∝0.75P(B)P(~B|LB)∝P(LB|~B)P(~B)∝0.25(1-P(B))而西安的出租车10辆中有9辆是绿色的,则给出了先验概率P(B)=0.1,于是有P(B|LB)∝0.75×0.1=0.075P(~B|LB)∝0.25(1-P(B))=0.25×0.9=0.225P(B|LB)=0.075/0.072+0.225=0.25P(~B|LB)=0.225/0.072+0.225=0.75因此肇事车辆为绿色。SomeaboutBayes(2)一所学校里面有60%的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是女生的概率是多大吗?算出学校里面有多少穿长裤的,然后在这些人里面再算出有多少女生?即要求的就是P(Girl|Pants)。假设校园内总人数为U,计算的结果是U*P(Girl)*P(Pants|Girl)/[U*P(Boy)*P(Pants|Boy)+U*P(Girl)*P(Pants|Girl)]。容易发现这里校园内人的总数是无关的,可以消去。于是得到P(Girl|Pants)=P(Girl)*P(Pants|Girl)/[P(Boy)*P(Pants|Boy)+P(Girl)*P(Pants|Girl)]注意,如果把上式收缩起来,分母其实就是P(Pants),分子其实就是P(Pants,Girl)。而这个比例很自然地就读作:在穿长裤的人(P(Pants))里面有多少(穿长裤)的女孩(P(Pants,Girl))。上式中的Pants和Boy/Girl可以指代一切东西,所以其一般形式就是:P(B|A)=P(A|B)*P(B)/[P(A|B)*P(B)+P(A|~B)*P(~B)]最小错误率准则黑色:第一类粉色:第二类绿色:哪一类?统计决策理论就是根据每一类总体的概率分布决定未知类别的样本属于哪一类!最小错误率准则先验概率:类条件概率:后验概率:贝叶斯公式iPiPx未获得观测数据之前类别的分布iPxiiiPPPPxxx观测数据在各类别种情况下的分布X属于哪一类的概率i1ciiPPPxx其中:最小错误率准则例:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。两类识别问题:患病,未患病根据医学知识和以往的经验,医生知道:患病的人,白细胞的浓度服从均值2000方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布;(类条件概率)一般人群中,患病的人数比例为0.5%;(先验概率)一个人的白细胞浓度时3100,医生应该做出怎样的判断?(后验概率?)最小错误率准则数学表示:Ω:表示类别这一随机变量ω1:表示患病ω2:表示不患病X:表示白细胞浓度这一随机变量x:表示白细胞浓度值最小错误率准则医生根据已经掌握的知识知道类别的先验分布:11220.5%99.5%PPPP先验概率分布:未获得观测数据(病人白细胞浓度)之前类别的分布。最小错误率准则观测数据白细胞浓度分别在两种情况下的类条件概率分布:12~2000,1000~7000,3000PNPNxx已知先验分布和观测值的类条件概率分布,就可以用贝叶斯理论求得x属于哪一类的后验概率:和1Px2Px最小错误率准则最小错误率准则以先验概率、类条件概率密度、特征值(向量)为输入以后验概率作为类别判断的依据贝叶斯公式保证了错误率最小最小错误率准则最小错误率的贝叶斯决策规则为:如果大于,则把x归于患病状态,反之则归于未患病状态。(最大后验概率决策)1Px2Pxx1=x2?最小错误率准则最小错误率准则的平均错误率:x2=x3x2和x3都是p(x,ω1)=p(x,ω2)的根,因此是两类分界最小错误率准则最小错误率准则的平均错误率:记平均错误率为P(e),令t=x2=x3,则最小错误率准则平均错误率是否最小?最小错误率准则似然比公式iiiPPPPxxx1122pxPpxP1212pxpppx12PPxx则:等价于:似然比公式最小错误率准则特例1:最小错误率准则特例2:最小错误率准则形式逻辑(经典确定性推理)以鲈鱼和鲑鱼分类为例:假言:如果鱼的长度大于45cm,则该鱼为鲈鱼,否则该鱼为鲑鱼前提:现在某条鱼结论:该鱼为鲑鱼概率推理(不确定性推理)x38cmx212iPx最小错误率准则例子:给定,类条件概率密度如图。现有一条鱼x=38cm,若采用最小错误率决策,该鱼应该为哪一类?1212PyPy111380.160.5380.8380.160.50.040.5pxyPyPyxpx2380.2Pyx1y故判决:Bayes决策准则最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则最小风险准则最小风险贝叶斯决策:考虑各种错误造成损失不同而提出的一种决策规则。条件风险:最小风险准则期望风险:对于x的不同观察值,采取决策αi时,其条件风险大小是不同的。所以究竟采取哪一种决策将随x的取值而定。这样,决策α可以看成随机向量x的函数,记为α(x)。可以定义期望风险Rexp为:期望风险反映对整个空间上所有x的取值采取相应的决策α(x)所带来的平均风险。expRRpdxxxx最小风险准则两分类问题的例子:似然比公式最小风险准则最小风险贝叶斯决策的步骤:1)根据先验概率和类条件概率计算出后验概率;2)利用后验概率和损失矩阵计算采取每种决策的条件风险;3)比较各个条件风险的值,条件风险最小的决策即为最小风险贝叶斯决策最小风险准则最小风险准则对于贝叶斯最小风险决策,如果损失函数为“0-1损失”,即取如下的形式:那么,条件风险为:此时,贝叶斯最小风险决策与最小错误率决策等价。0,;,1,,1,ijforijwijcforij11ciijjjijjiRPPPxxxxBayes决策准则最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则Neyman-Pearson准则最小错误率准则:后验概率最大化,理论上错误率最小最小风险准则:风险函数最小化,理论上总风险最小在先验概率和损失未知的情况下如何决策?Neyman-Pearson准则问题:先验概率和损失未知通常情况下,无法确定损失。先验概率未知,是一个确定的值某一种错误较另一种错误更为重要。基本思想:要求一类错误率控制在很小,在满足此条件的前提下再使另一类错误率尽可能小。用lagrange乘子法求条件极值Neyman-Pearson准则对两分类问题,错误率可以写为:由于P(ω1)和P(ω2)对具体问题往往是确定的(但是未知),一般称P1(e)和P2(e)为两类错误率。P1(e)和P2(e)的值决定了P(e)的值。12121221221122112211,,||||RRRRPepxRxpxRxpxpdxpxpdxpxdxppxdxppeppepNeyman-Pearson准则Neyman-Pearson准则为了求L的极值点,将L分别对t和λ求偏导:注意:这里分析的是两类错误率,与先验概率无关!决策准则?Neyman-Pearson准则最小错误率准则的等价形式Neyman-Pearson准则两者都以似然比为基础,在未知先验概率时使用Neyman-Pearson准则。Bayes决策准则最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则最小最大决策准则Neyman-Pearson准则假定先验概率是一个确定的值,此时判定结果会受到先验概率的影响。实际中,类先验概率P(i)往往不能精确知道或在分析过程中是变动的,从而导致判决域不是最佳的。所以应考虑如何解决在P(i)不确知或变动的情况下使期望风险变大的问题。最小最大决策准则:在最差的条件下争取最好的结果,使最大风险最小!最小最大决策准则分析期望风险R与先验概率P(ω1)的关系:对于两类问题,设一种分类识别决策将特征空间R划分为两个子空间R1和R2,记λij为将属于ωi类的模式判为ωj类的损失函数,各种判决的期望风险为:12111122211222RRRpxpxpxdxpxpxpxdx最小最大决策准则将)(1)(12PP和121iiRRpxdxpxdx带入上式:1212111122211222111122211222RRRRRpxpxpxdxpxpxpxdxpxpxpxpxdxpxpxpxpxdx最小最大决策准则期望风险可写成:1212212