贝叶斯决策理论内容引言几种常用的决策准则分类器设计基本概念模式分类:根据识别对象的观测值确定其类别样本与样本空间:类别与类别空间:c个类别(类别数已知)nTdRXxxxX,,...,21ci...,,...,,21决策把x分到哪一类最合理?理论基础之一是统计决策理论决策:是从样本空间S,到决策空间Θ的一个映射,表示为:D:S-Θ。评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。Bayes决策常用的准则主要有:基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策在限定一类错误率条件下使另一类错误率为最小的两类别决策(Neyman—Pearson决策)基于最小错误率的贝叶斯决策引例:癌细胞的识别。(每个细胞抽象为d维向量x=(x1,x2,x3,…,xd),识别的目的是要将x分类为正常细胞或异常细胞。表示异常表示正常表示状态,则:用21的类条件概率密度观察是正常状态下细胞特征xxp1|的类条件概率密度观察是异常状态下细胞特征xxp2|21PP和先验概率类条件概率密度:p(x|w1)p(x|w2)x类条件概率密度贝叶斯公式:后验概率P(1|x)P(2|x)后验概率x1.00.00.5对于2分类问题:P(1|x)+P(2|x)=121)()()(jjjiiiPxpPxpxP决策规则:如果P(1|x)P(2|x)类别状态=1如果P(1|x)P(2|x)类别状态=2简写为:ijjixxPxP则如果),(max)(2,1后验形式几种等价形式:ijjjiixPxpPxp则),()(max)()(2,11、先验形式21)()()(jjjiiiPxpPxpxP)(max)(2,1xPxPjji211221)()()()()(xPPxpxpxl2、似然比由先验形式易知:)()()()(2211PxpPxp1x即:)()()()()(1221PPxpxpxl1x似然比似然比阈值3、似然对数))()(ln()/(ln)/(ln))(ln()(1221PPXpXpXlXh21X例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1未知细胞x,先从类条件概率密度分布曲线上查到:P(x/ω1)=0.2,P(x/ω2)=0.4问该细胞属于正常细胞还是异常细胞。解:先计算后验概率:818.01.04.09.02.09.02.0)()()()()(21111jjjPxpPxpxP182.0)(1)(12xPxP归于正常状态。,所以把因为xxPxP)()(21P(e|x)=P(2|x)判定为1(错误选择2);因为决策规则为:如果P(1|x)P(2|x)类别状态=1如果P(1|x)P(2|x)类别状态=2P(e|x)=P(1|x)判定为2(错误选择1);错误率分析因此,无论何时观测到某一个特定值x,概率误差为:因此,条件错误概率:P(e|x)=min[P(1|x),P(2|x)]模式特征x是一个随机变量,在应用Bayes法则时,每当观察到一个模式时,得到特征x,就可利用后验概率作出分类的决策,同时也会带来一定的错误概率。若观察到大量的模式,对它们作出决策的平均错误概率P(e)应是P(e|x)的数学期望。平均错误率()(,)(|)()PePexdxPexpxdx在整个d维特征空间上的积分从上式可知,如果对每次观察到的特征值x,P(e|)是尽可能小的话,则上式的积分必定是尽可能小的这就证实了最小错误率的Bayes决策法则。下面以两类模式为例,从理论上给予证明:12||P21RRdxxpxPdxxpxPe1R2RHA11()()pPx22()()pPx122()()RpPdxx211()()RpPdxx122211||RRdxPxpdxPxp21211221112211221122()(,)(,)()()()()()()()()()()()()RRPePxRPxRPxRPPxRPpxPdxpxPdxPPePPe也可以写为:21|Rdxxp12|Rdxxp对应图中黄色和橘红色区域面积对多类决策(假设有c类),很容易写出相应的最小错误率贝叶斯决策规则:ijcjixxPxP,则如果)(max)(,...1ijjcjiixPxPPxP则如果),()(max)()(,...1形式一:形式二:多类别决策过程中,要把特征空间分割成c个区域,可能错分的情况很多,平均错误概率P(e)将由c(c-1)项组成。直接求P(e)的计算量较大,将代之计算平均正确分类概率P(c),则:dxPxpPRxPcPjcjRjjcjjjj11||因此,P(e)=1-P(c)基于最小风险的贝叶斯决策上述分类基于错误率最小化的所得到规则,但有时要考虑比错误率更广泛的概念-----风险。风险与损失密切相连。比如对细胞分类固然尽可能正确判断,但判错了的后果将怎样?正常异常:精神负担;异常正常:失去进一步治疗的机会。显然这两种不同的错误判断所造成损失的严重程度是有显著差别的,后者的损失比前者更严重。最小风险贝叶斯决策正是考虑各种错误造成损失不同而提出的一种决策规则。状态空间:设{1,2,…,c}是c个类别的集合。决策空间:设{1,2,…,a}是a种决策行为。损失函数:记(i|j)是类别状态为j时采用决策行为为i时所带来的损失(风险)。几个基本概念:引入损失概念,考虑错判所造成损失,不能只由后验概率的大小来决策,而应考虑所采取决策是否使损失最小。对于i=1,…,a,条件风险R(i|x)定义为:它是在c个类别状态中任取某个状态j时,采用决策i的风险(i|j)相对于后验概率P(j/x)的条件期望。1(/x)[()]()(),1,2,....,iijcijjjREPxiC观察值x是随机向量,不同的观察值x,采取决策i时,其条件风险的大小是不同的。所以,究竟采取哪一种决策将随x的取值而定。决策看成随机向量x的函数,记为(x),它也是一个随机变量。我们可以定义期望风险R:dxxpxxRR|期望风险R反映对整个特征空间上所有x的取值采取相应的决策(x)所带来的平均风险。条件风险R(i|x)只是反映对某一观察值x,采取决策i时,所有类别状态下带来风险的平均值。显然,我们要求采取的一系列决策行动(x)使期望风险R最小。如果在采取每一个决策或行动时,都使其条件风险最小,则对给定的观察值x作出决策时,其期望风险也必然最小。这样的决策就是最小风险贝叶斯决策。其规则为:kiaikxRxR|min|...2,1则如果1.已知先验概率P(j)、类条件概率密度p(x/j),并给出待识别的x,根据贝叶斯公式,计算出后验概率P(j/x)。最小风险贝叶斯决策步骤cjPxPPxPxPciiijjj,...1,)()()(12.利用后验概率P(j/x)与损失函数,计算出每个条件期望风险R(i/x)(一共有a个决策)。3.在a个R(i/x)相互比较,找出最小的决策k,完成最小风险贝叶斯决策。kiaikxRxR|min|...2,1则如果xPxRjcjjii|||1注意:最小风险贝叶斯决策除了先验概率P(j)和类条件概率密度p(x/j)外,还需要有合适的损失函数(j,j)。在实际中,要列出合适的决策表很不容易,要根据所研究的具体问题,分析错误决策造成损失的严重程度,与有关的专家共同商讨来确定。例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1未知细胞x,先从类条件概率密度分布曲线上查到:P(x/ω1)=0.2,P(x/ω2)=0.4问该细胞属于正常细胞还是异常细胞?111221220,6,1,0损失函数:12()0.818,()0.182PxPx解:计算出的后验概率:21112212211()()()1.092()()0.818jjjRxPxPxRxPx条件风险:121()(),RxRxx因为异常细胞因决策类风险大。126因=较大,决策损失起决定作用。最小错误率决策与最小风险决策之间的关系“0-1”损失函数定义:在c个类别只有c个决策时,如果正确决策,则损失函数的值为0;如果错误决策,则损失函数的值为1。公式表示为:0(,),1,2,,1ijijijcij11()(,)()()cciijjjjjijRPPxxx此时的条件风险为:表示对x采取决策i的条件错误概率所以在0-1损失函数时,使xRxRicik|min|,...1的最小风险贝叶斯决策就等价于的最小错误率贝叶斯决策。cijjjcickjjjxPxP1,...11|min|因此,在0-1损失函数条件下最小错误率贝叶斯决策就是的最小风险贝叶斯决策。Neyman—Pearson决策Neyman—Pearson决策即限定一类错误率条件下使另一类错误率为最小的两类别决策。在两类别决策问题中,有犯两种错误分类的可能性,这两种错误的概率分别是P(ω2)P2(e)和P(ω1)P1(e),由于先验概率对具体问题来说是确定的,所以一般称P1(e),P2(e)为两类错误率。实际中,有时要求限制其中某一类错误率不得大于某个常数而使另一类错误率尽可能小。1R2RHA11()()pPx22()()pPx122()()RpPdxx211()()RpPdxx假设P2(e)很小,使P2(e)=ε0,ε0是一个很小的常数,在这种条件下再要求尽可能小。如图所示:21211111222211220()()()()()()()()()()()()RRRRpxPdxPPepxPdxPPePepxdxPepxdx120()()PePe这样的决策可看成是在P2(e)=ε0条件下,求极小值的条件极值问题,用Lagrange乘子法建立数学模型:12211201111()()()()1()1()RRRRPePepxdxpxdxpxdxpxdx2111111120120021021()()1()()1()()1()()RRRRRRRpxdxpxdxpxdxpxdxpxdxpxdxpxpxdx1122012()0()0()()()RptppxdxRtRttt取得极小值的边界条件(对t和λ求导)整理得:满足上述两式的λ和边界面就能使γ极小。此时的决策规则为:分类器设计之前介绍了几种统计决策规则,应用这些规则对观察向量x进行分类是分类器设计的主要问题。决策面:对于c类问题,按照决策规则可以把d维特征空间分成c个决策域,划分决策域的边界面即为决策面。判别函数:用于表达决策规则的一些函数。11212122112212211122(1)(|)(|)(2)(|)()(|)()(|)()(3)()(|)()(4)ln(