Chapter2BayesianDecisionTheory–贝叶斯决策论2要点:•重点掌握贝叶斯决策论、最小误差率分类规则、分类器与判别函数、正态密度、正态分布的判别函数•了解贝叶斯决策论(离散性特征)3在不知道更多信息的情况下,每次出现鲈鱼的先验概率为,而鲑鱼的先验概率为,其中先验概率反映了在鱼没有出现之前,我们拥有可能出现鱼的类别的先验知识。例如:对于鲑鱼与鲈鱼的2类问题,如果用ω表示类别状态,那么当时是鲈鱼,当时是鲑鱼。由于每次出现的类别不确定,可以假设ω是一个用概率来描述的随机变量。•2.1引言贝叶斯决策是统计模式识别的基本方法,采用概率的形式来描述,它的前提是:(1).各类别的总体概率分布是已知的.(2).要决策分类的类别数是一定的.)(1P12)(2P1)()(21PP4利用类条件概率密度:及描述了两种鱼类外观上光泽度的差异。其中,x为光泽度指标。类条件概率密度为类别状态为ω时的x的概率密度函数仅根据先验信息的判定准则若,则事件成立;反之,则成立。错误的概率是它们之中较小的那个.但通常不这样做!)()(21PP)|(1xP)|(2xP125注:假定的类条件概率密度函数图,显示了模式处于类别时观察某个特定特征值x的概率密度.如果x代表了鱼的长度,那么这两条曲线可描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为1i6贝叶斯公式:处于类别并具有特征值x的模式的联合概率密度可写成两种形式:)()()|()|(xpPxpxPiii其中称为状态的后验概率.)|(xPi混合概率密度函数:21)()|()(jjjPxpxpi)()|()()|(),(iiiiPxpxpxPxp于是,可以导出贝叶斯公式:)()()|()|(xpPxpxPiii证据因子先验概率似然函数后验概率(1)73/1)(,3/2)(21wPwP在先验概率及图2-1给出的后验概率图.此情况下,假定一个模式具有特征值,那么它属于类的概率约为0.08,属于的概率约为0.92.在每个x处的后验概率之和为1.014x218•基于后验概率的决策准则(x表示观察值)若类别判定若类别判定•决策后所导致的错误率若判定若判定)|()|(21xPxP)|()|(21xPxP)|()|(2xPxerrorP)|()|(1xPxerrorP12219最小化错误概率条件下的贝叶斯决策规则为了追求最小的错误率,采取如下判定准则:若,则判定类别为;反之,判为。可以证明,依从这样的准则可以获得最小错误率:我们称该准则为“贝叶斯决策准则”。)|()|(21xPxP)]|(),|(min[)|(21xPxPxerrorP12平均错误率:dxxpxerrorPdxxerrorPerrorP)()|(),()(10根据贝叶斯公式,由于p(x)为标量,则可以采用等价判定准则:若,则判定类别为;反之,判为。)()|()()|(2211PxpPxp12)()()|()|(xpPxpxPiii11•2.2贝叶斯决策论-连续性特征1.允许利用多于一个的特征2.允许多于两种类别状态的情形3.允许有其它行为而不仅是判定类别。4.引入损失函数代替误差概率。概述12令{1,2,…,c}表示一系列类别状态。令{1,2,…,a}表示一系列可能采取的行动(或决策)。令(i|j)表示当实际状态为j时,采取i的行为会带来的风险。那么,特征x与行动i相关联的损失为:因此,称为条件风险。考察损失函数对判定准则的影响cjjjiixPxR1)|()|()|(dxxpxxRR)()|)(()|(xRi借助可以提供一个总风险的优化过程,即遇到特征x,我们可以选择最小化风险的行为来使预期的损失达到最小。)|(xRi假设对于特征x,决策的行为是,则总风险可表示为:)(x13为了最小化总风险,对所有计算条件风险12ia,,)|()|()|(1xPxRjcjjii选择行为i,使得最小化。最小化后的总风险值称为贝叶斯风险,记为,它是可获得的最优结果。*R)|(xRi(12)14两类分类问题行为1对应类别判决1,2则对应2。为了简化符号,令)|(,jiji那么可得两种行为的损失函数)|()|()|()|()|()|(22,211,2222,111,11xPxPxRxPxPxR15决策按照贝叶斯决策规则,为了使得条件风险最小,如果则判为相反,则判为)|()|(21xRxR12结合贝叶斯公式,用先验概率与条件密度来表示后验概率,等价规则为如果则判为否则,判决为)()|()()()|()(222,22,1111,11,2PxPPxP12用后验概率来表示,等价规则为如果则判为否则,判决为)|()()|()(22,22,111,11,2xPxP12通常:?0)(0)(2,22,11,11,216决策等价规则为如果则判为;否则,判决为)()()()()|()|(121,11,22,22,121PPxPxP12注意公式(18)的右边是与x无关的常数,因此可以视为左边的似然比超过某个阈值,则判为(18)117左图说明,如果引入一个0-1损失或分类损失,那么判别边界将由阈值决定;而如果损失函数将模式判为的惩罚大于反过来情况,将得到较大的阈值使得R1变小ba1b218•当损失函数简化到所谓的“对称损失”或“0-1损失”函数10)|(jijijicji,2,1,•这个损失函数将0损失赋给一个正确的判决,而将一个单位损失赋给任何一种错误判决,因此所有误判都是等价的。与这个损失函数对应的风险就是平均误差概率。•2.3最小误差率分类191(|)(|)(|)(|)1(|)ciijjjjjiiRxPxPxPx对于,若,则判定类别为;反之,判为。(|)(|)ijPxPxijij因此,最小化风险,就是最大化后验概率,即最小误差率的分类准则。(|)iPx202.3.1极小极大化准则(先验概率未知情形)•有时我们需要设计在整个先验概率范围内都能很好操作的分类器。一种合理的设计方法就是使先验概率取任何一种值时所引起的总风险的最坏情况尽可能小,也就是说最小化最大可能的风险。•我们以R1表示分类器判为1时的特征空间的区域,同样的有R2和2,总风险的形式可表示为121,1111,2222,1112,222()(|)()(|))()(|)()(|))RRRPpxPpxdxPpxPpxdx判为1判为221结合公式与)(1)(12PPdxxpdxxpRR)|(1)|(1211122,22,1211,11,22,21,11112,21,12,21)|()()|()()()()|()())((RRRdxxpdxxpPdxxpPR可以得到等式表明一旦判别边界确定后,总风险与成线形关系。如果能找到一个边界使比例为0,那么风险将与先验概率独立。这就是极小极大化求解。)(1P122,21,22,221,12,11,11()(|)()(|)mmRRRpxdxpxdx风险作业:计算222.3.2Neyman-Pearson准则•最小化某个约束的风险(资源有限的情形)。•对某个给定的i,最小化在约束条件的总风险。1(|)Rxdx常数•例如:将鲈鱼误判为鲑鱼的误差率不得超过1%。23•2.4分类器与判别函数2.4.1多类情况有许多方式来表述模式分类器,用的最多的是一种判别函数若对于所有的都有)(xgiij)()(xgxgji则分类器将这个特征向量x判给i24上图为包含d个输入c个判别函数的系统。确定哪个判别函数值最大,并相应地对输入作分类。25•不同情况下的分类器的表示方式•一般风险的情况下为)|()(xRxgii)|()(xPxgii•最小误差概率情况下•其它一些较常见的形式jjjiiiiPxpPxpxPxg)()|()()|()|()()()|()(iiiPxpxg)(ln)|(ln)(iiiPxpxg26•尽管判别函数可写成各种不同的形式,但是判决规则是相同的。每种判决规则都是将特征空间划分c个判决区域,如果对于所有的,有那么x属于。要求我们将x分给。此区域由判决边界来分割,其判决边界即判决空间中使判决函数值最大的曲面。如图cRR,1ij)()(xgxgjiiRi27在这个二维的两类问题的分类器中,概率密度为高斯分布。判别边界由两个双曲面构成,因此判决区域R2并非是简单连通的。椭圆轮廓线标记出1/e乘以概率密度的峰值。28则如果,则将x判给,否则给。2.4.2两类情况(二分分类器-dichotomizer)对于二分分类器,可以定义一个简单判别函数()0gx12()()()gxgxgx1212()(|)(|)gxPxPx•最小误差概率情况下或:1122(|)()()lnln(|)()pxPgxpxP29•2.5正态密度•单变量密度函数单变量正态分布211()exp()22xpxdxxxpxE)()(dxxpxxE)()()(222容易计算其期望值与方差2()(,)pxN302||x单变量正态分布大约有95%的区域在范围内,如图此分布的峰值为2/1)(p31•正态分布与熵之间的关系熵的定义dxxpxpxpH)(ln)())((2log单位为奈特;若换为,单位为比特。熵是一个非负的量用来描述一种分布中随机选取的样本点的不确定性。可以证明正态分布在所有具有给定均值和方差的分布中具有最大熵。并且,如中心极限定理所述,大量的小的,独立的随机分布的总和等效为高斯分布。32•多元密度函数多元正态密度11/2/211()exp(()()2(2)tdpxxx其中x是一个d维列向量,是d维均值向量,是的协方差矩阵,和分别是其行列式的值和逆。1dd()(,)pxN形式上有:[]()xxpxdx[()()']()()'()xxxxpxdx33•协方差矩阵通常是对称的且半正定。我们将严格限定是正定的。对角线元素是相应的方差;非对角线元素是和的协方差。如果和统计独立,则。如果所有的非对角线元素为0,那么p(x)变成了x中各元素的单变量正态密度函数的内积。ijiiix0ijixixjxjx•服从正态分布的随机变量的线性组合,不管这些随机变量是独立还是非独立的,也是一个正态分布。(这是个非常有用的结论)特别地,如果,A是一d*k的矩阵且是一k维向量,则()(,)pxNtyAx()(,)ttpxNAAA34),(~)(),,(~)(ΣAAμAyxAyΣμxtttNpNp35白化(Whitening)变换F:其列向量是的正交特征向量.L:与特征值对应的对角矩阵.白化(Whitening)变换IΣAAΦΛAwtww2/136•2.6正态分布的判别函数111()()()ln2lnln()222tiiiiiidgxxxP)(ln)|(ln)(iiiPxpxg最小误差概率分类可通过判别函数获得如果已知(|)~(,)iiipxN那么11/2/21(|)exp(1/2()()(2)tiiiidipxxx