Chapter2BayesianDecisionTheory–贝叶斯决策论2要点:•引言•贝叶斯决策论(连续性特征)•最小误差率分类•分类器与判别函数•正态密度•正态分布的判别函数•贝叶斯决策论(离散性特征)•本章小结3实例:鲑鱼与鲈鱼状态变量及概率状态变量可被看作是随机变量抓到鲑鱼与鲈鱼的事件是随机的(均匀先验)(封闭性)•2.1引言)()(21wPwP1)()(21wPwP1)()(21wPwP4•仅根据先验信息的判定准则若,则事件w1成立;反之,则w2成立。•利用类条件概率密度:及描述了两种鱼类外观上亮度的差异。)()(21wPwP)|(1wxP)|(2wxP5注:假定的类条件概率密度函数图,显示了模式处于类别w1时观察某个特定特征值x的概率密度.如果x代表了鱼的长度,那么这两条曲线可描述两种鱼的长度区别.概率函数已归一化,因此每条曲线下的面积为16•后验,似然,证据因子及贝叶斯公式•介绍一些基本概念P(w1后验=似然x先验/证据因子)(/)()|()|(xPwPwxPxwPjjj73/1)(,3/2)(21wPwP在先验概率及图2-1给出的后验概率图.此情况下,假定一个模式具有特征值,那么它属于w2类的概率约为0.08,属于\W1的概率约为0.92.在每个x处的后验概率之和为1.014x8•基于后验概率的决策准则(x表示观察值)若类别判定w1若类别判定w2•决策后所导致的错误率若判定w2若判定w1)|()|(21xwPxwP)|()|(21xwPxwP)|()|(2xwPxerrorP)|()|(1xwPxerrorP9•最小错误率为了追求最小的错误率,采取如下判定准则:若,则判定类别为w1;反之,判为w2。可以证明,依从这样的准则可以获得最小错误率:我们称该准则为“贝叶斯决策准则”。)|()|(21xwPxwP)]|(),|(min[)|(21xwPxwPxerrorP10•2.2贝叶斯决策论-连续性特征1.允许利用多于一个的特征2.允许多于两种类别状态的情形3.允许有其它行为而不仅是判定类别。4.引入损失函数,比错误率更具一般性。•概述11令{1,2,…,c}表示一系列类别状态。令{1,2,…,a}表示一系列可能采取的行动(或决策)。令(i|j)表示当实际状态为i时,采取i的行为会带来的风险。那么,与行动i相关联的损失R(i|x)=因此,总风险可表示为:对R(i|x).P(x)的求和。•考察损失函数对判定准则的影响)|()|(xPjjidxxpxxRR)()|)((12•上述的贝叶斯决策规则:为了最小化总风险,对所有计算条件风险ai,,21)|()|()|(1xPxRjcjjii选择行为i,使得R(i|x)最小化。最小化后的总风险值称为贝叶斯风险,记为它是可获得的最优结果。*R13•两类分类问题行为1对应类别判决1,2则对应2。为了简化符号,令)|(,jiji那么可得两种行为的损失函数)|()|()|()|()|()|(22,211,2222,111,11xPxPxRxPxPxR14•决策•按照贝叶斯决策规则,为了使得条件风险最小,如果则判为相反,则判为)|()|(21xRxR12•结合贝叶斯公式,用先验概率与条件密度来表示后验概率,等价规则为如果则判为否则,判决为)()|()()()|()(222,22,1111,11,2PxPPxP1215左图说明,如果引入一个0-1损失或分类损失,那么判别边界将由阈值决定;而如果损失函数对模式判为的惩罚大于反过来情况,将得到较大的阈值使得R1变小ba21b216•当损失函数简化到所谓的“对称损失”或“0-1损失”函数10)|(jijijicji,2,1,•这个损失函数将0损失赋给一个正确的判决,而将一个单位损失赋给任何一种错误判决,因此所有误判都是等价的。与这个损失函数对应的风险就是平均误差概率。•2.3最小误差率分类17•极小极大化准则(选讲)•有时我们需要设计在整个先验概率范围内都能很好操作的分类器。一种合理的设计方法就是使先验概率取任何一种值时所引起的总风险的最坏情况尽可能小,也就是说最小化最大可能的风险。•我们以R1表示分类器判为1时的特征空间的区域,同样的有R2和2,总风险的形式可表示为2222,2111,21222,1111,1))|()()|()())|()()|()(RRdxxpPxpPdxxpPxpPR18结合公式与)(1)(12PPdxxpdxxpRR)|(1)|(1211122,22,1211,11,22,21,11112,21,12,21)|()()|()()()()|()())((RRRdxxpdxxpPdxxpPR可以得到等式表明一旦判别边界确定后,总风险与成线形关系。如果能找到一个边界使比例为0,那么风险将与先验概率独立。这就是极小极大化求解。)(1PdxxpRRmm)|()(122,22,12,2风险19•2.4分类器与判别函数•多类情况有许多方式来表述模式分类器,用的最多的是一种判别函数若对于所有的都有)(xgiij)()(xgxgji则分类器将这个特征向量x判给i20上图为包含d个输入c个判别函数的系统。确定哪个判别函数值最大,并相应地对输入作分类。21•不同情况下的分类器的表示方式•一般风险的情况下为)|()(xRxgii)|()(xPxgii•最小误差概率情况下•其它一些较常见的形式jjjiiiiPxpPxpxPxg)()|()()|()|()()()|()(iiiPxpxg)(ln)|(ln)(iiiPxpxg22•尽管判别函数可写成各种不同的形式,但是判决规则是相同的。每种判决规则都是将特征空间划分c个判决区域,如果对于所有的有那么x属于要求我们将x分给。此区域由判决边界来分割,其判决边界即判决空间中使判决函数值最大的曲面。如图cRR,1ij)()(xgxgjiiRi23在这个二维的两类问题的分类器中,概率密度为高斯分布。判别边界由两个双曲面构成,因此判决区域R2并非是简单连通的。椭圆轮廓线标记出1/e乘以概率密度的峰值。24•2.5正态密度•单变量密度函数单变量正态分布2)(2/1exp21)(xxpdxxxpxE)()(dxxpxxE)()()(222容易计算其期望值与方差252||x单变量正态分布大约有95%的区域在范围内,如图此分布的峰值为2/1)(p26•正态分布与熵之间的关系熵的定义dxxpxpxpH)(ln)())((2log单位为奈特,若换为,单位为比特。熵是一个非负的量用来描述一种分布中随机选取的样本点的不确定性。可以证明正态分布在所有具有给定均值和方差的分布中具有最大熵。并且,如中心极限定理所述,大量的小的,独立的随机分布的总和等效为高斯分布。27•多元密度函数多元正态密度)()(2/1(exp)2(1)(12/12/xxxptd其中x是一个d维列向量,是d维均值向量,是的协方差矩阵,和分别是其行列式的值和逆。1dd28•协方差矩阵通常是对称的且半正定。我们将严格限定是正定的。对角线元素是相应的方差且非对角线元素是和的协方差。如果和统计独立,则。如果所有的非对角线元素为0,那么p(x)变成了x中各元素的单变量正态密度函数的内积。ijiiix0iiixixjxjx•服从正态分布的随机变量的线形组合,不管这些随机变量是独立还是非独立的,也是一个正态分布。(这是个非常有用的结论)29•2.6正态分布的判别函数)(lnln212ln2)()(21)(1iiiitiiPdxxxg)(ln)|(ln)(iiiPxpxg最小误差概率分类可通过判别函数获得如果已知),(~)|(iiiNxp那么30情况1:Ii22i•这种情况发生在各特征统计独立,且每个特征具有相同的方差时。此时的协方差阵是对角阵,仅仅是与单位阵I的乘积。几何上它与样本落于相等大小的超球体聚类中的情况相对应,第i类的聚类以均值向量为中心。•省略掉其它无关紧要的附加常量,可得到简单的判决函数2)(ln2)(22iiiPxxg31展开后我们得到省略附加常量,等价于线性判决函数其中且称为第i个方向的阈值或者偏置。0)(itiiwxwxg)(ln22/1)(iitititiPxxxgiiiw21)(ln2120itiiPw0iw32•使用线性判别函数的分类器称为“线性机器”。这类分类器有许多有趣的理论性质,其中一些将在第5章中详细讨论。此处只需注意到一个线性机器的判定面是一些超平面,它们是由两类问题中可获得最大后验概率的线性方程来确定。•在以上的例子中,该方程可写为其中且此方程定义了一个通过x0且与向量w正交的超平面。由于,将Ri与Rj分开的超平面与两中心点的连线垂直。若则上式右边第二项为零,因此超平面垂直平分两中心点的连线。如图)()(xgxgji0)(0xxwtjiw)()()(ln)(21220jijijijiPPx)()(jiPPjiw33如果两种分布的协方差矩阵相等且与单位阵成比例,那么它们呈d维球状分布,其判决边界是一个d-1维归一化超平面,垂直于两个中心的连线。在这些一维,二维及三维的例子中,是假设在的情况下来显示和判决边界的。)()(jiPP)|(ixp34•如果所有c类的先验概率相等,那么项就成了另一可省略的附加常量。此种情况下,最优判决规则可简单陈述如下:为将某特征向量x归类,通过测量每一个x到c个均值向量中的每一个欧氏距离,并将x归为离它最近的那一类中。这样一个分类器被称为“最小距离分类器”。如果每个均值向量被看成是其所属模式类的一个理想原型或模板,那么本质上是一个模板匹配技术。)(iP)(lniP35如图:随着先验概率的改变,判决边界也随之改变;对于差别较大的离散先验概率而言,判决边界不会落于这些一维,二维及三维球状高斯分步的中心点之间。36情况2:•第二类简单的情况是所有类的协方差阵都相等,但各自的均值向量是任意的。几何上,这种情况对应于样本落在相同大小和相同形状的超椭球体聚类中,第i类的聚类中心在向量附近。此时的判决函数可简化为)(ln)()(21)(1ijtiiPxxxgii•将二次型展开后,可再次得到线性判决函数0)(itiiwxwxg其中iiw137由于判决函数是线性的,判决边界同样是超平面0)(0xxwt)(1jiw)()()()(/)(ln)(2110jijitjijijiPPx其中且如果先验概率相等,其判决面与均值连线相交于x0点;若不等,最优边界超平面将远离可能性较大的均值。如图38相等但非对称的高斯分布概率密度(由二维平面和三维椭球面表示)及判决区域。判决超平面未必和均值连线垂直正交。39情况3:任意i0)(itiitiwxwxWxxg121iiWiiiw1在一般的多元正态分布的情况下,每一类的协方差是不同,其判决函数显然也是二次型其中在两类问题中,其对应的判决面是超二次曲面。40任意高斯分布导致一般超二次曲面的贝叶斯判决边界。反之,给定任意超二次曲面,就能求出两个高斯分布,其贝叶斯判别边界就是该超二次曲面。它们的方差由常概率密度的围线表示41•2.7贝叶斯