1第7讲贝叶斯决策论文志强计算机与通信学院2主要内容引言贝叶斯决策论-连续特征最小误差率分类分类器、判别函数及判定面正态密度资料来自:RichardO.Duda,李宏东等译.《模式分类》,机械工业出版社.2003.37.1引言1)贝叶斯决策论的概念贝叶斯决策论:利用概率的不同分类决策与相应的决策代价之间的定量折中。假设:决策问题可以用概率的形式来描述,并假设所有有关的概率结构均已知。2)鱼类分类的例子:鲈鱼,鲑鱼(续)4(鲑鱼)(鲈鱼)5使用长度作为特征(鲑鱼)(鲈鱼)6使用光泽度作为特征(鲑鱼)(鲈鱼)7判别边界决策理论的任务是:使总体代价函数最小。(鲈鱼)(鲑鱼)8使用光泽度和宽度特征的散布图(鲈鱼)(鲑鱼)9复杂模型10最优折中Centerprobleminpatternrecognition113)几个概念如果用w表示类别状态,那么当w=w1时是鲈鱼,当w=w2时是鲑鱼,可由概率来描述特性的随机变量。先验概率:P(w1)表示鲈鱼的先验概率,P(w2)表示鲑鱼的先验概率,满足P(w1)+P(w2)=1。类条件概率密度:假设x是一连续随机变量,其分布取决于类别的状态,表示成p(x|w)的形式,也称状态条件密度。12图7-1假定的类条件概率密度函数图,显示了模式处于类别wi时的观测某个特定特征值x的概率密度。如果x代表鱼的长度,那么这两条曲线可描述两种鱼的长度区别。概率函数已归一化。因此每条曲线下的面积为1。13假设已知先验概率P(wj),也知道条件概率密度p(x|wj),且j=1,2。通过观察和测量,发现某个特征(一条鱼的光泽度)为x。则联合概率密度可写成p(wj,x)=P(wj|x)p(x)=p(x|wj)P(wj)于是可得贝叶斯公式:P(wj|x)=p(x|wj)P(wj)/p(x)在两类问题下:21)()|()(jjjwPwxpxpevidencepriorlikelihoodposterior贝叶斯公式可用非正式的英语表示成其中,p(x|wj)称为wj关于x的似然函数。证据因子p(x)可看成一个标量因子。14图7-2在先验概率P(w1)=2/3,P(w2)=1/3及图7-1给出的类条件概率密度的条件下的后验概率图.154)决策规则--最小化误差概率条件下的贝叶斯决策规则决策规则:如果某个观测值x使得P(w1|x)比P(w2|x)大,则判断类别是w1,反之,则判断w2。误差概率:1221)|()|()|(wwxwPxwPxerrorP如果判定如果判定(4)平均误差dxxpxerrorPdxxerrorPerrorP)()|(),()((4)式可写成:)|(),|(min)|(21xwPxwPxerrorP可得到完全等价的判断规则212211)()|()()|(;否则判断则判断为如果167.2贝叶斯决策论-连续特征推广:允许使用多于一个特征允许多于两种类别状态的情形允许有其他行为而不是仅仅判断类别通过引入一个更一般的损失函数来替代误差概率注:损失函数:精确地阐述了每种行为所付出的代价大小,并且用于将概率转换为一种判决。17令{w1,…,wc}表示有限个c个类别集,{α1,…,αa}表示有限的a种可能采取的行为集,风险函数λ(αi|wj)描述类别状态为wj时采取行动αi的风险。特征向量x表示一个d维随机变量。令p(x|wj)表示x的状态条件概率密度函数,则后验概率可表示成:)()()|()|(xxxpwPwpwPjjj证据因子已知cjjjwPwpp1)()|()(xx18如果观测到某个特定模式x并且采取行为αi,如果真实的类别为wj,通过定义将有损失λ(αi|wj),则相应损失为cjjjiiwPwR1)|()|()|(xx)|(xiR称为条件风险可以通过选择最小化条件风险的行为来使预期的损失最小化。贝叶斯决策过程实际上提供了一个总风险的优化过程。dxpRR)()|)((xxx总风险为:19两类分类问题λij=λ(αi|wj)表示当前实际类别为wj时误判为wi所引起的损失。条件风险为:如果121)|()|(wRR则判定为xx)|()|()|()|()|()|(22212122121111xxxxxxwPwPRwPwPR2212211211)|()|(xxwPwP也表述为:如果则判定为w120利用贝叶斯规则,则等价于)()|()()|(222212111121wPwpwPwpxx如果则判定为w1。另一种表达方式为:如果下式成立,则判定为w1。)()()|()|(111212221221wPwPwPwPxx似然比称为217.3最小误差率分类如果采取行为αi,而实际类别为wj,那么在i=j的情况下判定是正确的,如果i≠j,则产生误判。如果要避免误判,自然要寻找一种判决规则使误判概率最小化。对称损失函数或0-1损失函数cjijijiwji,...,1,10)|(条件风险:相当于平均误差概率)|(1)|()|()|()|(1xxxiijjcjjjiiwPwPxwPwR为了最小化平均误差概率,需要选取i使得后验概率P(wi|x)最大,也即基于最小误差概率,有ijiwwPwPij,则判决为,如果对任给)|()|(xx22图7-3图7-1所示的分布的似然函数比p(x|w1)/p(x|w2)。如果引入一个0-1损失或分类损失,那么判决边界将由θa决定237.4分类器、判别函数及判定面7.4.1多类情况常用的判别函数为gi(x),i=1,…,c的形式,如果对于所有的j≠i,有gi(x)gj(x)则此分类器将这个特征向量x判为wi分类器可视为一个网络或机器(图7-5)。24图7-5一个包含d个输入c个判决函数gi(x)的一般的统计模式分类器的体系结构。接下来的步骤是确定哪个判别函数值最大,并相应的对输入作分类。箭头表示信息流的方向。25具有一般风险的情况下,让gi(x)=-R(αi|x)在最小误差概率情况下,让gi(x)=P(wi|x)在最小误差概率情况下,一些常用选择:)(ln)|(ln)()()|()()()|()()|()|()(1iiiiiicjjjiiiiwPwpxgwPwpxgwPwpwPwpwPxgxxxxx26图7-6在这个二维的两类问题的分类器中,概率密度为高斯分布,判决边界由两个双曲线构成,因此判决区域R2并非是简单的连通的。椭圆轮廓线标记出1/e乘以概率密度的峰值。277.4.2两类情况:二类分类器判别函数如果则判为w1,否则判为w2。常用的个g(x)函数如下:)()()(21xxxggg0)(xg)()(ln)|()|(ln)()|()|()(212121wPwPwpwpgwPwPgxxxxxx287.5正态密度f(x)的数学期望dxxpxfxf)()()(DxxPxfxf)()()(297.5.1单变量密度函数单变量正态密度函数221exp21)(xxpdxxxpx)(dxxpxx)(222期望值:方差:),(~)(2Nxp记为:30图7-7单变量正态分布大约有95%的区域在|x-μ|≤2σ范围内,如图所示。此分布的峰值为21)(p317.5.2多元密度函数d维多元正态密度的形式μxΣμxΣx121221exp21)(Tdpxxxxμdp)(xxμxμxμxμxΣdpTT)(其中记为),(~)(ΣμxNp协方差矩阵:32图7-8特征空间中的一个线性变换将一个任意正态分布变换成另一个正态分布。正态分布的性质:服从正态分布的随机变量的线性组合还是一个正态分布。白化变换直线投影33图7-9从一个以均值μ为中心的云团内的二维高斯分布中取出的样本。椭圆显示了等概率密度的高斯分布轨迹。多元正态密度完全由d+d(d+1)/2个参数确定。从一正态分布中所抽取的样本点趋向于落在一个单一的云团或聚类中。等密度点的轨迹为一超椭圆体,这些椭圆体的主轴由Σ的本征向量给出,本征值决定这些长轴的长度。34μxΣμx12Tr称为从x到μ的Mahalanobis距离或马氏距离。等密度分布的边界是一些到的恒定马氏距离的超椭圆体,且这些超椭圆体的体积决定了均值附近的样本的离散程度。与Mahalanobis距离r对应的超椭圆体的体积为ddrVV21为奇数为偶数dddddVdddd!!212)!2/(2)1(2其中Vd是一个d维单位超球体的体积μ357.6正态分布的判别函数)(ln)|(ln)(iiiwPwpxgx)(lnln212ln221)(1iiiiTiiwPdxgμxμx可获得:下面分几种特殊情况来讨论最小误差概率分类可通过使用判决函数获得36情况1省略无关常数后,可得简单的判别函数IσΣ2)(ln2)(22iiiwPxgμx表示欧几里德范数二次型展开可得:)(ln221)(2iiTiTiTiwPxgμμxμxxdi2,I211i和37可得等价的线性判别函数)(ln211)(2020iiTiiiiiTiiwpμμμxwi0称为第i个方向的阈值或偏置。38超平面此方程可写成)()()(ln)(210)(2200jijijijijiTwPwPμμμμμμxμμwxxw图7-10如果两种分布的协方差矩阵相等并且与单位阵成比例,那么它们成d维球状分布,其判决边界是一个d-1维归一化超平面,垂直于两个中心的连线。在这些一维,二维,三维的例子中,是假设在P(w1)=P(w2)的情况下来显示p(x|wi)和判决边界的。其中39情况2可简化为ΣΣi)(ln21)(1iiTiiwPxgμxμx将二次型展开,可得线性判别函数:)(ln21)(1010iiTiiiiiTiiwpwwxgμΣμμΣwxw40边界面方程为)()()(ln)(210)(1010jijiTjijijijiTwPwPμμμμΣμμμμxμμΣwxxw判决边界是超平面41图7-11随着先验概率的改变,判决边界也随之改变;对于差别较大的离散先验概率而言,判决边界不会落于这些一维,二维及三维球状高斯分布的中心点之间42图7-12相等但非对称的高斯分布的概率密度及判决区域。判决超平面未必和均值连线垂直正交43情况3去掉常量后,判别函数为二次型:任意iΣ)(lnln212121)(10110iiiTiiiiiiTiiTiwPwwxgiiiΣμΣμμΣwΣWxwxWx其中在两类问题中,对应的判定面是超二次曲面。44图7-13在方差不相等的一维高斯分布情况下,可能产生并非单连通的判决区域,如P(w1)=P(w2)时这里所示的情况判决区域不连通的情形45图7-14任意高斯分布导致一般超二次曲面的贝叶斯判决边界。反之,给定任意超二次曲面,就能求出两个高斯分布,其贝叶斯判决边界就是超二次曲面。它们的方差由常概率密度的围线表示二维的例子46图7-15任意的三维高斯分布产生二维的超二次曲面的贝叶斯判决边界,甚至还有退化为单一直线的判决边界三维的例子47图7-164个正态的判决区域。尽管对于类别数这么少的情况,其判决区域的形状也是相当复杂的多类判决边界的情形48例1二维高斯分布数据的判决区域数据集如左图所示:w1表示4个黑点的集合w2表示红点的集合49可求得相应参数为