第2章贝叶斯决策理论2.1引言2.2几种常用的决策规则2.2.1基于最小错误率的贝叶斯决策2.2.2基于最小风险的贝叶斯决策2.2.3限定一类错误率,使另一类错误率最小2.2.4最小最大决策2.2.5分类器、判别函数及决策面2.3正态分布时的统计决策2.1引言模式识别的目的就是要确定某一个给定的模式样本属于哪一类可以通过对被识别对象的多次观察和测量,构成特征向量,并将其作为某一个判决规则的输入,按此规则来对样本进行分类作为统计判别问题的模式分类在获取模式的观测值时,有些事物具有确定的因果关系,即在一定的条件下,它必然会发生或必然不发生例如识别一块模板是不是直角三角形,只要凭“三条直线边闭合连线和一个直角”这个特征,测量它是否有三条直线边的闭合连线并有一个直角,就完全可以确定它是不是直角三角形这种现象是确定性的现象但在现实世界中,由许多客观现象的发生,就每一次观察和测量来说,即使在基本条件保持不变的情况下也具有不确定性只有在大量重复的观察下,其结果才能呈现出某种规律性,即对它们观察到的特征具有统计特性特征值不是一个确定的向量,而是一个随机向量此时,只能利用模式集的统计特性来分类,以使分类器发生错误的概率最小作为统计判别问题的模式分类统计识别的基本方法——贝叶斯决策应用贝叶斯决策的前提条件已知各类别总体的概率分布已知决策分类的类别数在已知相关概率(类别先验概率和类条件概率分布)的情况下,特征空间中一个观察量的类别归属问题2.2几种常用的决策规则主要学习最小错误率Bayes错误和最小风险决策;了解在更复杂情况下的几种决策规则讨论决策规则用于模式识别的几个问题2.2.1基于最小错误率的贝叶斯决策从尽量减少错误的角度出发,利用贝叶斯公式得出使错误最小的分类原则以癌细胞识别的例子引出贝叶斯决策贝叶斯决策的出发点癌细胞识别,两类别问题——细胞正常与异常若仅利用先验概率进行分类统计的角度得出的两类细胞的出现概率无法实现正常与异常细胞的分类目的先验概率提供的信息太少,要结合样本观测信息,为此需要利用类条件概率贝叶斯公式p各类样本的分布情况贝叶斯决策的几种表达形式两类模式集分类问题对一大批人进行癌症普查,患癌者以ω1类代表,正常人以ω2类代表设被试验的人中患有癌症的概率为0.005,即P(ω1)=0.005,当然P(ω2)=1-0.005=0.995现任意抽取一人,要判断他是否患有癌症。显然,因为P(ω2)P(ω1),只能说是正常的可能性大。如要进行判断,只能通过化验来实现应用实例设有一种诊断癌症的试验,其结果为“阳性”和“阴性”两种反应若用这种试验来对一个病人进行诊断,提供的化验结果以模式x代表,这里x为一维特征,且只有x=“阳”和x=“阴”两种结果寻找样本观测量假设根据临床记录,发现这种方法有以下统计结果患有癌症的人试验反应为阳性的概率=0.95,即p(x=阳|ω1)=0.95患有癌症的人试验反应为阴性的概率=0.05,即p(x=阴|ω1)=0.05正常人试验反应为阳性的概率=0.01,即p(x=阳|ω2)=0.01正常人试验反应为阴性的概率=0.99,即p(x=阴|ω2)=0.99观测量的类条件概率应用贝叶斯决策问题若被化验的人具有阳性反应,他患癌症的概率为多少,即求P(ω1|x=阳)=?这里P(ω1)是根据以往的统计资料得到的,为患癌症的先验概率。现在经过化验,要求出P(ω1|x=阳),即经过化验后为阳性反应的人中患癌症的概率,称为后验概率[计算]0.323最小错误率的证明以一维情况为例证明贝叶斯决策确实对应最小错误率统计意义上的错误率,即平均错误率,用P(e)表示最小错误率的证明错误率图示以t为界确实使错误率最小,因为P(e/x)始终取最小这个图在哪见过?与图像分割中最优阈值对应的错误分割结果类似,最优阈值同样是基于最小错误概率图像分割蕴含了与模式识别类似的思想,即判定给定像素属于目标还是背景多类问题的贝叶斯决策2.2.2基于最小风险的贝叶斯决策问题的提出:风险的概念风险与损失紧密相连,如病情诊断、商品销售等问题日常生活中的风险选择,所谓是否去冒险最小风险贝叶斯决策考虑各种错误造成损失不同而提出的一种决策规则“宁可错杀一千,也不放走一个”以决策论的观点决策空间:所以可能决策组成的集合每个决策都将带来一定的损失,可表示为决策和自然状态的函数一般决策表相关的数学表示条件期望损失引入损失的概念,制定决策不能仅考虑最小错误率,而是要考虑采取的决策相应的损失是否最小损失的数学表示,跟决策相关——条件期望损失,条件风险对于特定的x采取决策αi的期望损失期望风险最小风险贝叶斯决策最小风险贝叶斯决策步骤对两类问题对两类问题最小风险贝叶斯决策示例最小风险贝叶斯决策示例上一节的例子检验呈阳性者患病概率是0.323若按最小错误率决策:正常ω2采用最小风险决策,需要用到损失函数损失的评估是个关键问题宁可虚惊一百不可漏诊一人最小风险贝叶斯决策的讨论除了知道最小错误贝叶斯决策也需要的先验概率和类条件概率外,损失函数的确定往往也是一个难题与最小错误贝叶斯决策的关系差别在于是否考虑风险,即错误损失最小风险决策可看作加权形式的最小错误决策,加权值即损失函数取特定形式时二者可能等价,如损失函数取0-1形式定义损失函数2.2.3限定一类错误率,使另一类错误率最小条件极值问题利用拉格朗日乘子法将条件极值转化为无条件极值条件极值问题似然比——决策规则比较最终结果的似然比表示形式最小错误率Bayes决策的表示形式最小风险Bayes决策的表示形式似然的含义似然——likelihood表明在其他条件都相等的情况下,使得较大的更有可能是真实的类别(|)ipxi2.2.4最小最大决策以两类情况下的最小风险Bayes决策为例进行讨论损失状态211211122122自然状态分类决策(,)ijij11111221212211222122()()()()()()()()()()RPPRRRPPRRxxxxxxxxxx(())()RRpdxxxx总风险公式1212()()()()RRRRpdRpdxxxxxx假定决策域已经确定,我们以表示分类器判为时的特征空间中的区域,同样有和,于是总风险用条件风险的形式表示为1R12R212111122211222()()()()()()RRRPPpdPPpdxxxxxxxx11111222211222()()()()()()RPPRPPxxxxxx121111122221112222()()()()()()()()RRRPpPpdPpPpdxxxxxx122111()1()()()1RRPPpdpdxxxx1212212222111222111112222()()()()()()()()RRRRpdPpdpdxxxxxx1211221222211222111112222()()()()()()()()RRRRabPapdbpdpdxxxxxx一旦和确定,风险就是先验概率的线性函数,可表示为1R2RR1()P由于)(1P在0和1之间取值,所以期望风险有baRa•由上式可见,当类条件概率密度、损失函数ij、类域Ri取定后,R是P(1)的线性函数。•考虑P(1)的各种可能取值情况,为此在区间(0,1)中取若干个不同的P(1)值,并分别按最小损失准则确定相应的最佳决策类域R1、R2,然后计算出其相应的最小平均损失R*,从而可得最小平均损失R*与先验概率P(1)的关系曲线。1()RabP最小最大决策图示最小风险R*与先验概率的关系曲线先验概率取固定值的最小风险先验概率为的最小风险分类结果对应各种先验概率的风险变化1()RabP*1()aP为何为切线?尽管对应的最小风险相对其他先验概率最大,但不管先验概率如何变化,此种分类风险恒定,从而使所有可能的最大风险最小化*1()bP小结:各种情况下的方法选择在某些实际问题中,可能存在以下几种情况:⑴不知道各类的先验概率)(iP⑵难于确定误判的代价ij⑶某一种错误较另一种错误更为重要针对⑴,可以采用最小最大损失准则或简单令各类先验概率相等针对⑶,N-P准则针对⑵,如果允许的话,可以避开使用损失函数而采用最小误判概率准则2.2.5分类器、判别函数及决策面应用前述Bayes决策规则,设计分类器对观察量实施分类用于表达决策规则的某些函数称为判别函数;是直接用来对模式样本进行分类的准则函数对于c类问题,按照决策规则把d维特征空间分成c个决策域,划分决策域的边界面称为决策面多类问题——最小错误率决策规则多类问题——判别函数多类问题——决策面多类问题——分类器…1()gx1x2xdx1g…cg2g2()gx()cgxmax()x两类情况——决策规则两类问题——判别函数两类问题——决策面两类问题——分类器11X21X11…1x2xdx()gx例题:教材23页,套公式2.3正态分布时的统计决策贝叶斯分类器的结构可由条件概率密度和先验概率来决定最受青睐的密度函数——正态分布,也称高斯分布合理性:中心极限定理表明,在相当一般的条件下,当独立随机变量的个数增加时,其和的分布趋于正态分布简易性2.3.1正态分布的定义及性质单变量正态分布由两个参数完全确定,即均值和方差()()Exxpxdx222()()()Exxpxdx211()exp22xpx正态分布概率密度函数在整个定义域上积分为1服从正态分布的样本聚集在均值附近,其散布程度与标准差(方差)有关3223,0多元正态分布1/21/211()exp[()()](2)||2Tnpxxx()Ex[()()]TExx均值向量协方差矩阵多元正态分布的概率密度函数定义协方差矩阵的计算()TTExx[()()]TExx()()11NTTkkxxkxxmmN123[0,0,1][0,1,0][1,0,0]TTTxxx21111219112计算公式,计算协方差矩阵。已知协方差矩阵的性质对称非负定阵元素正负?元素含义:对角线和非对角线协方差:用来度量变量之间“协同变异”大小的总体参数,即二者相互影响大小的参数;绝对值越大,相互影响越大对角阵情形;去相关222111212222122222212nndddd多元正态分布的性质均值向量和协方差矩阵共同决定分布均值向量有d个分量协方差矩阵独立元素个数为d(d+1)/2多元正态分布由d+d(d+1)/2个参数完全决定,常表示为()~(,)pxN多元正态分布的性质等密度点的轨迹是超椭球面112211()exp2(2)Tdpxxx多元正态分布的性质马氏距离:到的Mahalanobis距离等密度点轨迹是到均值向量的马氏距离为常数的超椭球面样本离散度由决定;同单变量正态分布类似,方差影响样本分布的疏密程度121()()Txxx椭圆主轴的确定11221211()exp2(2)TdTpxxxxx12Txx为简单处理,将椭球中心移至