第2章贝叶斯决策理论Chapter2:Bayesiandecisiontheory2019/12/20模式(样本)的表示方法1.向量表示:假设一个样本有n个变量(特征)Ⅹ=(X1,X2,…,Xn)T2.矩阵表示:N个样本,n个变量(特征)变量样本x1x2…xnX1X11X12…X1nX2X21X22…X2n……………XNXN1XN2…XNn2019/12/203.几何表示一维表示X1=0.5X2=3二维表示X1=(x1,x2)T=(1,2)TX2=(x1,x2)T=(2,1)T三维表示X1=(x1,x2,x3)T=(1,1,0)TX2=(x1,x2,x3)T=(1,0,1)T本章主要内容2.1基于最小错误率的贝叶斯决策2.3正态分布时的贝叶斯统计决策2.2基于最小风险的贝叶斯决策2.4分类器的错误率问题2.1基于最小错误率的贝叶斯决策2.1.1预备知识1、用向量来表示模式12345转化成列向量0101000123353433010011“1”模式:一些供比对用的、“标准”的样本。特征提取35模式“1”的图片1122,Txxxxx2、高维积分xPdxx已知模式(样本):Pxdx一维积分:高维积分:二重积分:若推广1122,Txxxxx2121),(dxdxxxP条件概率密度若有两个随机变量X和Y,它们的联合概率密度为,(,)fxy变量X和Y各自的边缘概率密度为和,则在条件()Xfx()YfyY=y下,X的条件概率密度为|,(|)(|)XYYfxyfxyfxyfy3、条件概率定义:)()()|(APABPABP)|()()(ABPAPABP即:4、全概率公式定义:设事件是样本空间的一个划分,B是任意一事件,则nAAA...,,21niiiABPAPBP1)|()()(现在进行一次试验,如果B确定发生了,那么这一重要的补充信息可以使我们对事件的概率重新估计,则:在已知B发生的条件下,求出的概率,这个概率称为后验概率。)|(BAPiiAiA5、贝叶斯公式(利用了条件概率和全概率公式)贝叶斯公式DP|ww|DPwP后验似然(样本信息)先验||PDPPDPD贝叶斯推理贝叶斯公式的另一种形式:1||||iiiiiniiiPDPPDPPDPDPDP)()()|()()()|(DPWPWDPDPWDPDWP||iiiPDPPDPD由贝叶斯公式衍生出贝叶斯决策、贝叶斯估计、贝叶斯学习等诸多理论体系,进而形成一个贝叶斯学派;贝叶斯公式:(1763年提出)贝叶斯公式由于其权威性、一致性和典雅性而被列入最优美的数学公式之一;贝叶斯公式的两个创新点:(1)用概率表示所有形式的不确定性;(2)例如天气预报时,“今天下雨的概率是85%”比直接预测“今天下雨”要更科学;引入了“先验”与“后验”的概念;先验概率:预先已知的或者可以估计的模式识别系统位于某种类型的概率。根据大量统计确定某类事物出现的比例,如我国理工科大学男女生比例大约为8:2,则在这类学校一个学生是男生的先验概率为0.8,而为女生的概率是0.2,这两类概率是互相制约的,因为这两个概率之和应满足总和为1的约束。P(男生)后验概率:一个具体事物属于某种类别的概率.例如一个学生用特征向量X表示,它是男性或女性的概率表示成P(男生|X)和P(女生|X)这就是后验概率。由于一个学生只可能为两个性别之一,因此有P(男生|X)+P(女生|X)=1的约束,这一点是与类分布密度函数不同的。后验概率与先验概率也不同,后验概率涉及一个具体事物,而先验概率是泛指一类事物,因此P(男生|X)和P(男生)是两个不同的概念。先验与后验2.1.1预备知识(续)贝叶斯公式:||PDPPDPDwpDpwwMPw例:利用贝叶斯公式求的最大值:x先验后验先验概率:是指根据历史资料或主观判断所确定的事件发生的概率,该类概率没有经过实验证实,属检验前的概率。后验概率:进行实验后,事件发生的概率。贝叶斯公式在推理中融入了先验,即融入了对事物既有的一些认识:2.1.1预备知识(续)6、分类错误率x分类错误率=被错分的样本数/样本总数分类方案一分类方案二在分类中,希望分类错误率尽可能地小。2.1.2最小错误率贝叶斯决策的前提1w2w(1)要决策分类的类别数是一定的;前提:(2)每一类出现的“先验概率”已知;类类1Pw2Pw即已知(3)每一类的“类条件概率密度”已知;1|Pwx2|Pwx即已知x待解决的分类问题:与1w2w类类x待解决的分类问题:2.1.3最小错误率贝叶斯决策规则决策规则(样本只有两类时):12||PwPwxx21||PwPwxx1wx2wx如果如果则则||iiiPwPwPwPxxx先验概率已知类条件概率密度已知1,2ix可能属于类也可能属于类。1w2w2.1.4最小错误率贝叶斯决策规则应用实例例细胞识别假设在某个局部地区细胞识别中,正常()和异常()两类的先验概率分别为正常状态:P()=0.9;异常状态:P()=0.1.现有一待识别的细胞,其观察值为,从类条件概率密度分布曲线上查得P(x|)=0.2,P(x|)=0.4.试对该细胞x进行分类。解:利用贝叶斯公式,分别计算出及的后验概率。P(|x)=P(|x)=1-P(|x)=0.18221818.01.04.09.02.09.02.0)()|()()|(2111jjjPxpPxp1212211212w类1w类xx2.1.4最小错误率贝叶斯决策规则应用实例(续)类条件概率密度(已知)1|Pwx2|Pwx后验概率密度(待求)1|Pwx2|Pwx2w类1w类xxx根据上图决策2.1.4最小错误率贝叶斯决策规则应用实例(续)⑴为什么类条件概率密度是已知的x“类条件概率密度”是指系统位于某种类型条件下,模式样本的概率密度函数。一般而言,同一类事物的某个属性都有一定的变化范围,在这个变化范围内的分布密度可用一种函数形式表示。2w类1w类例如对于细胞识别而言,假设是血红素浓度,则表示正常血细胞的血红素浓度的分布情况。该分布可以事先测定,因此是已知的。正常血细胞异常血细胞x1|Pwx2.1.4最小错误率贝叶斯决策规则应用实例(续)⑵为什么先验概率是已知的例如在某个局部地区(比如一个县)细胞识别中,要根据血红素浓度的测量值判定其为正常血细胞或者是异常血细胞(例如白血病血细胞)。2w类1w类正常血细胞异常血细胞1Pw2Pwx该县正常人的比例;该县白血病患者的比例;上述比例关系可根据往年病历资料统计大致得到,因此可以看作是已知的。上述比例关系尽管可能是近似的,但对决策准确程度的影响并不是直接的,这也是贝叶斯决策的一个优点。2.1.5决策规则使错误率最小的理论证明前面给出了最小错误率贝叶斯决策规则,但尚未证明按这种决策规则进行分类确实能使分类错误概率最小。下面以一维情况完成证明,其结果不难推广到多维。()()()PePexpxdx1、平均错误率:()Pex(是的期望)见(2-6)的概率密度x3、对进行分类(决策)时的错误见(2-7)式x2、决策规则(两类时):12||PwxPwx21||PwxPwx1xw2xw如果如果则则(2-6)7)-(2,,6)-(2,212121xPxPxPxPxPxPxePdxxpxePdxxePeP当当2.1.5决策规则确实使错误率最小的理论证明(续)t页最小?书为什么决策规则使)得)代入(是两类的分界面,将(设12)(,,627211221122112221122111221221ePePPePPdxxpPdxxpPPRxPPRxPRxPRxPePdxPxpdxPxpdxxpxPdxxpxPePtRRttttx决策错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小。()Pex值。是最小的可以解出由如图所示。的错误率的先验概率加权就是总两种错误率用相应类别;第一类的错误率是把第二类样本决策为;第二类的错误率是把第一类样本决策为其中可以写成:是两类的分界面,设)()()|()()|(,,,221122111122112211222112211122121221tepwpwxpwpwxpdxxpePdxxpePePPePPdxxpPdxxpPPRxPPRxPRxPRxPePdxPxpdxPxpdxxpxPdxxpxPePtRRRRtttt值。是最小的可以解出由如图所示。的错误率的先验概率加权就是总两种错误率用相应类别;第一类的错误率是把第二类样本决策为;第二类的错误率是把第一类样本决策为其中。布后就是平均错误率再考虑到样本自身的分就是出现的错误概率但属于第一类的概率中样本在加上但属于第二类的概率中样本在和第二个区域分别为第一个区域轴分成两个区域决策边界把)()()|()()|(,,,)(,,,,,,2211221111221122112221122121211221tepwpwxpwpwxpdxxpePdxxpePePPePPdxxpPdxxpPPRxPPRxPRxPRxPePepRRRRxRRRRt2.1.6最小错误率贝叶斯决策规则向多类的推广决策规则(样本只有两类时):12||PwPwxx21||PwPwxx1wx2wx如果如果则则()()ijPPXX决策规则(样本有多类时):1w2w类类x1w2w类类x3w类如果ij对于一切成立,iwx则2.2基于最小风险的贝叶斯决策2.2.1为什么要引入基于风险的决策基于最小错误率的贝叶斯决策12||PwPwxx21||PwPwxx1wx2wx如果如果则则误判为:误判为:2wx1wx错误率:2|Pwx错误率:1|Pwx基于最小错误率的贝叶斯决策只关注错误率,并不关注因误判而带来的风险。但在实际应用中考虑风险是很重要的。“风险”的适用范围比错误率更广泛,它引入了“损失”的概念。即考虑了因误判而带来的损失。例:细胞识别2w类1w类正常血细胞异常血细胞把正常血细胞误判为异常血细胞会给人带来不必要的痛苦;但若将异常血细胞误判为正常血细胞,则会使病人因失去及早治疗的机会而遭受极大的损失。2.2.2几个概念(6个)设观察x是d维随机向量,其中为一维随机变量。1、状态空间:(c个自然状态,c类组成)2、决策空间:(a个决策)注意:a=c或者a=c+1(拒绝)Tdxxxx],,,[21dxxx,,,21c,,,21a,,,211wx2wx本来误判为:误判为:2wx1wx错误率:2|Pwx错误率:1|Pwx本来造成的损失:造成的损失:21,w12,w,ijw把模式判决为类的一次决策;xiw模式属于类,现却将之判决为类而带来的损失;xjwiw3、损失函数:(真实状态为,决策为)),(jiji状态损失决策ω1ω2α1α211