第二章贝叶斯决策理论§2.1基于最小错误率的贝叶斯判别法§2.2基于贝叶斯公式的几种判别规则§2.3正态分布模式的统计决策§2.4概率密度函数的估计§2.5贝叶斯分类器的错误概率第二章贝叶斯决策理论模式识别的分类问题就是根据待识客体的特征向量值及其它约束条件将其分到各个类别中去。贝叶斯决策理论是处理模式分类问题的基本理论之一。贝叶斯分类器在统计模式识别中被称为最优分类器。贝叶斯分类器分类器必须满足下列两个先决条件:1,要决策分类的类别数是一定的;2,各类别总体的概率分布是已知的。§2.1基于最小错误率的贝叶斯判别法Bayes分类器—最优分类器、最佳分类器一、两类问题例如:细胞识别问题ω1正常细胞,ω2异常细胞某地区,经大量统计获先验概率P(ω1),P(ω2)若取该地区某人细胞x属何种细胞,只能由先验概率决定。这种分类器决策无意义221121),()(),()(xPPxPP对x再观察:有细胞光密度特征,其类条件概率密度:P(x/ωί)ί=1,2,…。如图所示,(也称为后验概率)21)()()()()(jjjiiiPxPPxPxP通过对细胞的再观察,就可以把先验概率转化为后验概率,利用后验概率可对未知细胞x进行识别。利用贝叶斯公式:)(1xP)(2xPx条件概率密度分布)(ixP221121),()(),()(xxPxPxxPxP则若则若)(1xP)(2xPx2.04.06.08.00.1后验概率分布)(xPi设N个样本分为两类ω1,ω2。每个样本抽出n个特征,x=(x1,x2,x3,…,xn)T1、判别函数:若已知先验概率P(ω1),P(ω2),类条件概率密度P(x/ω1),P(x/ω2)。则可得贝叶斯判别函数四种形式:)()()(21xgxgxg)(,)()(ln)()(ln)()4()(,)()()()()()3()(),()()()()()2()(),()()()1(12211221221121取对数方法似然比形式类条件概率密度后验概率PPxPxPxgPPxPxPxgPxPPxPxgxPxPxg2、决策规则:2112212112212122112121)()(ln)()(ln)()4()()()()()3()()()()()2()()()1(xPPxPxPxgxPPxPxPxPxPPxPxxPxP3、决策面方程:g(x)=0x为一维时,决策面为一点,x为二维时决策面为曲线,x为三维时,决策面为曲面,x大于三维时决策面为超曲面。例:某地区细胞识别;P(ω1)=0.9,P(ω2)=0.1未知细胞x,先从类条件概率密度分布曲线上查到:解:该细胞属于正常细胞还是异常细胞,先计算后验概率:P(x/ω1)=0.2,P(x/ω2)=0.4用。所以先验概率起很大作因为属正常细胞。因为),()(),()(182.0)(1)(818.01.04.09.02.09.02.0)()()()()(211211221111PPxxPxPxPxPPxPPxPxPjjjg(x)nxxxX...21特征向量判别计算决策21x阈值单元4、分类器设计:二、多类情况:ωί=(ω1,ω2,…,ωm),x=(x1,x2,…,xn)1.判别函数:M类有M个判别函数g1(x),g2(x),…,gm(x).每个判别函数有上面的四种形式。2.决策规则:),...,2,1(,)()(max)()()(1MixPxPPxPxgijjMjiiiiijMjiiixPxPPxPxg)(ln)(lnmax)(ln)(ln)(1另一种形式:3、决策面方程:0)()(),()(xgxgxgxgjiji即g1(x)Maxg(x)nxxxX...21特征向量判别计算决策ixg2(x)gn(x)最大值选择器...4、分类器设计:贝叶斯公式可以有几种形式的判别法则,针对具体问题可以选取合适的形式。不管选取何种形式,其基本思想均是要求判别归属时依概率最大作出决策,这样的结果就是分类的错误率最小。贝叶斯分类器遵循最小错误贝斯决策规则很明显,各类别在多维特征空间中为决策面或界面所分割。这些决策面是特征空间中的超曲面。相邻的两个类别在决策面上的判别函数值是相等的。如果ωi和ωj是相邻的,则分割它们的决策面就应为di(x)=dj(x)或di(x)-dj(x)=0对于两类问题,决策面方程:P(x|ω1)P(ω1)-P(x|ω2)P(ω2)=0§2.2基于贝叶斯公式的几种判别规则一、基于最小风险的贝叶斯决策在某些情况下,引入风险的概念,以求风险最小的决策则更为合理。例如对癌细胞的识别,要判断某人是正常(ω1)还是患者(ω2),在判断中可能出现以下情况:判对(正常→正常)λ11;判错(正常→异常)λ21;判对(异常→异常)λ22;判错(异常→正常)λ12。风险的概念比错误率似乎更恰当。识别的正确与否,直接关系到病人的身体甚至生命。风险的概念常与损失相联系,损失则用损失函数表示。1.损失函数:损失函数公式:mjaiwji,2,1,,2,1,,ji意义:表示当处于状态时且采取决策所带来的损失。损失函数λii=λ(αi/ωi)表示模式X本来属于ωi类而错判为ωi所受损失。因为这是正确判决,故损失最小。损失函数λij=λ(αi/ωj)表示模式X本来属于ωj类错判为ωi所受损失。因为这是错误判决,故损失最大。状态损失决策ω1ω2…ωj…ωmα1……α2…………αi…………αα……11,表示:在决策论中,常以决策表表示各种情况下的决策损失。12,1,i1,21,22,2,i2,j,1j,2ji,j,m,1m,2mi,m,2.风险R(期望损失):对未知x采取判决行动α(x)所付出的代价(损耗)行动αi:表示把模式x判决为ωi类的一次动作。条件风险:将模式x判属某类所造成的损失的条件数学期望。已知先验概率P(ωj)及类条件概率密度P(x|ωj),j=1,2,…m。根据贝叶斯公式,后验概率为xPPxPxPjjj|)|(iimiPxPxP|1其中当引入“损失”的概念,考虑错判所造成的损失时,就不能只根据后验概率的大小来作决策,而必须考虑所采取的决策是否使损失最小。对于给定的x,如果采取决策,从决策表可见,对应于决策,可以在m个,j=1,2,…m当中任取一个,其相应概率为P(ωj|x)。因此在采取决策情况下的条件期望损失即条件风险为:iiji,xRi|i条件风险R(αi|x)只反映对某一x的取值采取决策αi所带来的风险。可以用来判别分类。).(,...,2,1,1maaixPExRjmjjijii期望风险R式中dx是特征空间的体积元,积分在整个特征空间进行。(在整个特征空间中定义期望风险)。期望风险R反映对整个特征空间所有x的取值采取相应的决策α(x)所带来的平均风险。对于x的不同观察值,采取决策αi时,其条件风险的大小是不同的。所以,究竟采取哪一种决策将随x的取值而定。决策α可以看成随机向量x的函数,记为α(x)。)(,平均风险dxxPxxRR4.最小风险贝叶斯决策思想:分类识别决策时,根据类的概率和概率密度,考虑误判的损失代价。决策应是统计意义上使由于误判而蒙受的损失最小。如果在采取每一个决策或行动时,都使其条件风险最小,则对所有的x作出决策时,其期望风险也必然最小。(条件平均损失最小的判决也必然使总的平均损失最小。)kaiikaaxRxR则:|min|,2,15.最小风险贝叶斯决策规则如果:kx6.判决实施步骤:(1)在已知P(ωj),P(x|ωj),j=1,2,…m,并给出待识别的x的情况下,根据贝叶斯公式计算出后验概率:iimijjjPxPPxPxP|||1j=1,2,…m(2)利用计算出的后验概率及决策表,计算出采取αi(i=1,2,…α)的条件风险。xRi|(3)按确定αk--最小风险贝叶斯决策aixRxRik,2,1|min|kx最小风险贝叶斯决策除了要有符合实际情况的先验概率P(ωj)及类条件概率密度P(x|ωj)外,还必须要有合适的损失函数。实际工作中要列出合适的决策表很不容易,往往要根据所研究的具体问题,分析错误决策造成损失的严重程度来确定。7.错误率最小的贝叶斯决策规则与风险最小的贝叶斯决策规则的联系在采用0-1损失函数时,最小风险贝叶斯决策就等价于最小错误率贝叶斯决策。0-1损失函数jijiji,1,0,对于正确决策(即i=j),=0,就是说没有损失;而对于任何错误决策,其损失均为1ji,二类问题:把x归于ω1时风险:把x归于ω2时风险:作用。较大,决策损失起决定=因类风险大。因决策异常细胞因为条件风险:概率:由上例中计算出的后验,曲线上查的从类条件概率密度分布异常为概率为例:已知正常细胞先验6,)()(818.0)()(092.1)()()(182.0)(,818.0)(0,1,6,04.0)(,2.0)(,1.0)(,9.0)(1212112122121211212221121121xxRxRxPxRxPxPxRxPxPxPxPPPjjjii)()()()()()(22212122121111xPxPxRxPxPxR分类器。这时便得到最小错误率最大,最小,就相当于后验概率时时函数用最小风险分类规则:)()()(1)()()()()(,1,0)(:10)()()()()(1121221211121121xPxRxPxPxPxPxRjijixxPxxRxRiiijjjijijijjMiiijjj二、聂曼-皮尔逊决策法(N-P判决)1.问题的提出:(1)某些二类判决问题,某一种错误较另一种错误更为重要—危害更为严重。(2)先验概率未知。2.基本思想:严格限制较重要的一类错误概率,在令其等于某常数的约束下使另一类误判概率最小。•例如在癌细胞识别中,我们已经认识到把异常误判为正常的损失更为严重,常常要求这种误判为错误率P2(e)很小,即P2(e)=是一个很小的常数,在这种条件下再要求P1(e)即把正常误判为异常的错误率尽可能地小。所以这样的决策可看成是在P2(e)=0条件下,求P1(e)极小值的条件极值问题。00,3.决策规则按Lagrange乘子法建立如下数学模型:•r=P1(e)+(P2(e)-0)211|RdxxPeP122|RdxxPePR1是类别ω1的区域,R2是类别ω2的区域,而R1+R2=Rs,Rs为整个特征空间。也就是说,决策作出之后,整个特征空间分割成不相交的两个区域R1和R2,若样本x落入R1,就判定属于ω1类,反之则属于ω2类。根据类条件概率密度的性质,有:dxxPdxxPRR11|1|12•由此式分别对x和求导,令dxxPxPdxxPdxxPrRRR120021||1||112