第5讲基于统计决策的分类方法要点:统计决策的基本思想基于最小错误概率的Bayes决策基于最小风险的Bayes决策最小最大决策Neyman-Pearson决策统计决策的基本思想假定类先验概率,类条件概率等信息已知利用概率理论把特征空间分割成若干区域,使每个区域对应一个模式类别目标是使分类的错误率尽可能小,或者,使分类错误的平均代价最小。返回类先验概率举例考虑从传送带送过来的鱼:鲈鱼和鲑鱼设表示鱼的类别状态:=1时表示鲈鱼,=2时表示鲑鱼类别状态是不确定的,是一个随机变量返回鱼的类别的先验概率假定是鲈鱼的先验概率为P(1),是鲑鱼的先验概率为P(2),显然:P(1)+P(2)=1先验概率反映了对鱼的类别的先验知识,它可能取决于季节的不同或捕鱼地点的不同。返回类条件概率举例除了利用类先验概率,还可以利用可观测量的类条件概率来提高分类器的性能对于鲈鱼和鲑鱼来说,一个可用的观测量是光泽度指标x。假定x是一个连续随机变量,其分布取决于类别状态,表示成p(x|),这就是“类条件概率密度”(class-conditionalprobabilitydensity),或称为关于x的似然函数。返回鱼的类条件概率密度p(x|1)和p(x|2)分别表示鲈鱼和鲑鱼的光泽度概率密度函数。返回基于最小错误概率的Bayes决策两类最小错误率Bayes决策多类最小错误率Bayes决策返回两类最小错误率Bayes决策鲈鱼和鲑鱼的分类特征空间的划分两种可能的错误及总的错误率最大正确识别率最小误判准则及最大后验概率准则应用举例返回鲈鱼和鲑鱼的分类如果只使用先验概率对鲈鱼和鲑鱼分类,则合乎逻辑的判决规则是:如果P(1)P(2),则判为1,否则判为2。如果同时使用先验概率和类条件概率对鲈鱼和鲑鱼分类,那么合理的判决规则是:如果P(1|x)P(2|x),则判为1,否则判为2。其中P(1|x)和P(2|x)称为后验概率。返回后验概率的计算处于类别i并具有特征值x的模式的联合概率密度可写成两种形式:可用贝叶斯公式计算后验概率:示意图其中返回)()|()()|(),(iiiiPxpxpxPxp21)()|()(iiiPxpxp)()()|()|(xpPxpxpiii鲈鱼和鲑鱼的后验概率P(1|x)和P(2|x)分别表示鲈鱼和鲑鱼的光泽度后验概率。返回当x=14时,P(2|x)=0.08,P(1|x)=0.92.特征空间的划分假定模式类1和2分别对应于特征空间D中的两个待求划分子区域D1和D2:其中表示空集。当xD1时,判决x1类;当xD2时,判决x2类。返回1212,DDDDD两种可能的错误一种是把实属1类的模式判决成属于2类,另一种是把实属2类的模式判决成属于1类,误判概率可以分别表示为:返回2)(112Ddxxp1)(221Ddxxp总的错误率设1和2类出现的概率分别为P(1)和P(2),则总的误判概率(错误率)P(e)是错误率计算示意图返回1212)()()()()()()()()()()(22112211212121DDDDdxxpPdxxpPdxxpPdxxpPPPeP错误率计算示意图P(2)21txD1D2P(1)12p(x|1)P(1)p(x|2)P(2)返回最大正确识别率使误判概率最小等价于使正确分类识别概率P(c)最大,即:max)|()()|()()(212211DDdxxpPdxxpPcP*2*12121)|()()|()()]|()(),|()(max[])|()()|()([max)](max[221122112211,DDDDDDDdxxpPdxxpPdxxpPxpPdxxpPdxxpPcP返回最小误判准则在时,P(c)达到最大。由此得到最小误判准则如下:返回)|()()|()()|()()|()(2211*22211*1xpPxpPxDxpPxpPxD.),|()()|()(;),|()()|()(2221112211xxpPxpPxxpPxpP则判决如果则判决如果最大后验概率准则根据Bayes定理:可得最大后验概率准则:返回)|()()|()(iiixpPxPxp.),|()|(;),|()|(221121xxpxpxxpxp则判决如果则判决如果应用举例假设在某个局部地区细胞识别中正常1和异常2两类的先验概率分别为正常状态:P(1)=0.9,异常状态:P(2)=0.1现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得试对该细胞x进行分类。求解过程返回4.0)|(,2.0)|(21xpxp求解过程因为根据最大后验概率准则,应把x归于正常状态。返回182.0)|(1)|(818.01.04.09.02.09.02.0)()|()()|()|(1221111xPxPPxpPxpxPjjj)|()|(21xpxp多类最小错误率Bayes决策设有c个类别1,2,…,c,样本X是d维随机向量,p(X|j)是X在j状态下的类条件概率密度,P(j)是先验概率,后验概率为其中最大后验概率准则为:如果P(i|X)P(j|X)对于一切ij成立,则决策Xi。返回)()()|()|(XPPXpXPjjjciiiPXpXp1)()|()(基于最小风险的Bayes决策什么是损失损失的表示方法风险分析的概率条件条件风险,总风险和Bayes风险最小风险Bayes决策的缺点两类最小风险Bayes决策返回什么是损失分类错误会带来损失。不同的分类错误带来的损失通常是不一样的。例如,如果把正常细胞误分类成癌变细胞,就可能会使正常人在一定时期内产生不必要的负担,造成一定的损失;而如果把真正癌变细胞误分类为正常的细胞的话,则会延误医治,给病人造成不可挽回的损失。返回损失的表示方法设A={1,2,…,r}是r个可能的动作的有限集合;={1,2,…,c}是c个类别状态的集合;用(i|j)表示当类别状态为j时,采取动作i所造成的损失。采取动作i通常相当于结果识别为i,但有时表示其他情况,比如拒绝决策。此外,损失还可以用决策表来描述。返回损失决策表举例返回自然状态损失动作正常1癌变2正常106癌变210风险分析的概率条件设样本X是d维随机向量,P(j)是类别状态j的先验概率,p(X|j)是类条件概率密度;由Bayes法则可求得后验概率:其中返回)()()|()|(XPPXpXPjjjciiiPXpXp1)()|()(条件风险假定观察到一个X,同时决定采取动作i,如果真正的状态为j,就会导致产生损失(i|j)。同采取的动作i有关的损失的数学期望是:R(i|X)称为条件风险。特例返回cijjiiXpXR1)|()|()|(条件风险的特例当损失为“0-1损失”或“对称损失”时,即:条件风险为返回cjjijiji,...,2,1,,1,0)|()|(1)|()|()|()|(1XPXPXPXRiijjcjjjii总风险如果将观察到一个X时采取的决策记为(X)(决策函数),那么总的风险可以表示为:返回dXXpXXRR)()|)((Bayes风险最小化后的总风险R*称为Bayes风险。如果对每个X都采取使条件风险最小的动作(X),则总风险R就会达到最小。最小风险的Bayes决策规则为:如果,则决策=k。特例返回)|(min)|(,...,2,1XRXRirikBayes风险的特例当损失为“0-1损失”或“对称损失”时,因为条件风险为所以最小风险Bayes决策等价于最小错误率Bayes决策。返回)|(1)|(XPXRii最小风险Bayes决策的缺点使用最小风险Bayes决策的关键是如何决定损失函数R(i|X),要在实际问题中正确地决定它通常是很困难的。返回两类最小风险Bayes决策两类问题的条件风险两类问题的决策法则两类问题的决策举例返回两类问题的条件风险对于两类问题,动作1相当于决策“真正状态为1”,而动作2相当于决策“真正状态为2”。如果记ij=(i|j)表示当真正状态为j而把i误作真正状态时所受到的损失,那么两类问题的条件风险可以表示为返回)|()|()|()|()|()|(22212122121111XPXPXRXPXPXR两类问题的决策法则如果,则判定1为真正的状态;否则2为真正的状态。其它等价法则返回)|()|(21XRXR两类问题的其它决策法则如果或或那么判决为1,否则为2。返回)|()()|()(2221211121xPxP)()|()()()|()(222212111121PxPPxp0,)()()|()|(1121121121221221PPxpxp两类问题的决策举例已知细胞x满足试用最小风险Bayes决策判定x是正常细胞还是异常细胞。求解过程返回0,1,6,0;4.0)|(,2.0)|(;1.0)(,9.0)(222112112121xPxPPP求解过程由Bayes公式易得后验概率为:返回条件风险为:因,故采取决策行动2,即判断待识细胞为2异常细胞。182.0)|(,818.0)|(21xPxP818.0)|()|(092.1)|()|()|(121221212211xPxRxPxPxRjj)|()|(21XRXR最小最大决策解决的基本问题先验概率可变时的风险表示最小化最大风险最小最大决策规则最小最大决策的优缺点返回解决的基本问题在最小错误率和最小风险Bayes决策中,先验概率是不变的。在先验概率可变的条件下如何进行决策,是最小最大决策要解决的基本问题,这时必须设计在整个先验概率范围上都能很好地进行操作的分类器。举例返回先验概率可变的问题举例在鱼分类问题中,可以设想光泽度和宽度等物理属性是恒定不变的,然而先验概率可能变化范围较大,并且以一种不确定的方式出现,也可能根本就不知道任何关于先验概率的知识。这时在设计分类器时就应该使任何先验概率值所引起的总风险的最坏的情况尽可能小,即最小化最大可能的总风险。返回先验概率可变时的风险表示考虑两类问题,设1和2表示分类器在特征空间中对应于1和2的区域,总的风险可以表示为:利用可以对上式进行改写。dXXpPXpPdXXpPXpPR21)]|()()|()([)]|()()|()([2222112122121111211)|()|(1)()(21dXXpdXXpPPii改写后的风险表示其中当类条件概率密度已知、损失函数ij选定、相对某一先验概率P(1)取定最佳的1和2后,a和b就是常数。返回)(1bPaR1)]|()(2221222dXXpa21)|()()|()()(22212111212211dXXpdXXpb最小化最大风险用R*表示实际最小总风险,则R*可以看作P(1)的函数