基于贝叶斯决策理论的分类器(1)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第二章基于贝叶斯决策理论的分类器ClassifiersBasedonBayesDecisionTheory§1引言§2Bayes决策理论最小错误率的贝叶斯决策最小风险的贝叶斯决策§3Bayes分类器和判别函数§4正态分布的Bayes决策§1引言•模式识别是根据对象特征值将其分类。d个特征组成特征向量x=[x1,···,xd]T,生成d维特征空间,在特征空间一个x称为一个模式样本。•Bayes决策理论是用概率统计方法研究决策问题。⒈为什么可用Bayes决策理论分类?⑴样本的不确定性:①样本从总体中抽取,特征值都是随机变量,在相同条件下重复观测取值不同,故x为随机向量。②特征选择的不完善引起的不确定性;③测量中有随机噪声存在。⑵另一方面从样本的可分性来看:•当各类模式特征之间有明显的可分性时,可用直线或曲线(面)设计分类器,有较好的效果。•当各类别之间出现混淆现象时,则分类困难。这时需要采用统计方法,对模式样本的统计特性进行观测,分析属于哪一类的概率最大。此时要按照某种判据分类,如,分类错误发生的概率最小,或在最小风险下进行分类决策等。⒉三个重要的概率和概率密度先验概率、类条件概率密度函数、后验概率。⑴先验概率P(wi)由样本的先验知识得到先验概率,可从训练集样本中估算出来。例如,两类10个训练样本,属于w1为2个,属于w2为8个,则先验概率P(w1)=0.2,P(w2)=0.8。⑵类条件概率密度函数p(x|wi)模式样本x在wi类条件下,出现的概率密度分布函数。也称p(x|wi)为wi关于x的似然函数。•在本章中均假设已知上述概率和概率密度函数。⑶后验概率P(wi|x)定义为某个样本x,属于wi类的概率,i=1,···,c。•如果用先验概率P(wi)来确定待分样本x的类别,依据显然是非常不充分的,须用类条件概率密度p(x|wi)来修正。•根据样本x的先验概率和类条件概率密度函数p(x|wi)用Bayes公式重新修正模式样本所属类的概率,称后验概率P(wi|x)。3.用Bayes决策理论分类时要求:①各类总体的概率分布是已知的。②要决策的类别数c是一定的。§2Bayes决策理论1.Bayes公式,也称Bayes法则2.Bayes分类规则:用后验概率分类)()|()()()()|()|()|(),(1iciiiiiiiPxpxpxpPxpxPxpP其中,全概率密度后验概率为则类条件概率密度函数已知:先验概率类属于则如果类属于则如果情况下两类221121,)()(,)()()2(类条件概率密度后验概率上图cjixxPxPPPxpxpxlxhPPxlPPxpxpxlPxpPxpxPxPxxijcji,,2,1,),|(max)|(Bayes)()(ln)|(ln)|(ln)](ln[)()()(,)()()()()()()()|()()|()|()|(Bayes,,1212112122122112121则决策:⑵多类问题的④称为似然比阈值称为似然比统计学中③②后验概率①,否则策:下述四种等价规则的决式分类规则的几种等价形⑴两类情况下的)(ln)(xlxh取)()()|()|(BayesxpPxpxPiii公式3.最小错误率的Bayes决策⑴为什么这样分类的结果平均错误率最小?在一维特征空间中,t为两类的分界面分成两个区域R1和R2,R1为(-∞,t);R2为(t,∞)。R1区域所有x值:分类器判定属于w1类;R2区域所有x值:分类器判定属于w2类。判断错误的区域为阴影包围的面积。cjixPerrorPxxPxPiijcji,,2,1,)]|(min[)(),|(max)|(,,2,1•判定错误区域及错误率真实状态w2,而把模式x判定属于w1类真实状态w1,而把模式x判定属于w2类•平均错误率P(e)•决策规则实际上对每个x都使p(e|x)取小者,移动决策面t都会使错误区域增大,因此平均错误率最小。)|()|()|()|()|()|()|(212121xPxPxPxPxPxPxeP,当,当)()()()()()()()()()(1122112221ePPePPePdxxpPdxxpPePRR⑵错误率计算:•多类时,特征空间分割成R1,···Rc,P(e)由c×(c-1)项组成,计算量大。•用平均正确分类率P(c)计算只有c项:)(1)()()|()()|()(11cPePdxPxpPRxPcPjcjRjjcjjji:细胞识别已知:正常类P(w1)=0.9;异常类P(w2)=0.1待识别细胞x,从类条件概率密度曲线上查得p(x|w1)=0.2;p(x|w2)=0.4•这种规则先验概率起决定作用。这里没有考虑错误分类带来的损失。121122111121182.0)|(818.0)|(182.0)|(1)|(818.0)()|()()|()|(BayesxxPxPxPxPPxpPxpxPjjj因此-的后验概率和公式分别计算解:利用4.最小风险的Bayes决策⑴把分类错误引起的“损失”加入到决策中去。决策论中:采取的决策称为动作,用ai表示;每个动作带来的损失,用l表示。归纳数学符号:的损失。时,采取的决策为当真实状态为表示④损失函数拒绝决策下标组成个决策由③决策空间组成类个自然状态由②状态空间,维随机向量是①ijjiacicTdacjaiacaaaaaAaciaaAccxxxxdxwlwl),,()(1},,,,{,,,2,1,},,,{)(],,[212121•一般用决策表或损失矩阵表示上述三者关系。决策表表示各种状态下的决策损失,如下表:•由于引入了“损失”的概念(即在错判时造成的损失),不能只根据后验概率来决策,必须考虑所采取的决策是否使损失最小。•对于给定的x,决策ai,l可在c个l(ai,wj)中选一个,其相应的后验概率为P(wj|x)。此时的条件期望损失,即后验概率加权和在决策论中条件期望损失称为条件风险,即x被判为i类时损失的均值。•由于x是随机向量的观察值,不同的x采取不同决策ai,其条件风险的大小是不同的。aixPaaExaRcjjjijii,,2,1)(),()],([)(1wwlwl•决策a可看成随机向量x的函数,记为a(x),它本身也是一个随机变量。•定义期望风险Rdx是d维特征空间的体积元,积分在整个特征空间。•期望风险R反映对整个特征空间上所有x的取值都采取相应的决策a(x)所带来的平均风险;而条件风险R(ai|x)只反映观察到某一x的条件下采取决策ai所带来的风险。•如果采取每个决策行动ai使条件风险R(ai|x)最小,则对所有的x作出决策时,其期望风险R也必然最小。这就是最小风险Bayes决策。dxxpxxaRR)())((⑵最小风险的Bayes决策规则:决策。就是最小风险则即决策找出使条件风险最小的进行比较,个条件风险值③上式得到的决策的条件风险采取②利用决策表,计算出;计算后验概率公式,由根据待识别的①已知:决策可按下列步骤进行最小风险则对应的决策如果Bayes),|(min)|(,,2,1),|(,,2,1),|()|()|()|()|(Bayes,),|(),(Bayes),|(min)|(,,2,11,,2,1kiaikkijcijiiiijjjkiaikaxaRxaRaaixaRaaixPaxaRxaRaxPxxpPaaxaRxaRwwl•如果只有两类的情况下这时最小风险的Bayes决策法则为:如果R(a1|x)R(a2|x),则x的真实状态w1,否则w2。•两类时最小风险Bayes决策规则的另两种形式:21121121221221212221211121)()()()()()|()()|()(;否则则决策,如果;否则则决策,如果PPxpxpxlxPxP)|()|()|()|()|()|(22212122121111xPxPxaRxPxPxaRwlwlwlwl例2:条件同例1,利用决策表,按最小风险Bayes决策分类。•这里决策与例1结论相反为异常细胞。因损失起了主导作用。l不易确定,要与有关专家商定。182.0)|(,818.0)|(101604.0)|(,2.0)|(1.0)(,9.0)(21222112112121xPxPxpxpPPwwllll得到后验概率:例已知:22112122122111),|()|(818.0)|()|(092.1)|()|()|(wwlwlwlxxaRxaRxPxaRxPxPxaRjjj所以由于条件风险例3:现有两类问题,比较两种Bayes决策。已知:单个特征变量x为正态分布两类方差都为s2=1/2,均值分别为m=0,1即求:①若先验概率P(w1)=P(w2)=1/2,计算最小错误率情况下的阈值x0。②如果损失矩阵为))1(exp(1)()exp(1)(2221xxPxxpww类条件概率密度函数015.00l计算最小风险情况下的阈值x0。])(21exp[21)(2smsxxp①最小错误概率情况下阈值x0(取对数运算)②最小风险情况下阈值x0•如果这两类不是等概率,P(w1)P(w2),阈值左移也就是说扩大最大可能类的区域。可能性大的类可产生更小的误差。21))1(exp()exp(022xxx2122ln1))1(exp(2)exp(022xxx阈值左移⑶拒绝决策•在某些情况下拒绝决策比错误判别风险要小。•样本x在各种判别条件下的平均风险•当i=c+1时,如果R(ac1|x)R(ai|x),i=1,2,···,c则对x作出拒绝判别。若此时各类拒绝判别风险相同,即都为lz,则则拒绝判别的条件为lzR(ai|x),i=1,2,···,c。aixPaxaRjcijii,,2,1),|()|()|(1wwlzcjjzjcjzcxPxPxaRlwlwl111)|()|()|(5.两种Bayes决策关系①多类问题中,若损失函数为0—1时的条件错误概率。采取决策表示对条件风险。;错误决策损失均为表示正确决策没有损失ijcijjjcijjjjicjijixxPxPxPaxaRcjijijia)()()(),()(12,1,,1,0),(111决策。最小错误概率决策等价于的最小风险使Bayes)(min)(Bayes)(min)(1,,11,,1xPxPxaRxaRjcijjcijcijjicikww②两类问题中,若有即所谓对称损失函数的情况下,这时最小风险的Bayes决策和最小错误概率的Bayes决策方法相同。6.此外还有下列三种主要的决策方法:•聂曼-皮尔逊决策:两类模式中,一类错误率为常数,另一类错误率达到极小值时的决策。•最大最小决策:考虑到先验概率有可能改变的分类方法。选择风险为最大时的P(w)来设计。•序贯分类决策:考虑特征的获取要付出一定的代价。先用一部分特征来分类,逐步加入特征以减少分类损失。11212212llll-=-§3Bayes分类器和判别函数•c类的分类问题,就是按决策规则将d维特征空间划分为c个决策区域,其边界称为决策面,用决策面方程表示。•用于表示决策规则的函数称为判别函数g(x)。c个类就有c个由d个特征组成的单值函数,即判别函数g(x)。1.Bayes决策中的判别函数gi(x)=P(wi|x)最小错误概率的决策规则gi(x)=

1 / 59
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功