最小错误概率贝叶斯(2章)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

统计判别StatisticDiscriminant主要内容1.统计判别基本概念2.贝叶斯判别原则3.正态分布模式的贝叶斯决策4.Bayes最小风险判别准则5.聂曼-皮尔逊判别准则6.最小最大损失准则统计判别基本概念简单示例:把一枚硬币记作𝒙,把一角和五角这两类分别记作𝜔1和𝜔2,用P(𝜔1)和P(𝜔2)分别表示两类出现的概率,当出现新的一枚硬币时可以做决策如果P(𝜔1)P(𝜔2),则𝒙∈𝜔1,反之𝒙∈𝜔2。只利用先验概率做出判断存在不合理,利用后验概率P(𝝎𝟏|𝒙)更合理统计判别基本概念统计决策的概念:根据样本的统计特性将样本划分到其最有可能(先验概率最大或者后验概率最大)属于的类别。如果P(𝜔1)P(𝜔2),则𝒙∈𝜔1,反之𝒙∈𝜔2。如果P(𝜔1|𝒙)P(𝜔2|𝒙),则𝒙∈𝜔1,反之𝒙∈𝜔2。统计判别基本概念类别:𝜔1:垃圾邮件𝜔2:非垃圾邮件邮件中的字符代码为:𝑥1,𝑥2,…,𝑥𝐷基于统计判别的分类应用很广泛统计判别基本概念分类e-mails{垃圾邮件,非垃圾邮件}分类文章主题{文章的主题是什么?}分类网页{学校网页,个人网页,公司网页,…}输入的特征𝒙是什么?文本!统计判别基本概念场景理解:统计判别基本概念场景理解:统计判别基本概念场景理解:统计判别基本概念物体识别:统计判别基本概念医学诊断:统计判别基本概念大脑活跃性分析统计判别基本概念P(𝜔𝑖)—类别𝜔𝑖出现的先验概率p(𝒙|𝜔𝑖)—类条件概率密度,即类别状态为𝜔𝑖类时,出现模式𝒙的条件概率密度,也称似然函数。p(𝒙)—全概率密度。P(𝜔𝑖|𝒙)—后验概率,即给定输入模式𝒙时,该模式属于𝜔𝑖的条件概率。P(𝜔𝑖,𝒙)—联合概率。统计判别基本概念P(𝜔𝑖)—类别𝜔𝑖出现的先验概率先验概率(priorprobability)是指根据以往经验和分析得到的概率。先验概率P(𝜔𝑖)的估计举例统计判别基本概念例:P(𝜔𝑖)的估计在垃圾邮件识别系统中,我们常常需要知道任意一封邮件为垃圾邮件的先验概率P(𝜔𝑖),这常常可以通过统计一定数量的以往样本计算得到。𝜔1:接受邮件为垃圾邮件𝜔2:接受邮件为非垃圾邮件统计10000封邮件,若经过人工辨识得到其中1000封为垃圾邮件,剩下9000封为非垃圾邮件,则我们可以估计:P(𝜔1)=1000/10000=0.1;P(𝜔2)=1-P(𝜔1)=0.9统计判别基本概念例:某学校男生和女生的先验概率𝜔1:女生𝜔2:男生选取10000位同学,若2000位为女生,8000位为男生,则:P(𝜔1)=2000/10000=0.2;P(𝜔2)=1-P(𝜔1)=0.8统计判别基本概念p(𝒙|𝜔𝑖)—类条件概率密度,即类别状态为𝜔𝑖类时,出现模式𝒙的条件概率密度,即似然函数。p(𝑥|𝜔1)p(𝑥|𝜔2)13014015016017018019020000.010.020.030.040.050.060.070.08统计判别基本概念例如:已知一个班级女生(𝜔1)和男生(𝜔2)的身高数据,并且假设它们都符合正态分布:𝑥为女生身高的类条件概率密度为:p(𝑥|𝜔1)~𝑁(156,25)𝑥为男生身高的类条件概率密度为:p(𝑥|𝜔2)~𝑁(170,25)p(𝑥|𝜔2)~𝑁(170,25)p(𝑥|𝜔1)~𝑁(156,25)统计判别基本概念p(𝒙)—全概率密度。𝑝𝒙=𝑃𝜔𝑖p(𝒙|𝜔𝑖)𝐶𝑖=113014015016017018019020000.010.020.030.040.050.060.07𝑃(𝜔1)p(𝑥|𝜔1)𝑃(𝜔2)p(𝑥|𝜔2)𝑝𝑥贝叶斯判别原则P(𝜔𝑖|𝒙)—后验概率,即给定输入模式𝒙时,该模式属于𝜔𝑖的条件概率。例如:𝑥为某个同学的身高𝜔1:女生𝜔2:男生P(𝜔1|𝑥):已知一个同学的身高,该同学是女生(𝜔1)的概率。P(𝜔2|𝑥):已知一个同学的身高,该同学是男生(𝜔2)的概率。统计判别基本概念后验概率常常作为决策的依据P(𝜔1|𝑥)P(𝜔2|𝑥)主要内容1.统计判别基本概念2.贝叶斯判别原则3.正态分布模式的贝叶斯决策4.Bayes最小风险判别准则5.聂曼-皮尔逊判别准则6.最小最大损失准则最小错误概率贝叶斯最小错误概率贝叶斯问题:设样本集合𝒙1,…,𝒙𝑁有C个类别,已知各个类别的先验概率P(𝜔𝑖)和似然函数p(𝒙|𝜔𝑖)。当观测样本𝒙出现时,如何将样本𝒙划归为某一类别?最小错误概率贝叶斯已知一个班级女生和男生的身高和体重数据都符合正态分布,具体统计参数如下:女生,均值𝝁1:156,48𝑻,协方差𝜮1:250025男生,均值𝝁2:170,65𝑻,协方差𝜮2:250025并且已知类别先验𝑃𝜔1=0.2,𝑃𝜔2=0.8,当给定一个新的样本180,75𝑻,应该判别为男生还是女生?最小错误概率贝叶斯Bayes决策理论是统计决策理论的基本方法贝叶斯理论:𝑃𝜔𝑖|𝒙=𝑝𝒙|𝜔𝑖𝑃(𝜔𝑖)𝑝𝒙=𝑝𝒙|𝜔𝑖𝑃(𝜔𝑖)𝑝𝒙|𝜔𝑗𝑃(𝜔𝑗)𝑗最小错误概率贝叶斯新样本𝒙=180,75𝑻𝜔1:女生𝑝𝒙|𝜔1=𝑁𝒙|𝝁1,𝜮1=9.63×10−16𝜔2:男生,𝑝𝒙|𝜔2=𝑁𝒙|𝝁2,𝜮2=1.16×10−4已知类别先验𝑃𝜔1=0.2,𝑃𝜔2=0.8判别规则:如果𝑃(𝜔1|𝒙)𝑃(𝜔2|𝒙),𝒙∈𝜔1如果𝑃𝜔1𝒙𝑃(𝜔2|𝒙),𝒙∈𝜔2最小错误概率贝叶斯根据贝叶斯定理:𝑃𝜔1𝒙=𝑃𝜔1𝑝(𝒙|𝜔1)𝑝(𝒙);𝑃𝜔2𝒙=𝑃𝜔2𝑝(𝒙|𝜔2)𝑝(𝒙)判决规则等价于:如果𝑃𝜔1𝑝(𝒙|𝜔1)𝑃𝜔2𝑝(𝒙|𝜔2),𝒙∈𝜔1如果𝑃𝜔1𝑝𝒙𝜔1𝑃𝜔2𝑝(𝒙|𝜔2),𝒙∈𝜔2𝑃𝜔1=0.2,𝑃𝜔2=0.8𝑃𝒙|𝜔1=𝑁𝒙|𝝁1,𝜮1=9.63×10−16𝑃𝒙|𝜔2=𝑁𝒙|𝝁2,𝜮2=1.16×10−4𝒙属于男生最小错误概率贝叶斯最小错误概率的决策是使得后验概率最大的决策。决策规则:P(𝜔1|𝒙)P(𝜔2|𝒙),则𝒙∈𝜔1;P(𝜔1𝒙)P(𝜔2𝒙),则𝒙∈𝜔2。这就是最小错误率贝叶斯决策。后验概率:𝑃𝜔𝑖|𝒙=𝑝𝒙|𝜔𝑖𝑃(𝜔𝑖)𝑝𝒙=𝑝𝒙|𝜔𝑖𝑃(𝜔𝑖)𝑝𝒙|𝜔𝑗𝑃(𝜔𝑗)𝑗最小错误概率贝叶斯后验概率:𝑃𝜔1|𝑥𝑃𝜔2|𝑥最小错误概率贝叶斯最小错误概率贝叶斯决策的等价形式:(1)如果𝑃𝜔𝑖𝒙=𝑚𝑎𝑥𝑗=1,2𝑃𝜔𝑗𝒙,𝒙∈𝜔𝑖(2)如果𝑝𝒙𝜔𝑖𝑃(𝜔𝑖)=𝑚𝑎𝑥𝑗=1,2𝑝𝒙𝜔𝑖𝑃(𝜔𝑖),𝒙∈𝜔𝑖(3)如果𝑙𝒙=𝑝𝒙|𝜔1𝑝𝒙|𝜔2𝑃𝜔2𝑃𝜔1,𝒙∈𝜔1𝜔2(4)如果h𝒙=−𝑙𝑛𝑙𝒙=−𝑙𝑛𝑝𝒙𝜔1+𝑙𝑛𝑝𝒙𝜔2𝑙𝑛𝑃𝜔1𝑃𝜔2→𝒙∈𝜔1𝜔2最小错误概率贝叶斯例:假设某个局部地区细胞识别中正常(𝜔1)和异常(𝜔2)两类的先验概率分别为:正常状态P(𝜔1)=0.9,异常状态P(𝜔2)=0.1现有一待识别的细胞,其观察值为x,从类条件概率密度曲线上分别知道p(𝑥|𝜔1)=0.2,p(𝑥|𝜔1)=0.4试对该细胞x进行分类。最小错误概率贝叶斯利用贝叶斯公式,分别计算𝜔1和𝜔2的后验概率P𝜔1|𝑥=𝑝𝑥|𝜔1𝑃(𝜔1)𝑝𝑥=𝑝𝑥|𝜔1𝑃(𝜔1)𝑝𝑥|𝜔𝑗𝑃(𝜔𝑗)𝑗=0.2×0.90.2×0.9+0.4×0.1=0.818P𝜔2|𝑥=1−P𝜔1|𝑥=0.182根据决策规则:P(𝜔1|𝑥)P(𝜔2|𝑥),则𝑥∈𝜔1则𝑥为正常细胞。最小错误概率贝叶斯最小错误概率贝叶斯分类器:1.学习(Learning)先验概率通过已有样本学习P(𝜔𝑖)似然函数通过已有样本进行类概率密度估计p(𝒙|𝜔𝑖)2.预测(Inference)最大后验概率决策P(𝜔1|𝒙)P(𝜔2|𝒙),则𝒙∈𝜔1;P(𝜔1𝒙)P(𝜔2𝒙),则𝒙∈𝜔2。最小错误概率贝叶斯多类情况下的最小贝叶斯错误概率判别:如果𝑃𝜔𝑖𝒙=𝑚𝑎𝑥𝑗=1,2,…,𝐶𝑃𝜔𝑗𝒙,𝒙∈𝜔𝑖如果𝑝𝒙𝜔𝑖𝑃(𝜔𝑖)=𝑚𝑎𝑥𝑗=1,2,..,𝐶𝑝𝒙𝜔𝑖𝑃(𝜔𝑖),𝒙∈𝜔𝑖最小错误概率贝叶斯错误概率计算:已知一个班级女生和男生的身高和体重数据都符合正态分布,具体统计参数如下:女生,均值𝝁1:156,48𝑻,协方差𝜮1:250025男生,均值𝝁2:170,65𝑻,协方差𝜮2:250025并且已知男生和女生的先验概率为𝑃𝜔1=0.5,𝑃𝜔2=0.5。如果我们只利用身高来判断某一同学是男生还是女生,请计算最小贝叶斯判别方法下的错误概率?最小错误概率贝叶斯从以上数据可以推知:女生身高服从均值156(cm)方差为25的正态分布𝑝(𝑥|𝜔1)~𝑁(156,25)男生身高服从均值170(cm)方差为25的正态分布𝑝(𝑥|𝜔2)~𝑁(170,25)𝑃𝜔1=0.5,𝑃𝜔2=0.513014015016017018019020000.0050.010.0150.020.0250.030.0350.04最小错误概率贝叶斯𝑃(𝜔2)p(𝑥|𝜔2)𝑃(𝜔1)p(𝑥|𝜔1)最小错误率贝叶斯决策规则:如果𝑃𝜔1𝑝(𝒙|𝜔1)𝑃𝜔2𝑝(𝒙|𝜔2),𝒙∈𝜔1如果𝑃𝜔1𝑝𝒙𝜔1𝑃𝜔2𝑝(𝒙|𝜔2),𝒙∈𝜔2𝑡=163最小错误概率贝叶斯错误概率:最小错误概率贝叶斯条件错误概率可以表示为:𝑃𝑒𝒙=𝑃𝜔1𝒙,当𝑃𝜔2𝒙𝑃𝜔1𝒙𝑃𝜔2𝒙,当𝑃𝜔1𝒙𝑃𝜔2𝒙若𝒙为一维可以表示为:𝑃𝑒𝑥=𝑃𝜔1𝑥,当𝑥𝑡𝑃𝜔2𝑥,当𝑥𝑡最小错误概率贝叶斯𝑃𝑒=ℛ2𝑃𝜔1𝑥𝑝(𝑥)𝑑𝑥+ℛ1𝑃𝜔2𝑥𝑝(𝑥)𝑑𝑥=𝑃𝜔1𝑥𝑝(𝑥)𝑑𝑥+∞𝑡+𝑃𝜔2𝑥𝑝(𝑥)𝑑𝑥𝑡−∞=𝑝𝑥𝜔1𝑃(𝜔1)𝑑𝑥+∞𝑡+𝑝𝑥𝜔2𝑃(𝜔2)𝑑𝑥𝑡−∞因为𝑃𝜔𝑖𝑥=𝑝𝑥𝜔𝑖𝑃(𝜔𝑖)𝑝(𝑥)13014015016017018019020000.0050.010.0150.020.0250.030.0350.04最小错误概率贝叶斯𝑃𝑒=𝑃(𝜔1)p(𝑥|𝜔1)𝑑𝑥+∞𝑡+𝑃(𝜔2)p(𝑥|𝜔2)𝑑𝑥𝑡−∞错误概率为斜线和纹线区域的大小!𝑃(𝜔2)p(𝑥|𝜔2)𝑃(𝜔1)p(𝑥|𝜔1)𝑡=163最小错误概率贝叶斯𝑃𝑒=𝑝𝑥𝜔1𝑃(𝜔1)𝑑𝑥+∞𝑡+𝑝𝑥𝜔2𝑃(𝜔2)𝑑𝑥𝑡−∞=𝑃𝜔1𝑝𝑥𝜔1𝑑𝑥+∞𝑡+𝑃𝜔2𝑝𝑥𝜔2𝑑𝑥𝑡−∞=𝑃(𝜔1)𝑃1𝑒+𝑃(𝜔2)𝑃2𝑒最小错误概率贝叶斯错误概率:𝑃𝑒=𝑃(𝜔1)𝑃1𝑒+𝑃(𝜔2)𝑃2𝑒𝑃1𝑒=ℛ2𝑝𝑥𝜔1𝑑𝑥=𝑝𝑥𝜔1𝑑𝑥+∞𝑡𝑃2𝑒=ℛ1𝑝𝑥𝜔2𝑑𝑥=𝑝𝑥𝜔2𝑑𝑥𝑡−

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功