第三讲贝叶斯分类器

zdnscv
3 ℃
2020-05-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

《模式识别》讲义2011版：第三讲贝叶斯分类器第1页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn第三讲贝叶斯分类器线性分类器可以实现线性可分的类别之间的分类决策，其形式简单，分类决策快速。但在许多模式识别的实际问题中，两个类的样本之间并没有明确的分类决策边界，线性分类器（包括广义线性分类器）无法完成分类任务，此时需要采用其它有效的分类方法。贝叶斯分类器就是另一种非常常见和实用的统计模式识别方法。一、贝叶斯分类1、概率推理贝叶斯分类的基础是概率推理，就是在各种条件的存在不确定，仅知其出现概率的情况下，如何完成推理和决策任务。概率推理是与确定性推理相对应的。所谓确定性推理是指类似如下的推理过程：如有条件B，就一定会有结果A，如条件B不存在，则结果A一定不成立；现出现了结果A，则条件B一定存在。在这一推理过程中，条件和结果之间的关系是确定的，条件自身和推理结果也是确定的。而概率推理是不确定性推理，它的一种推理形式可以表示为：如有条件B，则可能会出现结果A；现出现了结果A，则条件B就有存在的可能。在这个推理过程中，时间之间的因果关系是一种概率关系，推理是在结果已知的情况下，反推其条件出现的概率，也称为“逆概率推理”。如果对上述概率推理过程的内容用条件概率来表示，即为：已知条件B出现时结果A会发生的条件概率)()()|(BPABPBAP，需要推导结果A已经发生时，条件B存在的概率，即(|)?PBA2、贝叶斯公式进行逆概率推理的数学方法是贝叶斯于1763年提出的贝叶斯定理，它的表述为：设试验E的样本空间为S，A为E的事件，B1，B2，…，Bc为S的一个划分，且P(A)0，P(Bi)0(i=1,2,……,c)，则1(|)()(|)()(|)()(|)()iiiiicjjjPABPBPABPBPBAPAPABPB该公式称为“贝叶斯公式”，其中：)|(ABPi称为后验概率，表示事件A（结果A）出现后，各不相容的条件iB《模式识别》讲义2011版：第三讲贝叶斯分类器第2页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn存在的概率，它是在结果出现后才能计算得到的，因此称为“后验”；)|(jBAP称为类条件概率，表示在各条件iB存在时，结果事件A发生的概率；)(jBP称为先验概率，表示各不相容的条件iB出现的概率，它与结果A是否出现无关，仅表示根据先验知识或主观推断，认为总体上各条件之间的出现可能性有什么差别；1()(|)()cjjjPAPABPB由先验概率和类条件概率计算得到，它表达了结果A在各种条件下出现的总体概率，称为结果A的全概率。贝叶斯公式给出了根据结果推测原因的数学方法，在许多方面都有广泛的应用，并在数理统计领域产生了基于该理论的贝叶斯学派。贝叶斯及贝叶斯公式托马斯·贝叶斯（ThomasBayes）(1702～1763)，是一位伟大的英国数学家，他是英国皇家学会会员，也是一位长老会牧师，其主要数学成就体现在概率论和数理统计方面。贝叶斯公式发表于1763年其去世之后，首次将归纳推理法用于概率论基础理论，对于后续的统计决策、概率推理和参数估计等领域的发展起到了重要的促进作用，其影响延续至今，在信息时代的经济学理论、数据处理与知识挖掘、信息检索、人工智能等方面都能看到贝叶斯公式深入和广泛的应用。由于其宗教身份，后人普遍猜测贝叶斯提出贝叶斯公式的目的是为了从理论上对上帝是否存在进行证明（并且美国的斯蒂芬·安文在2003年出版的《上帝的概率》一书中确实利用贝叶斯公式对上帝存在的概率进行了计算）。但由于贝叶斯公式中先验概率的获得有“主观主义”和“频率主义”两大派别，对于贝叶斯公式的应用范围和合理性存在很大的争议。3、贝叶斯分类如果把样本属于某个类别作为条件，样本的特征向量取值作为结果，则模式识别的分类决策过程也可以看作是一种根据结果推测条件的推理过程。它可以分为两种类型：确定性分类决策：特征空间由决策边界划分为多个决策区域，当样本属于某类时，其特征向量一定落入对应的决策区域中，当样本不属于某类时，其特征向量一定不会落入对应的决策区域中；现有待识别的样本特征向量落入了某决策区域中，则它一定属于对应的类。《模式识别》讲义2011版：第三讲贝叶斯分类器第3页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn图1确定性分类决策随机性分类决策：特征空间中有多个类，当样本属于某类时，其特征向量会以一定的概率取得不同的值；现有待识别的样本特征向量取了某值，则它按不同概率有可能属于不同的类，分类决策将它按概率的大小划归到某一类别中。图2随机性分类决策对于随机性分类决策，可以利用贝叶斯公式来计算样本属于各类的后验概率：设,1,2,iic是特征空间中不同的类，每类都有其出现的先验概率)(jP；在每类中，样本特征向量的取值服从一定的概率分布，其类条件概率密度为)|(jxP；当有待识别的特征向量x时，其属于各类的后验概率)|(xPi为：1(|)()(|)()(|)()(|)()iiiiicjjjPxPPxPPxPxPxP《模式识别》讲义2011版：第三讲贝叶斯分类器第4页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn如果根据样本属于各类的后验概率及其他因素对该样本进行分类决策，就称为贝叶斯分类。贝叶斯分类具有以下特点：需要知道先验概率先验概率是计算后验概率的基础。在传统的概率理论中，先验概率可以由大量的重复实验所获得的各类样本出现的频率来近似获得，其基础是“大数定律”，这一思想称为“频率主义”。而在称为“贝叶斯主义”的数理统计学派中，他们认为时间是单向的，许多事件的发生不具有可重复性，因此先验概率只能根据对置信度的主观判定来给出，也可以说由“信仰”来确定。这一分歧直接导致了对贝叶斯公式应用范围和合理性的争议。按照获得的信息对先验概率进行修正在没有获得任何信息的时候，如果要进行分类判别，只能依据各类存在的先验概率，将样本划分到先验概率大的一类中。而在获得了更多关于样本特征的信息后，可以依照贝叶斯公式对先验概率进行修正，得到后验概率，提高了分类决策的准确性和置信度。分类决策存在错误率由于贝叶斯分类是在样本取得某特征值时对它属于各类的概率进行推测，并无法或者样本真实的类别归属情况，所以分类决策一定存在错误率，即时错误率很低，分类错误的情况也可能发生。二、各种贝叶斯分类器根据分类决策规则的不同，贝叶斯分类有多种形式，下面介绍比较常见的几种贝叶斯分类器。1、最小错误率贝叶斯分类器当已知类别出现的先验概率()iP和每个类中的样本分布的类条件概率密度(|)iPx时，可以求得一个待分类样本属于每类的后验概率)|(xPi，将其划归到后验概率最大的那一类中，真正分类器称为最小错误率贝叶斯分类器，其分类决策规则可表示为：两类问题中，当(|)(|)ijPxPx时，判决ix；对于多类情况，则当1(|)max(|)ijjcPxPx时，判决ix。可以发现，上述分类决策规则实为“最大后验概率分类器”，它与“最小错误率分类器”的关系可以简单分析如下：当采用最大后验概率分类器时，分类错误的概率为()(,)(|)()PePerrorxdxPerrorxPxdx《模式识别》讲义2011版：第三讲贝叶斯分类器第5页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn而11(|)(|)max(|)cjjjciPerrorxPxPx因此，(|)Perrorx取得了最小值，()Pe也取得了最小值，“最大后验概率分类器”与“最小错误率分类器”是等价的。对于最小错误率贝叶斯分类器，其分类决策规则也同时确定了分类决策边界，为：(|)(|)ijPxPx图3最小错误率贝叶斯分类器的分类决策边界但是，其分类决策边界不一定是线性的，也不一定是连续的。图4最小错误率贝叶斯分类器的非线性分类决策边界例题：地震预报是比较困难的一个课题，可以根据地震与生物异常反应之间的联系来进行研究。根据历史记录的统计，地震前一周内出现生物异常反应的概率为《模式识别》讲义2011版：第三讲贝叶斯分类器第6页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn50％，而一周内没有发生地震但也出现了生物异常反应的概率为10％。假设某一个地区属于地震高发区，发生地震的概率为20％。问：如果某日观察到明显的生物异常反应现象，是否应当预报一周内将发生地震？解：把地震是否发生设成两个类别：发生地震为ω1，不发生地震为ω2；则两个类别出现的先验概率P1=0.2，P2=1－0.2=0.8；设地震前一周是否出现生物异常反应这一事件设为x，当x＝1时表示出现了，x＝0时表示没出现；则根据历史记录统计可得，；p(x＝1|ω1)＝0.5，p(x＝1|ω2)＝0.1所以，某日观察到明显的生物异常反应现象，此时可以得到将发生地震的概率为：p(ω1|x＝1)=（P1×p(x＝1|ω1)）/（P1×p(x＝1|ω1)＋P2×p(x＝1|ω2)）＝（0.2×0.5）/（0.2×0.5+0.8*0.1）＝5/9而不发生地震的概率为：p(ω2|x＝1)=（P2×p(x＝1|ω2)）/（P1×p(x＝1|ω1)＋P2×p(x＝1|ω2)）＝（0.8×0.1）/（0.2×0.5+0.8*0.1）＝4/9因为p(ω1|x＝1)p(ω2|x＝1)，所以在观察到明显的生物异常反应现象时，发生地震的概率更高，所以应当预报一周内将发生地震。2、最大似然比贝叶斯分类器类条件概率(|)iPx也称为类i对特征向量x的似然函数，表达了某类中的样本取某个特征值的可能性。由最小错误率贝叶斯分类可知：对于两类问题，当(|)()(|)()iijjPxPPxP时，判决ix即当()(|)(|)()jijiPPxPxP时，判决ix(|)()(|)iijjPxLxPx称为似然比，它与待识别的特征向量有关；()()jijiPP称为判决门限，它仅与两类的先验概率有关。《模式识别》讲义2011版：第三讲贝叶斯分类器第7页自动化学院模式识别与智能系统研究所高琪gaoqi@bit.edu.cn由此可见，在进行分类决策时，可通过计算某个特征向量的似然比，把它与两类之间的判决门限值进行比较，就可以完成分类决策。对于多类问题，分类决策规则为：(),,1,2,ijijiLxijcijx若对于任意的，成立，则该分类器称为最大似然比贝叶斯分类器。3、最小风险贝叶斯分类器在最小错误率贝叶斯分类器分类器中，仅考虑了样本属于每一类的后验概率就做出了分类决策，而没有考虑每一种分类决策的风险。事实上，在许多模式识别问题中，即时样本属于两类的后验概率相同，将其分到每一类中所带来的风险也会有很大差异。例如针对某项检测指标进行癌症的诊断，如果计算出患者患癌症和未患癌症的后验概率均为50%，如果患者真实情况是患了癌症，此时做出未患癌症的诊断会延误治疗时机，比做出患癌症的诊断带来更为严重的后果。因此，在获得样本属于每一类的后验概率后，需要综合考虑做出各种分类决策所带来的风险，选择风险最小的分类决策，称为最小风险贝叶斯分类器。先定义以下几个概念：类中归到把待识别样本决策iix:类中带来的损失归到类的样本把真实属于损失ijijx:后可能的风险采取决策对条件风险iixxR:)|(条件风险可以用采取某项决策的加权平均损失来计算，权值为样本属于各类的概率，即1||,1,2,...,.ciijijjjRxEPxic则最小风险贝叶斯分类器的分类决策规则为：1,2,...,|min|,kikicRxRxx若则例题：对于上例中的地震预报问题，假设预报一周内发生地震，可以预先组织抗震救灾，由此带来的防灾成本会有2500万元，而当地震确实发生时，由于地震造成的直接损失会有1000万元；

第三讲 贝叶斯分类器

第三讲贝叶斯分类器