贝叶斯公式的应用

qingkongqi
4 ℃
2020-05-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1贝叶斯公式的应用一、综述在日常生活中，我们会遇到许多由因求果的问题，也会遇到许多由果溯因的问题。比如某种传染疾病已经出现．寻找传染源；机械发生了故障，寻找故障源就是典型的南果溯因问题等。在一定条件下，这类由果溯因问题可通过贝叶斯公式来求解。以下从几个的例子来说明贝叶斯公式的应用。文【1】主要应用贝叶斯公式的简单情形，从“疾病诊断”，“说谎了吗”，“企业资质评判”，“诉讼”四个方面讨论其具体应用。文【2】用市场预测的实例，介绍了贝叶斯公式在市场预测中的应用。贝叶斯市场预测能对信息的价值是否需要采集新的信息做出科学的判断。文【3】、文【4】介绍贝叶斯过滤技术的工作原理及技术原理，讨论了邮件过滤模块，通过分析研究该模块中垃圾邮件关键词的统计概率分布，提出了基于贝叶斯概率模型的邮件过滤算法，并对该算法的合理性和复杂度进行了分析。可以根据垃圾邮件内容的特征，建立贝叶斯概率模型，计算出一封邮件是垃圾邮件的概率，从而判断其是否为垃圾邮件。文【5】基于贝叶斯公式中概率统计的重要性与在日常生活中应用的广泛性，概述了贝叶斯统计的基本思想及其与其他统计学派的争论，并对作为贝叶斯统计基石的贝叶斯公式进行了归纳。二、内容1.疾病诊断.资料显示,某项艾滋病血液检测的灵敏度(即真有病的人检查为阳性)为95%,而对没有得病的人，种检测的准确率(即没有病的人检查为阴性)为99%.美国是一个艾滋病比较流行的国家,估计大约有千分之一的人患有这种病.为了能有效地控制、减缓艾滋病的传播,几年前有人建议对申请新婚登记的新婚夫妇进行这种血液检查.该计划提出后,征询专家意见,遭到专家的强烈反对,计划没有被通过.我们用贝叶斯公式分析专家为何反对通过这项计划.设A={检查为阳性},B={一个人患有艾滋病}。据文中叙述可知：()0.001,(|)0.95,()10.0010.999,(|)10.990.01PBPABPBPAB由公式：()()(|)()((|)PAPBPABPBPAB得：()0.001*0.950.999*0.010.01094PA由公式：()(|)(|)()PAPABPABPA得：0.001*0.95(|)0.0870.01094PBA也就是说,被检测患有艾滋病而此人确实患有该病的概率大约为0.087.这个结果使人难以接受,好像与实际不符.从资料显示来看,这种检测的精确性似乎很高.因此,一般人可能猜测,如果一个人检测为阳性,他患有艾滋病的可2能性很大,估计应在90%左右,然而计算结果却仅为8.7%.如果通过这项计划,势必给申请登记的新婚夫妇带来不必要的恐慌.因为约有91.3%的人并没有患艾滋病.为什么会出现与直觉如此相悖的结果呢?这是因为人们忽略了一些基础信息,就是患有艾滋病的概率很低,仅为千分之一.因此,在检测出呈阳性的人中大部分是没有患艾滋病的.具体的说,若从该地随机抽取1000个居民,则根据经验概率的含义,这1000居民中大约有1人患有艾滋病,999人未换艾滋病.检查后,大约有1*0.95999*0.0110.94个人检查为阳性,而在这个群体中真正患有艾滋病却仅有1人.因此有必要进行进一步的检测.但是,我们也应该注意到,这项检测还是为我们提供了一些新的信息.计算结果表明,一个检测结果呈阳性的人患有艾滋病的概率从最初的0.001增加到了0.087,这是原来患有艾滋病概率的87倍.进一步的计算,我们得到一个检查呈阴性而患有艾滋病的概率为：()(|)0.001*0.05(|)0.000060.98906()PBPABPBAPA因此,通过这项检测,检查呈阴性的人大可放宽心,他患有艾滋病的概率已从千分之一降低到十万分之六。2.诉讼.1981年3月30日,一个大学退学学生欣克利(JohnHinckleyJr.)企图对里根总统行刺.他打伤了里根、里根的新闻秘书以及两个保安.在1982年宣判他时,欣克利的辩护律师以精神病为理由作为其无罪的辩护。作证的医师告诉法院当给被诊断为精神分裂症的人以CAT扫描时,扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描时,只有2%的扫描显示脑萎缩.欣克利的辩护律师试图拿欣克利的CAT扫描结果为证据,争辩说因为欣克利的扫描显示了脑萎缩,他极有可能患有精神病,从而应免受到法院的起诉。我们尝试用贝叶斯方法对欣克利是否患有精神病做出判断.一般地,在美国精神分裂症的发病率大约为1.5%：设A={CAT扫描显示脑萎缩};B={做扫描的人患有精神病}.根据上文的叙述可知,()0.005,(|)0.3,()10.0150.985,(|)0.02PBPABPBPAB由公式：()()(|)()((|)PAPBPABPBPAB得：()0.005*0.30.985*0.020.0242PA由公式：()(|)(|)()PAPABPABPA得：0.015*0.05(|)0.1860.0242PBA这意味着即使欣克利的扫描显示了脑萎缩,他也只有18.6%的可能患有精神病,因此CAT扫描无法作为其无罪的证据.3.贝叶斯公式在市场预测中的应用(修正主观概率).在定性预测方法中，有一种集合意见法，就是主管人员召集营销人员对预测对象进行座谈讨论，提出方案。在集中意见时，常采用主观概率法加以合成，求出期望值。如甲营销人员对某种商品销售量的估计最高为1000，最可能为800，最低为500，主持预测者将根据他平时对市场行情的了解程度和分析判断能力，给3三种估计以可能实现的概率。设过去十次预测中，这位营销人员的预测期望值为:100*0.3800*0.5500*0.2800如果我们把每次预测成功置于一定的条件下来考察（见表1），就是贝叶斯公式对原先所给的主观概率予以修正。表1甲营销人员预测效果表表中数字为预测成功的次数，成功的标准可以假定一个区间，如5%，实际值落入这个区间即为成功。在进行这一次新的预测时，已知该商品的货源偏紧，在此信息条件下计算验后概率，先确定检验前概率P(Bi)。即原先给的主观概率：从过去10次成功的预测中，最高销售量是3次，最可能销售量是5次，最低销售量是2次。从而可推断P(Bi)分别为3/10、5/10、2/10最为确切。再找条件概率P(A/Bi)，这是指以三种预测结果为条件能获信息A的概率。由表1可知预测最高销售量成功三次，其中货源偏紧的一次，即有：(/1)1/3PAB，预测最可能销售量成功五次，其中货源偏紧二次，即有：(/2)2/5PAB，预测最低销售量成功二次，其中货源偏紧一次，即有：(/3)1/2PAB，最后计算检验后概率31*1103(1/)0.253152214***103105102PBA52*1105(2/)0.53152212***103105102PBA21*1102(3/)0.253152214***103105102PBA即在货源偏紧的条件下，三种预测结果的可能性分为0.25，0.5，0.25，因此检验后概率计算期望值为：1000*0.25800*0.5500*0.2577544.贝叶斯过滤技术.4.1、贝叶斯过滤技术的工作原理根据贝叶斯理论，根据已经发生的时间可以预测未来事件发生的可能性。将该理论运用到反垃圾邮件上：若已知某些字词经常出现在垃圾邮件中，却很少出现在合法邮件中，当一封邮件含有这些字词时，那么他是垃圾邮件的可能性就很大。⑴创建基于字词符号的贝叶斯数据库用户首先需要对贝叶斯进行培训，即将邮件分类为垃圾邮件（用户不想要的）和正常邮件（用户想要的），贝叶斯将提取这些邮件样本中主题和信体中的独立字串，包括字词（word）和符号（token）（如$，IP地址，域名等），并建立相应的数据库。⑵创建贝叶斯概率库统计出每个字串在垃圾邮件中出现的概率以及在正常邮件中出现的概率，然后根据公式计算出邮件中含某字串则为垃圾邮件的概率。例如：在3000封垃圾邮件样本中mortgage（抵押）出现了400次，而在300封正常邮件中这个词出现了5次，那么其对应的垃圾概率为0.8889（[400/3000]/[5/300+400/3000]）。⑶创建个性化的贝叶斯库由于每个单位对所收到的邮件偏好是不同的，例如，某个金融类单位在正常邮件中可能经常用到mortgage这个词，如果使用静态的关键词过滤，就可能产生很多误判。如果采用贝叶斯过滤，在对贝叶斯进行培训的时候，将该单位的合法邮件（自然，很多都包含了mortgage这个词）分类为正常邮件。这样，垃圾邮件的识别率将更高，同时也使得误判率变得很低。贝叶斯过滤算法的主要思想是在已知的大量垃圾邮件中，邮件中包含一些特征串（token），这些特征串可以简单的理解为一个完整的单词，但实际上它不仅仅限于单词，它们一般出现在邮件中的频率特别高，而在一些合法邮件中，另一些特征串出现的频率也很高。一般而言，对于同一个特征串出现在垃圾邮件和合法邮件中的概率是不同的。因此，对于出现的每一个特征串，都会生成一个“垃圾邮件指示性概率”（spamratio）。所以我们就可以判断文本消息的整体“垃圾邮件概率”。在垃圾邮件的处理中，对token的定义方法有很多种，如字母、数字、破折号、撇号、美元号等，还有在收件人，发件人和主题等这些栏中出现的token作5为相应的标记。根据一些划分方法从邮件中提取标识时，得到标识的数量比较大时，这样处理工作带来了较大的计算开销，使整个处理过程的效率下降。另外，有些标识，例如a、the、of、for等，这些词出现的频率虽然很高，但它们在一封邮件中频繁出现我们并不能说明这封邮件是垃圾邮件还是合法邮件。因此，必须对标识进行必要的细化处理，找出这些非用词放入一个表中，保留其他的标识为以后工作使用。4.2、贝叶斯方法过滤垃圾邮件的基本技术原理⑴收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集。⑵提取邮件主题和邮件体中的独立字串作为TOKEN串，并统计提取它的TOKEN串出现的次数，即字频。⑶每一个邮件集对应一个哈希表，设hashtable_good对应非垃圾邮件集而hashtable_good对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。⑷计算每个哈希表中TOKEN串出现的概率P=（某TOKEN串的字频）/（对应哈希表的长度）。⑸综合考虑hashtable_good和hashtable_bad，推断出当新来的邮件中出现某个TOKEN串时，该新邮件为垃圾邮件的概率。数学表达式为：A事件----邮件为垃圾邮件;2,,nttt1代表TOKEN串，则)/(itAP表示在邮件中出现TOKEN串it时，该邮件为垃圾邮件的概率。设：1_iiPtthashtablegood在中的值)_()(2中的值在badhashtablettPii则)/(itAP)()()(211iiitPtPtP；⑹建立新的哈希表hashtable_probability存储TOKEN串it到)/(itAP的映射。⑺此时垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的hashtable_probability估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时，按照步骤2生成TOKEN串。查询hashtable_probability得到该TOKEN串的键值。假设由该邮件共得到N个TOKEN串，1,2,nttt,hashtable_probability中6对应的值为12,,nPPP，),/(,21ntttAP表示在邮件中同时出现多个TOKEN串12,nttt时，该邮件为垃圾邮件的概率。由复合概率公式得：)1()1()1(),,/(21212121nnnnPPPPPPPPPtttAP当),/(,21ntttAP超过预定阈值时，就可以判断邮件为垃圾邮件。4.3、贝叶斯过滤的优点⑴贝叶斯过滤技术对邮件的所有内容进行分析，不仅仅是其中的某个关键词，而且他能判别邮件是垃圾邮件还是正常邮件。例如：包含“free”“cash”“发票”字样的邮件不一定是垃圾邮件