贝叶斯统计(BayesianStatistics)(Bayes,Thomas)(1702─1761)贝叶斯是英国数学家.1702年生于伦敦;1761年4月17日卒于坦布里奇韦尔斯.贝叶斯是一位自学成才的数学家.曾助理宗教事务,后来长期担任坦布里奇韦尔斯地方教堂的牧师.1742年,贝叶斯被选为英国皇家学会会员.如今在概率、数理统计学中以贝叶斯姓氏命名的有贝叶斯公式、贝叶斯风险、贝叶斯决策函数、贝叶斯决策规则、贝叶斯估计量、贝叶斯方法、贝叶斯统计等等.贝叶斯方法(Bayesianapproach)•贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方法(SamuelKotz和吴喜之,2000)。•贝叶斯推断的基本方法是将关于未知参数的先验信息与样本信息综合,再根据贝叶斯定理,得出后验信息,然后根据后验信息去推断未知参数(茆诗松和王静龙等,1998年)。“贝叶斯提出了一种归纳推理的理论(贝叶斯定理),以后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法.”──摘自《中国大百科全书》(数学卷)统计学有两个主要学派:频率学派与贝叶斯学派.它们之间有异同,贝叶斯统计是在与经典统计的争论中发展起来,主要的争论有:1.未知参数可否作为随机变量?2.事件的概率是否一定的频率解释?3.概率是否可用经验来确定?……….§1.1先介绍三种信息的概念经典统计学派规定统计推断使用两种信息:总体信息样本信息而贝叶斯学派认为是三种信息:总体信息样本信息先验信息第一章先验分布与后验分布总体信息即总体分布或总体所属分布族给我们的信息。譬如,“总体是正态分布”就给我们带来很多信息:他的密度函数是一条钟形曲线;他的一切一阶距都存在;有关正态变量(服从正态分布随机变量)的一些事件的概率可以计算;由正态分布可以导出分布,分布和分布等重要分布,还有许多成熟的点估计、区间估计和假设检验方法可供我们选用。总体信息是很重要的信息,为了获得此信息,往往耗资巨大。样本信息从总体中抽取的样本给我们提供的信息。这是最“新鲜”的信息,并且愈多愈好。人们希望对样本的加工和处理对总体的某些特征作出较为精确的统计推断。没有样本就没有统计学可言。这是大家都理解的事实。样本信息基于上述两种信息进行的统计推断称为经典统计学,它的基本观点是把数据(样本)看成是具有一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身。这方面最早的工作是高斯(Gauss,C.F.1777~1855)和勒让德(Legendre,A.M.1752~1833)的误差分析,正态分布和最小二乘法。从十九世纪末到二十世纪上半叶,经皮尔逊(Pearson,K.1857~1936)、费歇(Fisher,R.A.1890~1962)奈曼(Neyman.J.)等人的杰出工作创立了经典统计学。随着经典统计学的持续发展与广泛的应用,它本身的缺陷也逐渐暴露出来了。先验信息即在抽样之前有关统计问题的一些信息,一般说来,先验信息主要来源于经验和历史资料。例1:有一英国妇女,对奶茶能辨别出先倒进茶还是先倒进奶,做十次试验她都正确说出。..5.0,,,0009766.05.0)10(,5.0:010100是经验在起作用可见应拒绝小概率事件这是几乎不可能发生的那么十次猜中的概率为每次成功概率若PHPPH某学生第一次看到他的数学老师,即有反应:老师30岁到40之间,极可能35岁左右(左右可理解为正负3岁,极可能可理解为90%的可能).P(32≤X≤38)=0.90三种信息基于上述三种信息(总体信息、样本信息和先验信息)进行的统计推断被称为贝叶斯统计学。它与经典统计学的主要差别在于是否利用先验信息。贝叶斯统计学派把任意一个未知参数都看成随机变量,应用一个概率分布去描述它的未知状况,该分布称为先验分布。.,,,,0,...,2,1,)()(,,,:2免检产品使用单位就可以确认为的不合格率分布一致取几件产品与历史资料可见假定以后每天都抽信得过产品该产品为那么附近部分在若这个分布的概率绝大先验分布一个分布对过去的不合格率构造根据历史资料以估计不合格率品工厂每天都抽取几件产的确定免检产品例niniPi后验信息统计推断贝叶斯定理先验信息样本信息信息处理设自然状态有k种,1,2,…,k,P(i)表示自然状态i发生的先验概率分布,P(x︱i)表示在状态i条件,事件为x的概率。P(i︱x)为i发生的后验概率。全概率公式:P(x)为x在各种状态下可能出现的概率综合值。KiiiiiiKiiiPxPPxPxPPxPxP11)()|()()|()|()(Bayes)()|()(:后验概率公式公式全概率公式:从概率论的Bayes公式谈起注:把事件i,x看为随机变量,上公式则为Bayes后验分布§1.2贝叶斯公式的密度函数形式1、依赖于参数的密度函数在经典统计中记为(;)px,它表示在参数空间{}中不同的对应不同的分布。可在贝叶斯统计中记为(|)px,它表示在随机变量给定某个值时,总体指标X的条件分布。2、根据参数的先验信息确定先验分布()(priordistribution)。这是贝叶斯学派在最近几十年里重点研究的问题。已获得一大批富有成效的方法。§1.2贝叶斯公式的密度函数形式3.从贝叶斯观点看,样本1(,)nxxx的产生要分两步进行。首先设想从先验分布()产生一个样本',这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布'(|)px产生一个样本1(,)nxxx,这个样本是具体的,人们能看得到的,此样本x发生的概率是与如下联合密度函数成正比。''1(|)(|)niipxpx这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为(')L。4.由于'是设想出来的,它仍然是未知的,它是按先验分布()而产生的,要把先验信息进行综合,不能只考虑',而应对的一切可能加以考虑。故要用()参与进一步综合。这样一来,样本x和参数的联合分布(,)(|)()hxpx把三种可用的信息都综合进去了。§1.2贝叶斯公式的密度函数形式我们的任务是要对未知参数作出统计推断。在没有样本信息时,人们只能根据先验分布对作出推断。在有样本观察值1(,)nxxx之后,我们应该依据(,)hx对作出推断。为此我们需把(,)hx作如下分解:(,)(|)()hxxmx其中()mx是x的边缘密度函数.()(,)(|)()mxhxdpx它与无关,或者说,()mx中不含的任何信息。因此能用来对作出推断的只是条件分布(|)x§1.2贝叶斯公式的密度函数形式(后验分布posteriordistribution)。它的计算公式是(,)(|)()(|)()(|)()hxpxxmxpxd这就是贝叶斯公式的密度函数形式。这个在样本x给定下,的条件分布被称为的后验分布。它是集中了总体、样本和先验等三种信息中有关的一切信息,而又排除一切与无关的信息之后所得到的结果。§1.2贝叶斯公式的密度函数形式后验分布是三种信息的综合,先验分布反应人们在抽样前对参数的认识,后验分布反应人们在抽样后对参数的认识Bayes统计推断原则:对参数所作任何推断(参数估计,假设检验等)都必须建立在后验分布基础上.§1.2贝叶斯公式的密度函数形式例:为了提高某产品质量,公司经理考虑投资100万改进设备,下属部门提出两种实施意见:意见1:改进生产设备后,高质量产品占90%意见2:改进生产设备后,高质量产品占70%但经理根据以往两部门建议情况认为.意见1的可信度只有40%,而意见案2的可信度只有60%,6.0)(,4.0)(:21即经理主观概率},5{,,全是高质量产品个产品试产经理作小型试验得事件为保险A168.07.0)(,590.09.0)(,5251ApAp而337.0)()()()()(,2211ApApAp由全概率公式§1.2贝叶斯公式的密度函数形式3.0,7.06.0,4.0,,,,21调整为从的可信程度对经理即经过试验A}9,10{,,个全是高质量产品有个产品试产件经理又作小型试验得事为保险B121.0)3.0()7.0(10)(,387.0)1.0()9.0(10)(,9291BpBp而300.0)(/)()()(700.0)(/)()()(,221111ApApAApApABayes公式由117.0)(,883.0)(307.0)(3.0)(,7.0)(,2121BBBp此时.,883.0%)90(,1可投资了已上升到的概率高质量产品占经过二次试验对经理看到贝塔分布(betadistribution)若0,0为两个实数,则由下列密度函数111(1)01(,)()00,1xxxBfxxx其中()()(,)()B,确定的随机变量X的分布称为贝塔分布,记为(,)beta贝塔分布(,)beta的均值()EX,方差2()()(1)VarX当1时,贝塔分布退化为[0,1]区间上的均匀分布。信息验前分布例设事件A的概率为,为了估计而作n次独立观察,其中事件A出现的次数为X,显然,X服从二项分布(,)bn,即(|(1),1,,xnxnfXxxnx)=这就是似然函数。假如在试验前我们对事件A没有什么了解,从而对其发生的概率也说不出是大是小,在这种场合下,贝叶斯建议用区间(0,1)上的均匀分布(0,1)U作为的先验分布。因为它在(0,1)上每一点都是机会均等,没有偏爱。贝叶斯的这个建议被后人称为贝叶斯假设。这时的先验分布为101()0其它场合10,,...,1,0,)1()()(),(nxxnxfxhXxnx的联合分布是与参数样本此式在定义域上与二项分布有差别。再计算的边缘分布这个分布不是别的,就是参数为1x的1nx的贝塔分布,这个分布记为(1,1)betaxnx。信息验前分布1100(1)(1)()(,)(1)(2)xnxnnxnxmxhxddxxn最后可得的后验分布(1)1(1)1(,)(2)(|)(1),01()(1)(1)xnxhxnxmxxnx信息验前分布例Laplace在1786年研究了巴黎的男婴出生的比率,他希望检验男婴出生的概率是否大于0.5.为此,他收集到1745~1770年在巴黎出生的婴儿数据.其中,男婴251527个,女婴241945个,他选用U(0,1)作为的先验分布,则的后验分布服从分布:493472241945251527,251527,)241946,251528()1,1(~nxBexnxBe其中010145.1)1()1()1()2(}5.0{425.00函数SASxnxdxnxnxp推断:男婴出生的概率大于0.55097.0493472251527ˆnx先验分布的选取•有信息的:–已知分布类型、参数等•无信息的:–最大熵、共轭分布、Bayes假设•基于经验的:–利用样本确定先验分布验前信息处理---无信息验前分布.,,,在实践中也有重要意义统计中的理论问题是如何确定验前分布没有验前信息Bayes0)(),(cBayesBayes即均匀分布假设遵循同等无知原则假设.5.0,).(提供信息概率的先验显然是没有每一假设都给以对如检验两个简单假设时偏爱任何值都没有的它对的信息但不包含无信息先是指一