贝叶斯统计知识整理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章先验分布和后验分布统计学有两个主要学派,频率学派与贝叶斯学派。频率学派的观点:统计推断是根据样本信息对总体分布或总体的特征数进行推断,这里用到两种信息:总体信息和样本信息;贝叶斯学派的观点:除了上述两种信息以外,统计推断还应该使用第三种信息:先验信息。贝叶斯统计就是利用先验信息、总体信息和样本信息进行相应的统计推断。1.1三种信息(1)总体信息:总体分布或所属分布族提供给我们的信息(2)样本信息:从总体抽取的样本提供给我们的信息(3)先验信息:在抽样之前有关统计推断的一些信息1.2贝叶斯公式一、贝叶斯公式的三种形式(一)贝叶斯公式的事件形式假定kAA,,1是互不相容的事件,它们之和ikiA1包含事件B,即ikiAB1则有:kiiiiiiABPAPABPAPBAP1)()()()()((二)贝叶斯公式的密度函数形式1.贝叶斯学派的一些具体思想假设I:随机变量X有一个密度函数);(xp,其中是一个参数,不同的对应不同的密度函数,故从贝叶斯观点看,);(xp是在给定后的一个条件密度函数,因此记为)(xp更恰当一些。在贝叶斯统计中记为)(xp它表示在随机变量给定某个值时,总体指标X的条件分布。这个条件密度能提供我们的有关的信息就是总体信息。假设II:当给定后,从总体)(xp中随机抽取一个样本X1,…,Xn,该样本中含有的有关信息。这种信息就是样本信息。假设III:从贝叶斯观点来看,未知参数是一个随机变量。而描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为先验分布,其密度函数用)(表示。2.先验分布定义1:将总体中的未知参数看成一取值于的随机变量,它有一概率分布,记为)(,称为参数的先验分布。3.后验分布(1)从贝叶斯观点看,样本x=(1x,…,nx)的产生要分两步进行。首先设想从先验分布)(产生一个样本,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二部是从总体分布p(x|)产生一个样本x=(1x,…,nx),这个样本是具体的,人们能看到的,此样本x发生的概率是与如下联合密度函数成正比。niixpxp1)()(这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为)(L。频率学派和贝叶斯学派都承认似然函数,两派认为:在有了样本观察值x=(1x,…,nx)后,总体和样本中所含的信息都被包含在似然函数)(L之中,可在使用似然函数作统计推断时,两派之间还是有差异的。(2)由于是设想出来的,它仍然是未知的,它是按先验分布)(而产生的,要把先验信息进行综合,不能只考虑,而应对的一切可能加以考虑。故要用)(参与进一步综合。这样一来,样本x和参数的联合分布)(),(xpxh把三种可用的信息都综合进去了。(3)我们的任务是要求未知数做出统计推断。在没有样本信息时,人们只能据先验分布对作出推断。在有样本观察值x=(1x,…,nx)之后,我们依据),(xh对作出推断。为此我们需把),(xh作如下分解:)()(),(xmxxh其中m(x)是x的边缘密度函数。)()(),()(xpdxhxm它与无关,或者说,m(x)中不含的任何信息。因此能用来对作出推断的仅是条件分布)(x。它的计算公式是dxpxpxmxhx)()|()()|()()|()|(这就是贝叶斯公式的密度函数形式。这个在样本x给定下,的条件分布),,(1nxx被称为的后验分布。它是集中了总体、样本和先验等三种信息中有关的一切信息,而又是排除一切与无关的信息之后所得到的的结果。(三)贝叶斯公式的离散形式是离散随机变量时,先验分布可用先验分布列)(i,i=1,2,…,表示。这时后验分布也是离散形式。,2,1)()|()()|()|(ixpxpxjjjiii,假如总体X也是离散的,那只要把上述中的密度函数)(xp看作为概率函数)(xxp即可。二、后验分布是三种信息的综合一般来说,先验分布)(是反映人们在抽样前对的认识,后验分布)(x是反映了人们在抽样后对的认识,之间的差异是由于样本X出现后人们对认识的一种调整。所以后验分布)(x可以看作是人们用总体信息和样本信息(综合称为抽样信息)对先验分布)(作调整的结果。所以对的统计推断就应建立在后验分布)(x的基础上。2/1三、伽玛分布与贝塔分布(一)伽马分布:1.伽马函数:dxexx01)(02.伽马函数的性质:!)1(3)()1(2)21(;1)1(1nnn时,为自然数)()()(3.伽马分布若随机变量X具有概率密度函数:0,00,)()(1xxexxpx则称X服从伽玛分布,记作),(Ga~X.其中0为形状参数,0为尺度参数。201)(1)()1()()(XVarexXEx4.伽马分布的特性(1)当α=1,伽玛分布就是指数分布(2)当α=1/2时,伽马分布称为自由度为n的卡方分布。(二)贝塔分布1.贝塔函数dxxxbaBba1110)1(),(称为贝塔函数,其中参数a0,b02.贝塔函数的性质)()()(),()2(),(),(1bababaBabBbaB)(3.贝塔分布若随机变量X具有概率密度函数:11()(1),01()()()0,ababxxxabpx其它那么称服从贝塔分布,记作),(bXaBe~,其中参数a0,b0。)1(b)(aXVarbaa)1()()()(E(X)21011baabdxxxbababa)(4.贝塔分布的特性如果a=b=1,那么X服从[0,1]上的均匀分布。1.3共轭先验分布一、共轭先验分布1.定义1.1设是总体分布中的参数(或参数向量),)(是的先验密度函数,假如由抽样信息算的后验密度函数与)(有相同的函数形式,则称)(是的(自然)共轭先验分布。如二项分布b(n,)中的成功概率的先验分布若取Be(1,1),则其后验分布也是贝塔分布Be(x+1,n-x+1);把的先验分布换成一般的贝塔分布),(Be,其中00,的后验分布仍是贝塔分布),(xnxBe。所以此种先验分布被称为的共轭先验分布应着重指出,共轭先验分布是对某一分布中的参数而言的。如正态均值、正态方差、泊松均值等。离开指定参数及其所在的分布区谈论共轭先验分布是没有意义的。2.正态均值(方差已知)的共轭先验分布是正态分布。设x1,x2,…,xn是来自正态分布)(2,N的一个样本观察值。其中2已知。此样本的似然函数为:niinxxp122)(21exp21)(取另一正态分布),(2N作为正态均值的先验分布,即-2)(exp2122,)(其中2为已知。由此可知联合密度函数以及样本x的边际密度函数为2/122),()(Akdxxhxm参数的后验分布为,-/2)/(exp2)22/1AABAx(这是均值为1方差为21的正态分布,其中220212202201111x这说明了正态均值(方差已知)的共轭先验分布是正态分布。二、后验分布的计算1.在给定样本分布)(xp和先验分布)(后可用贝叶斯共识计算的后验分布由于m(x)不依赖于,在计算的后验分布中仅起到一个正则化因子的作用。因此把m(x)省略,贝叶斯公式可用改写为如下等价形式其中符号“”表示两边仅差一个常数因子,一个不依赖于的常数因子。右端虽不是正常的密度函数,但他是后验分布)(x的核,在需要时可以利用适当的方式计算出后验密度,特别当看出)()(x的核就是某常用分布的核时,不用计算m(x)就可很快恢复所缺常数因子。2.二项分布中的成功概率的共轭先验分布是贝塔分布。设总体),(~nbX,其密度函数中与有关的部分为xnx)1(。又设的先验分布为贝塔分布),(Be,其核为11)1(,其中,已知,从而可写出的后验分布,立即可以看出,这是贝塔分布的核,故此后验密度为11)1()()()()(xnxxnxnx三、共轭先验分布的优缺点1.共轭先验分布在很多场合被采用,因为它有两个优点:(1)计算方便,这可从上面的例子中体会(2)后验分布的一些参数可得到很好的解释。2.正态均值的共轭先验分布为正态分布例子中其后验均值可以改写为:这表明后验均值是在先验均值与样本均值间采取折衷方案。在处理正态分布时,方差的倒数发挥着重要的作用,并称其为精度,于是在正态均值的共轭先验分布的讨论中,其后验方差21所满足的等式这可以解释为后验分布的精度是样本均值分布的精度与先验分布精度之和,增加样本量n或减少先验分布方差都有利于提高后验分布的精度。2.在二项分布的成功概率的共轭先验分布是贝塔分布中后验分布),(Bexnx的均值与方差也可写成:1]E1[E)1()())(()()1(E2nxxnnxnxxVarnxnxx)()()(其中)/(nn,nx/是样本均值,)/(是先验均值,从上述加权均值可见,后验均值是介于样本均值与先验均值之间,它偏向另一侧由的大小决定的。另外,当n与x都较大,nx/接近某个常数时,我们有)1(1)(EnxnxnxVarnxx)(这表明,当样本量增大时,后验均值主要决定于样本均值,而后验方差愈来愈小。这时后验密度曲线的变化可从图中看出,随着x与n成比例增加时,后验分布愈来愈向比率nx/集中,这时先验信息对后验分布的影响将愈来愈小。4.在贝叶斯统计中,先验分布的选择应以合理性作为首要原则,计算上的方便与先验的合理性相比还是第二位的。在考虑到先验的合理性之后,充分发挥共轭先验分布是常采用的策略。四、常用的共轭先验分布共轭先验分布的选取是由似然函数)()(xpL中所含的因式所决定的,即选与似然函数(的函数)具有相同核的分布作为先验分布。若此想法得以实现,那共轭先验分布就产生了。在实际中常用的共轭先验分布列于表1.1。表1.1常用共轭先验分布1.4超参数及其确定一、超参数定义:先验分布中所含的未知参数称为超参数。譬如,成功概率的共轭先验分布是贝塔分布),(Be,它含有两个超参数。一般说来,共轭先验分布常含有超参数,而无信息先验分布(如均匀分布U(0,1))一般不含有超参数。二、估计方法共轭先验分布是一种有信息的先验分布,故其中所含的超参数应充分利用各种先验信息来确定它。(一)利用先验矩假如根据先验信息能获得成功概率的若干个估计值,记为1,2,…,k,一般它们是从历史数据整理加工获得的,由此可算得先验均值和先验方差2S,其中然后令其分别等于贝塔分布的期望与方差,即解之,可得超参数的估计值(二)利用先验分位数假如根据先验信息可以确定贝塔分布的二个分位数,则可用这二个分位数来确定与,譬如用二个上、下四分位数u与L来确定与,u与L分别满足如下两个方程从这两个方程解出与即可确定超参数,这可利用贝塔分布与F分布间的关系,对不同的与多算一些值,使积分值逐渐逼近0.25,也可反过来计算,对一些典型的与,寻求其上、下四分位数u与L。(三)利用先验矩和先验分位数假如根据先验信息可获得先验均值和p分位数,则可列出下列方程解之,可得超参数与

1 / 42
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功