贝叶斯统计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1《贝叶斯统计》课程设计班级:姓名:学号:2目录《贝叶斯统计》................................1目录.............................................2一、贝叶斯统计的意义.............................3二、贝叶斯统计的基本思想.........................4先验分布......................................4后验分布.....................................5三、贝叶斯估计...................................5点估计........................................5区间估计......................................6假设检验......................................7四、贝叶斯估计应用实例...........................83一、贝叶斯统计的意义贝叶斯统计起源于英国学者贝叶斯的一篇论文“论有关机遇问题的求解”。在这篇论文中,他提出了著名的贝叶斯公式。又设参数θ已知时,样本x的分布密度为f(x|θ),θ的先验密度为(θ),则已知样本Y后,参数θ的后验密度为h(θ|X)=dxfxf)|()()|()((1)贝叶斯公式、参数θ的后验密度公式(1)及贝叶斯假设构成了贝叶斯统计的起点。频率学派进行统计推断时,依据两种信息:一是总体信息,即统计总体服从何种概率分布,例如总体服从正态分布。另一是样本信息,即从总体抽取的样本给我们提供的信息。贝叶斯学派则除以上两种信息外,还须利用先验信息,即在抽样(试验)之前有关总体分布的未知参数的信息。贝叶斯学派受到的批评集中于以下两点:1)参数日看成是随机变量是否合适;2)先验分布是否存在,如何确定。贝叶斯统计在参数的点估计、区间估计及假设检验方面形成了与频率统计相平行的理论方法,并赋予统汁推断以新的解释”,它在可靠性方面有着成功的应用。贝叶斯分析与统计决策论也是难以分开的,贝叶斯统计具有简洁实用的特点。贝叶斯方法的关键是先验分布的确定。由于现实世界中的事物的发生常不具备大量可重复性,事件发生的概率较难具有频率解释,而又面临解决问题,这导致主观概率、先验分布的提出,试图通过科学的思维活动来弥补经验的不足,再利4用样本X调整先验分布π(θ)为后验分布h(θ|X),完成对参数目认识的再认识。二、贝叶斯统计的基本思想1、贝叶斯统计认为一些事件的概率在大量重复试验中去获得是不现实的,而我们可以根据对此事件的了解和积累的经验做出此事件发生可能性的判断。2、贝叶斯学派很注重先验信息的收集、挖掘和加工,使他们数量化成先验分布,参加到统计推断中,以此提高统计推断的质量。3、贝叶斯统计把任何一个未知的参数都看作是随机变量,都有不确定性,用一个概率分布去描述这个未知的参数,在统计推断中只利用已经出现的数据,即样本信息,这就是贝叶斯统计中的“条件观点”。4、贝叶斯的判断方法是在获得后验分布之后,可分别计算原假设H0和备择假设H1的后验概率。先验分布它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。5后验分布根据样本X的分布Pθ及θ的先验分布π(θ),用概率论中求条件概率分布的方法,可算出在已知X=x的条件下,θ的条件分布π(θ|x)。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X及先验分布π(θ)所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。如上例,设p=P(θ=1)=0.001,而π(θ=1|x)=0.86,则贝叶斯学派解释为:在某甲的指标量出之前,他患病的可能性定为0.001,而在得到X后,认识发生了变化:其患病的可能性提高为0.86,这一点的实现既与X有关,也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率),这公式正是上面提到的贝叶斯1763年的文章的一个重要内容。贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布π(θ│X),而不能再涉及X的样本分布Pθ。三、贝叶斯估计点估计后验分布π(θ|x)估计θ的三种常用方法:·使用后验分布的密度函数最大值点作为θ的点估计的最大后验估计·使用后验分布的中位数作为θ的点估计的后验中位数估计6·使用后验分布的均值作为θ的点估计的后验期望估计例、设总体为均匀分布U(θ,θ+1),θ的先验分布是均匀分布U(10,16).现有三个观测值:11.7,12.1,12.0求θ的后验分布。解:参数θ的先验分布为(θ)=61I1610总体X的条件分布为P(X|θ)=I1x有样本X1,X2,X3的联合条件分布为P(x1,x2,x3|θ)=I,1x2x3x1则样本X1,X2,X3和参数θ的联合分布为h(x1,x2,x3,θ)=61I,1x2x3x1,1610=61I)3(x1)1(x,1610,可得样本X1,X2,X3的边际分布为m(x1,x2,x3)=61I)3(x1)1(x,1610dθ=7.111.1161dθ=0.1,故参数θ的后验分布为(θ|x1,x2,x3)=)()(3,2,1,3,2,1xxxmxxxh=35I7.111.11.区间估计用数轴上的一段经历或一个数据区间,表示总体参数的可能范围.这一段距区间估计离或数据区间称为区间估计的置信区间。参数估计一般是指根据样本信息,对总体分布中的未知参数θ进行估计,而我们通常都是对均值或方差进行估计。区间估计是参数估计的一种,7它是指对于给定的置信度1-α,总体参数θ的取值在某一区间内的概率是1-α,而这一置信区间正是我们需要求解的。从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法p(h|D)=P(D|H)*P(H)/P(D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少,即如果D独立于h时被观察到的可能性越大,那么D对h的支持度越小。利用贝叶斯统计推断方法,给出了正态总体未知参数(期望、方差及其函数)的后验置信概率1-α的区间估计.假设检验在贝叶斯统计的检验中,先验信息的分布和参数的变化可以引起拒绝域的变化,而贝叶斯统计在后验均值估计的最基本特征是伸缩性。贝叶斯统计在检验问题中的一个优势在于多重检验问题。例如:在一次企业对种生产方法的比较检验中,我们将假设设为:H0:θ=0;H1:θ0;H2:θ0,H0表示两种方法无显著差别,H1表示方法一优于方法二,H2表示方法二优于方法一。8四、贝叶斯估计应用实例1、一个人打靶,打了n次,命中了r次,估计此人打靶命中的概率θ。解:一般的估计方法是:^=r/n。当n=r=l时,^=1;当n=r=100时,仍有^=1。而实际上在这两种情况下,反映出的此人的射击水平是不一样的。依贝叶斯方法,n次独立射击,命中r次的概率为f(r|θ)=Crnrnr)1(当对参数θ一无所知时,可设θ服从【O,l】上的均匀分布,由(1)得h(θ|r)=10)1()1(drnrrnr0≤θ≤l取θ关于其后验分布的期望E(θ|r)去估计θ,得θ的贝叶斯估计:^=(r+1)/(n+2)。此时,当n=r=1时,^=2/3;当n=r=100时,有^=101/102。显然这个估计比r/n要合理。2、以随机变量θ代表某人群中个体的智商真值,θi为第i个个体的智商真值,随机变量Xi代表第i个个体的智商测验得分,若该人群的期望智商为µ,则第i个个体在一次智商测验中的得分可以表示为:Xij=µ+ei+eij其中ei为第i个个体的自然变异,eij为第i个个体第j次测量的测量误差。根据以往积累的资料,已知在某年龄的儿童的智商真值θ~N(100,225),个体智商测验得分X~N(θ,100)。现在一名该年龄的儿童智商测验得分为ll5,问:(1)该儿童智商真9值是否高于同龄儿童的平均水平?(2)若取θ在(a,b)为正常,问该儿童智商是否属于正常?解:在贝叶斯学派中,当θi未知时,将其看作随机变量,与θ具有相同的分布,根据贝叶斯理论,θ的先验分布是N(100,225),测验结果X~N(θ,100),儿童智商的后验分布为正态分布N(110.38,69.23)。对第一问,同样设H0:θ=100,Hl:θl00,查正态分布表可以得到P(H0|X=115)=0.106,P(H1|X=115)=O.894根据风险最小原则拒绝H0,接受H1。对第二问,设H0:aθb1H1:ea或θb,查正态分布表可以分别得到P(H0|X=I15)和P(H1|X=I15),类似第一问,依据风险最小原则做出推断。

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功