苏州大学研究生考试答卷封面考试科目:贝叶斯统计考试得分:________________院别:数学科学学院专业:应用统计专硕学生姓名:林挺挺学号:20154507001授课教师:朱信枢考试日期:年月日贝叶斯统计读书报告一、背景——贝叶斯学派的起源与发展简介在国际统计学术界中有贝叶斯统计和经典统计两大学派,这两个学派之间长期存在争论,至今也没有定论。贝叶斯学派起源于贝叶斯的《机会学说中一个问题的解》,随后拉普拉斯不仅独立的发现了贝叶斯定理,而且阐述的比贝叶斯更为清晰,并用它来解决天体力学、医学统计和法学问题。二十世纪50年代后,经拉姆齐、杰弗里斯、萨维奇等统计学家的努力,形成了系统的方法和学说,日益受到人们的重视,并渗透到非统计领域。事实上,这两个学派的争论构成了现代数理统计发展过程的一个特色。英国统计学家Lindely认为21世纪将是贝叶斯统计的世界,而Efrom认为出现这个局面的可能性只有15%。但无论如何,这两个学派学者都认为:这场争论对现代统计理论的发展将起着积极的促进作用。二、贝叶斯统计方法与经典统计方法的比较在统计推断的基本理论和方法两个方面,贝叶斯学派与经典学派之间存在着本质性的差异,这主要表现在以下几个方面:1.经典学派在进行统计推断时,依据两类信息:一是总体信息,即统计总体服从何种概率分布,这是制定统计方法的基础;另外一个是样本信息,即观察或实验的结果。贝叶斯学派则除了以上两类信息外,尚利用另外一类信息,即总体分布中未知参数的分布信息。2.经典学派坚持概率的频率解释,并在这个基础上去理解一切统计推断的结论,如在Neyman的区间估计理论中,“某区间估计[𝜃,𝜃]的置信水平为1-α”这一推断,此处应θ理解为一无随机性的未知参数,当区间估计[𝜃,𝜃]反复大量使用时,100次中大约平均有(1-α)100次包含了参数θ。与此相反,贝叶斯学派赞成主观概率,概率是认识主体对事件出现可能性大小的相信程度,它并不依赖时间能否重复。3.贝叶斯方法只能基于参数的后验分布来分析问题。也就是说,在获得后验分布后,如果把样本、原来的统计模型(包括总体分布和先验分布)都丢掉,一点也不会影响将来的统计推断问题,凡是符合这个准则的推断就是贝叶斯推断。就此,经典学派中的矩估计、显著性检验和置信区间估计都不属于贝叶斯推断的范畴,但MLE估计则可视为均匀先验分布之下的贝叶斯估计。因此,作为经典学派中一个很重要的极大似然估计,不过是在一种很特殊先验分布下的贝叶斯估计而已。三、第一章先验分布和后验分布1.1贝叶斯公式(一)贝叶斯公式的密度函数形式1.依赖于参数θ的密度函数在经典统计中记为p(x;θ)或p𝜃(𝑥),它表示在参数空间Θ={θ}中不同的θ对应不同的分布。可在贝叶斯统计中记为p(x|θ)它表示在随机变量θ给定某个值时,总体指标X的条件分布。2.根据参数θ的先验信息确定先验分布π(θ)。这是贝叶斯学派在最近几十年里重点研究的问题。3.从贝叶斯观点看,样本x=(𝑥1,…,𝑥𝑛)的产生要分两步进行。首先设想从先验分布π(θ)产生一个样本𝜃‘,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二部是从总体分布p(x|𝜃‘)产生一个样本x=(𝑥1,…,𝑥𝑛),这个样本是具体的,人们能看到的,此样本x发生的概率是与如下联合密度函数成正比。p(x|𝜃‘)=∏p(𝑥𝑖|𝜃‘)𝑛𝑖=1这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为L(𝜃‘)。频率学派和贝叶斯学派都承认似然函数,两派认为:在有了样本观察值x=(𝑥1,…,𝑥𝑛)后,总体和样本中所含θ的信息都被包含在似然函数L(𝜃‘)之中,可在使用似然函数作统计推断时,两派之间还是有差异的。4.由于𝜃‘是设想出来的,它仍然是未知的,它是按先验分布π(θ)而产生的,要把先验信息进行综合,不能只考虑𝜃‘,而应对θ的一切可能加以考虑。故要用π(θ)参与进一步综合。这样一来,样本x和参数θ的联合分布h(x,θ)=p(x|θ)π(θ)把三种可用的信息都综合进去了。5.我们的任务是要求未知数θ做出统计推断。在没有样本信息时,人们只能据先验分布对θ作出推断。在有样本观察值x=(𝑥1,…,𝑥𝑛)之后,我们依据h(x,θ)对θ作出推断。为此我们需把h(x,θ)作如下分解:h(x,θ)=𝜋(θ|x)𝑚(𝑥)其中m(x)是x的边缘密度函数。m(x)=∫h(x,θ)𝑑𝜃=∫𝑝(𝑥|𝜃)𝜋(𝜃)ΘΘ它与𝜃无关,或者说,m(x)中不含𝜃的任何信息。因此能用来对𝜃作出推断的仅是条件分布𝜋(θ|x)。它的计算公式是𝜋(θ|x)=h(x|θ)𝑚(𝑥)=𝑝(𝑥|𝜃)𝜋(𝜃)∫𝑝(𝑥|𝜃)𝜋(𝜃)Θ𝑑𝜃这就是贝叶斯公式的密度函数形式。这个在样本x给定下,θ的条件分布被称为θ的后验分布。它是集中了总体、样本和先验等三种信息中有关θ的一切信息,而又是排除一切与θ无关的信息之后所得到的的结果。6.在θ是离散随机变量时,先验分布可用先验分布列π(𝜃𝑖),i=1,2,…,表示。这时后验分布也是离散形式。π(𝜃𝑖|x)=𝑝(𝑥|𝜃𝑖)𝜋(𝜃𝑖)∑𝑝(𝑥|𝜃𝑗)𝜋(𝜃𝑗)𝑗,i=1,2,….假如总体X也是离散的,那只要把上述中的密度函数𝑝(𝑥|𝜃)看作为概率函数P=(X=x|θ)即可。(二)后验分布是三种信息的综合一般来说,先验分布𝜋(𝜃)是反映人们在抽样前对𝜃的认识,后验分布𝜋(θ|x)是反映了人们在抽样后对𝜃的认识,之间的差异是由于样本x出现后人们对𝜃认识的一种调整。所以后延分布𝜋(θ|x)可以看作是人们用总体信息和样本信息(综合称为抽样信息)对先验分布𝜋(𝜃)作调整的结果。1.2共轭先验分布(一)共轭先验分布在区间(0,1)上的均匀分布是贝塔分布Be(1,1)。二项分布b(n,𝜃)中的成功概率𝜃的先验分布若取Be(1,1),则其后验分布也是贝塔分布Be(x+1,n-x+1)。其中x为n次独立试验中成功出现次数。先验分布与后验分布同属于一个贝塔分布族,只是其参数不同而已。这一现象不是偶然的,假如把𝜃的先验分布换成一般的贝塔分布Be(α,β),其中α0,β0。经过类似计算可以看出,𝜃的后验分布仍是贝塔分布Be(α+x,β+n−x),此种先验分布被称为𝜃的共轭先验分布。它的一般定义如下:设𝜃是总体分布中的参数(或参数向量),π(𝜃)是𝜃的先验密度函数,假如由抽样信息算的后验密度函数与π(𝜃)有相同的函数形式,则称π(𝜃)是𝜃的(自然)共轭先验分布。应着重之处,共轭先验分布是对某一分布中的参数而言的。如正态均值、正态方差、泊松均值等。离开指定参数及其所在的分布区谈论共轭先验分布是没有意义的。(二)后验分布的计算在给定样本分布𝑝(𝑥|𝜃)和先验分布𝜋(𝜃)后可用贝叶斯共识计算𝜃的后验分布𝜋(θ|x)=𝑝(𝑥|𝜃)𝜋(𝜃)/m(x)由于m(x)不依赖于θ,在计算θ的后验分布中仅起到一个正则化因子的作用。因此把m(x)省略,贝叶斯公式可用改写为如下等价形式𝜋(θ|x)∝𝑝(𝑥|𝜃)𝜋(𝜃)其中符号“∝”表示两边仅差一个常数因子,一个不依赖于θ的常数因子。例1.7二项分布中的成功概率θ的共轭先验分布是贝塔分布。设总体X∼b(n,θ),其密度函数中与θ有关的部分为𝜃x(1−θ)𝑛−𝑥。又设θ的先验分布为贝塔分布Be(α,β),其核为𝜃α−1(1−θ)𝛽−1,其中α,β已知,从而可写出θ的后验分布𝜋(θ|x)∝𝜃α+x−1(1−θ)𝛽+𝑛−𝑥−1,0θ1立即可以看出,这是贝塔分布Be(α+x,β+n−x)的核,故此后验密度为𝜋(θ|x)=Γ(𝛼+𝛽+𝑛)Γ(𝛼+𝑥)Γ(𝛽+𝑛−𝑥)𝜃α+x−1(1−θ)𝛽+𝑛−𝑥−1,0θ1(三)共轭先验分布的优缺点共轭先验分布在很多场合被采用,因为它有两个优点:1.计算方便,这可从上面的例子中体会2.后验分布的一些参数可得到很好的解释。但其也有缺点,主要是怎样找到合适的先验分布。例1.8在“正态均值θ的共轭先验分布为正态分布”的例子中,其后验均值可以改写为:𝜇1=𝜎0−2𝜎0−2+𝜏−2𝑥̅+𝜏−2𝜎0−2+𝜏−2𝜇这表明后验均值是在先验均值与样本均值间采取折衷方案。在处理正态分布时,方差的倒数发挥着重要的作用,并称其为精度,于是在正态均值的共轭先验分布的讨论中,其后验方差𝜏12所满足的等式1𝜏12=1𝜎02+1𝜏2=𝑛𝜎2+1𝜏2可解释为:后延分布的精度是样本均值分布的精度与先验分布精度之和,增加样本量n或减少先验分布方差都有利于提高后验分布的精度。(四)常用的共轭先验分布共轭先验分布的选取是由似然函数L(θ)=p(x|θ)中所含θ的因式所决定的,即选与似然函数(θ的函数)具有相同核的分布作为先验分布。若此想法得以实现,那共轭先验分布就产生了。在实际中常用的共轭先验分布列于表1.1。表1.1常用共轭先验分布总体分布参数共轭先验分布二项分布成功概率贝塔分布Be(α,β)泊松分布均值伽玛分布Ga(α,λ)指数分布均值的倒数伽玛分布Ga(α,λ)正态分布(方差已知)均值正态分布N(μ,𝜏2)正态分布(均值已知)方差倒伽马分布IGa(α,λ)1.3超参数及其确定先验分布中所含的未知参数称为超参数。譬如,成功概率的共轭先验分布是贝塔分布Be(α,β),它含有两个超参数。一般说来,共轭先验分布常含有超参数,而无信息先验分布(如均匀分布U(0,1))一般不含有超参数。共轭先验分布是一种有信息的先验分布,故其中所含的超参数应充分利用各种先验信息来确定它。(一)利用先验矩假如根据先验信息能获得成功概率θ的若干个估计值,记为𝜃1,𝜃2,…,𝜃𝑘,一般它们是从历史数据整理加工获得的,由此可算得先验均值𝜃̅和先验方差𝑆𝜃2,其中𝜃̅=1k∑𝜃𝑖𝑘𝑖=1,𝑆𝜃2=1k−1∑(𝜃𝑖−𝜃̅)2𝑘𝑖=1然后令其分别等于贝塔分布Be(α,β)的期望与方差,即{𝛼𝛼+𝛽=𝜃̅𝛼𝛽(𝛼+𝛽)2(𝛼+𝛽+1)=𝑆𝜃2解之,可得超参数𝛼,𝛽的估计值𝛼̂=𝜃̅((1−𝜃̅)𝜃̅𝑆𝜃2−1)𝛽̂=(1−𝜃̅)((1−𝜃̅)𝜃̅𝑆𝜃2−1)(二)利用先验分位数假如根据先验信息可以确定贝塔分布的二个分位数,则可用这二个分位数来确定α与β,譬如用二个上、下四分位数𝜃𝑈与𝜃𝐿来确定α与β,𝜃𝑈与𝜃𝐿分别满足如下两个方程{∫Γ(𝛼+𝛽)Γ(𝛼)Γ(𝛽)𝜃𝛼−1𝜃𝐿0(1−𝜃)𝛽−1𝑑𝜃=0.25∫Γ(𝛼)Γ(𝛽)Γ(𝛼+𝛽)𝜃𝛼−10𝜃𝑈(1−𝜃)𝛽−1𝑑𝜃=0.25从这两个方程解出α与β即可确定超参数,这可利用贝塔分布与F分布间的关系,对不同的α与β多算一些值,使积分值逐渐逼近0.25,也可反过来计算,对一些典型的α与β,寻求其上、下四分位数𝜃𝑈与𝜃𝐿。(三)利用先验矩和先验分位数假如根据先验信息可获得先验均值𝜃̅和p分位数,则可列出下列方程{𝛼𝛼+𝛽=𝜃̅∫Γ(𝛼+𝛽)Γ(𝛼)Γ(𝛽)𝜃𝛼−1𝜃𝑝0(1−𝜃)𝛽−1𝑑𝜃=𝑝解之,可得超参数α与β的估计值。(四)其它方法假如根据先验信息只能获得先验均值𝜃̅,这时可令𝛼𝛼+𝛽=𝜃̅一个方程不能唯一确定两个参数,这时还要利用其它先验信息才能把α与β确定下来。第一章习题1.3设θ是一批产品的不合格率,从中抽取8个产品进行检验,发现3个不合格品,假如先验分布为(一)θ~U(0,1)(二)θ~π(θ)={2(1−𝜃),0𝜃10,其它场合分别求θ的后验分布。解:(1)𝑝(𝑥|𝜃)=𝐶83𝜃3(1−θ)5𝜋(θ|x)=h(x|θ)𝑚(𝑥)=𝑝(𝑥|𝜃)𝜋(�