11第二章贝叶斯推断经济学院统计系:陈耀辉MadebycyhMadebycyh2第二章贝叶斯推断§2.1条件方法§2.2估计§2.3区间估计(可信区间)§2.4假设检验§2.5预测§2.6似然原理3§2.1条件方法1.后验分布的特点:未知参数的后验分布是集三种信息(总体、样本和后验)于一身,它包含了所有可供利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息,其提取方法与经典统计推断相比要简单明确得多。2.条件方法的基本思想:基于后验分布的统计推断实际上只考虑已出现的数据(样本观察值)而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计方法被称为条件方法。43.条件方法与频率方法的区别:(以对估计的无偏性认识为例)例如经典统计学认为参数的无偏估计应满足:其中平均是对样本空间中所有可能出现的样本而求的,可实际中样本空间中绝大多数样本尚为出现过,而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性,而条件方法是容易被实际工作者理解和接受的。例2.1(教材P36)xdxxpxxE)|()(ˆ)(ˆ5§2.2估计1.贝叶斯估计定义2.1使后验密度达到最大的值称为最大后验估计;后验分布的中位数称为后验中位数估计;后验分布的期望值称为的后验期望值估计,这三个估计都称为贝叶斯估计,记为。)(xMDMeˆEˆBˆ6例2.2设nxx,,1是来自正态总体),(2N的一个样本,其中2已知,若取的共轭先验分布),(2N作为的先验分布,其中与2已知,求的Bayes估计。解题的基本步骤:1.计算的后验分布:由例1.6知),(~211N2.分析后验分布的特征:对称分布3.求的Bayes估计:2202202202022021ˆxxB78例2.3为估计不合格率,今从一批产品中随机抽取n件,其中不合格品数X服从,一般选取为的先验分布,设已知,求的Bayes估计。解:由共轭先验分布可知,的后验分布为:则得:),(Be),(pnB,),(xnxBenxnxEMDˆ,21ˆ特例:选用贝叶斯假设作为先验分布,即1则:21ˆ,ˆnxnxEMD9第一、在二项分布时,的最大后验估计就是经典统计中的极大似然估计,即的极大似然估计就是取特定的先验分布下的贝叶斯估计。第二、的后验期望值估计要比最大后验估计更合适一些。EˆMDˆ注意:10试验号样本量n不合格数x13000.200210000.08333310.8004101010.91721ˆnxEnxMDˆ表2.1不合格率的二种贝叶斯估计的比较11例2.4设x是来自如下指数分布的一个观察值。又取柯西分布作为θ的先验分布,即:求θ的最大后验估计。解:由前面方法可求出θ的后验密度:为了寻找θ的最大后验估计,对后验密度求导数,得:由于π(θ|x)的非减性,考虑到θ的取值不能超过x,故θ的最大后验估计应为=xMDˆxexpx,)/()(,)1(1)(2xxmexx,)1)(()/(2)(0)1)(()1()1(21)()/(222222xmeeeexmexddxxMDˆMDˆ122.贝叶斯估计的误差设是的一个贝叶斯估计,在样本给定后,是一个数,在综合各种信息后,是按取值,所以评价一个贝叶斯估计的误差的最好而又简单的方式是用θ对的后验均方差或平方根来度量,定义如下:ˆˆ)(x定义2.2设参数θ的后验分布为,贝叶斯估计为,则的后验期望2)ˆ()ˆ(xExMSE称为的后验均方差,而其平方根称为后验标准误。ˆ)(xˆˆ2)ˆ(13注意:(1)表示用条件分布求期望;(2)当时,则称为后验方差,其平方根称为后验标准差;(3)后验均方差与后验方差的关系:)(ˆˆxEE)()ˆ()ˆ(2xVarExMSEExE222)ˆˆ()()]ˆˆ()ˆ[()ˆ()ˆ(EEExxxVarEExMSE这表明,当时,可使后验均方差达到最小,实际中常取后验均值作为的贝叶斯估计值;(4)与经典统计的两点比较:①后验方差应用的方便程度不一样;②计算的复杂程度不一样。(阅读教材p40最后一段)Eˆˆ)(xxE14例2.5设一批产品的不合格率为,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为:,2,1,)1()(1xxXPx3,2,1,31)4(iiP2)41(431)4,3(iiiXP设的先验分布为,如今只获得一个样本观察值x=3,求的最大后验估计,后验期望估计,并计算它的误差。解:(1)先求联合分布。因为已知θ的先验分布和在θ给定下,X=3的条件概率,则联合分布为:X=3的无条件概率为(利用全概率公式)485])41(43)42(42)43(41[31)3(222XP153,2,1,)41(54)3()4,3()34(2iiiXPiXPXiP再求θ的后验分布列为:或414243)34(XiP209208203最后得的最大后验估计:41ˆMD4017)3(ˆXEE160051)4017(8017)()()(222xExExVarMDˆ的后验均方差为161)401741(160051)ˆˆ()()ˆ(22ExVarxMSE8017)3(2XE(2)(3)因为,所以:16例2.6在例2.3中,在选用共轭分布下,不合格品率θ的后验分布为贝塔分布,它的后验方差为:其中n为样本量,x为样本中不合格品数,α与β为先验分布中的两个超参数。若取α=β=1,则其后验方差为:这时θ的后验期望估计和最大后验估计分别为:MDˆ)3()2()1)(1()/(2nnxnxxVar21ˆnxEnxMDˆ)1()())(()/(2nnxnxxVar17显然,的后验均方差就是上述Var(θ/x),的后验均方差为:对若干对(n,x)的值算得的后验方差和后验均方差列入表2.2中。EˆMDˆ2221)3()2()1)(1()/ˆ(nxnxnnxnxxMSEMD表2.2Eˆ和MDˆ的后验均方差EˆVarMDˆMSEnxVarMSE301/50.026670.1600.066670.261001/120.005880.0800.012820.111012/120.010680.101/100.015120.122012/220.003590.061/200.005270.0718§2.3区间估计(可信区间)一、可信区间定义2.3参数的后验分布为)|(x,对给定的样本x和概率)10(1,若存在这样的二个统计量)(ˆˆxLL与)(ˆˆxUU,使得:1)|ˆˆ(xPUL则称区间]ˆ,ˆ[UL为参数的可信水平为1-α贝叶斯可信区间,或简称为的1-α可信区间。满足1)|ˆ(xPL的Lˆ称为的1-α(单侧)可信下限;满足1)|ˆ(xPU的Uˆ称为的1-α(单侧)可信上限。19这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:1.在条件方法下,对给定的样本x和可信水平1-α,通过后验分布可求得具体的可信区间,譬如,θ的可信水平为0.9的可信区间是[1.5,2.6],这时我们可以写出9.0)6.25.1(xP2.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量(含有被估计参数的随机变量),使它的分布不含未知参数,这是一项技术性很强的工作。相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布,可信区间的寻求要简单得多。20例2.7设是来自正态总体的一个样本观察值,其中已知,若正态均值的先验分布取为,其中与已知,则可求得的后验分布为,由此很容易获得的可信区间:nxxx,,,21),(2N2),(2N),(211N11)(21112111P其中21是标准正态分布1-α/2的分位数。21例2.880年代我国彩电平均寿命的贝叶斯估计。经过早期筛选后的彩色电视机的寿命服从指数分布,它的密度函数为:其中θ0是彩电的平均寿命。现从一批彩电中随机抽取n台进行寿命试验,试验到第r(r≤n)台失效为止,其失效时间为,另外n-r台彩电直到试验停止时还未失效,这样的试验称为截尾寿命试验,所得样本称为截尾样本,此截尾样本的联合密度函数为:其中F(t)为彩电的寿命的分布函数,称为总试验时间。0,)|(/1tetpt}/exp{)](1][)|([)|(1rrrnrriistFtpptrttt21),,(1rtttrrrtrntts)(122(1)确定参数θ的先验分布:倒伽玛分布IGa(α,β)(2)利用历史资料确定两个超参数α和β的值(用第三种方法)(3)求出θ的后验分布:IGa(α+r,β+Sr)(4)用后验均值作为θ的贝叶斯估计:(5)可信下限的确定1)|(ˆrStEr具体实施的步骤:23定义2.4设参数θ的后验密度为π(θ|x),对给定的概率1-α(0α1),若在直线上存在这样一个子集C,满足下列二个条件:①P(C|x)=1-α②对任给θ1∈C和,总有π(θ1|x)≥π(θ2|x),则称C是θ的可信水平为(1-α)的最大后验密度可信集,简称(1-α)HPD可信集,如果C是一个区间,则C又称为(1-α)HPD可信区间。C2二、最大后验密度(HPD)可信区间2425注:后验密度函数π(θ|x)是θ的单峰连续函数时,获得θ的(1-α)HPD可信区间的数值计算方法:Step1:对给定的k,建立子程序;解方程π(θ|x)=k,得解θ1(k)和θ2(k),从而组成一个区间:C(k)=[θ1(k),θ2(k)]={θ:π(θ|x)≥k}。Step2:建立第二个子程序,用来计算概率:Step3:对给定的k,若P(θ∈C(k)|x)≈1-α,则C(k)即为所求的HPD可信区间。若P(θ∈C(k)|x)1-α,则增大k,再转入Step1与Step2。若P(θ∈C(k)|x)1-α,则减小k,再转入Step1与Step2。)()|()|)((kCdxxkCP26例2.9在2.8中已经确定彩电平均寿命θ的后验分布为倒伽玛分布IGa(1.956,42868),现求θ的可信水平为0.90的最大后验密度(HPD)可信区间。解题的基本步骤:1.确定参数θ的后验密度和分布函数:后验密度:分布函数:2.确定初始值3.按第一步计算初始区间4.计算后验概率5.验证初始区间是否满足要求,满足则停止,否则继续。0,)|(/32ex0,1)|(/etF27表2.3可信区间的搜索过程β/16.710.3678790.3677650.7357590.0093830.7263760.59.2550.0758160.0758110.9098000.0009810.9088190.539.0390.0876300.0876540.9005660.0011910.8983750.528