贝叶斯估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第三章贝叶斯估计§3.1贝叶斯推断方法一、统计推断中可用的三种信息美籍波兰统计学家耐(E.L.Lehmann1894~1981)高度概括了在统计推断中可用的三种信息:1.总体信息,即总体分布或所属分布族给我们的信息。譬如“总体是指数分布”或“总体是正态分布”在统计推断中都发挥重要作用,只要有总体信息,就要想方设法在统计推断中使用。2.样本信息,即样本提供我们的信息,这是任一种统计推断中都需要。23.先验信息,即在抽样之前有关统计推断的一些信息。譬如,在估计某产品的不合格率时,假如工厂保存了过去抽检这种产品质量的资料,这些资料(包括历史数据)有时估计该产品的不合格率是有好处的。这些资料所提供的信息就是一种先验信息。又如某工程师根据自己多年积累的经验对正在设计的某种彩电的平均寿命所提供的估计也是一种先验信息。由于这种信息是在“试验之前”就已有的,故称为先验信息。以前所讨论的点估计只使用前两种信息,没有使用先验信息。假如能把收集到的先验信息也利用起来,那对我们进行统计推断是有好处的。只用前两种信息的统计学称为经典统计学,三种信息都用的统计学称为贝叶斯统计学。本节将简要介绍贝叶斯统计学中的点估计方法。3四、贝叶斯推断(估计)Ⅰ条件方法由于未知参数的后验分布是集三种信息(总体、样本和先验)于一身,它包含了所有可供利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息,其提取方法与经典统计推断相比要简单明确得多。基于后验分布的统计推断就意味着只考虑已出现的数据(样本观察值)而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计方法被称为条件方法。4例如经典统计学认为参数的无偏估计应满足:其中平均是对样本空间中所有可能出现的样本而求的,可实际中样本空间中绝大多数样本尚未出现过,而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性,而条件方法是容易被实际工作者理解和接受的。5Ⅱ估计1.贝叶斯估计定义3.2使后验密度达到最大的值称为最大后验估计;后验分布的中位数称为后验中位数估计;后验分布的期望值称为的后验期望值估计,这三个估计都称为贝叶斯估计,记为。)(x^MDMeˆEˆBˆ),(pnB),(Be,),(xnxBenxnxEMDˆ,21ˆ例1为估计不合格率,今从一批产品中随机抽取n件,其中不合格品数X服从,一般选取为的先验分布,设已知,由共轭先验分布可知,的后验分布为可计算得:6选用贝叶斯假设,则121ˆ,ˆnxnxEMD第一、在二项分布时,的最大后验估计就是经典统计中的极大似然估计,即的极大似然估计就是取特定的先验分布下的贝叶斯估计。第二、的后验期望值估计要比最大后验估计更合适一些。Eˆ^MD第三、的后验期望值估计要比最大后验估计更合适一些。表2.1列出四个实验结果,在试验1与试验2中,“抽检3个产品没有一件不合格”与抽检10个产品没有一件是不合格”这两件事在人们心目中留下的印象是不同的。后者的质量要比前者的质量更信得过。7试验号样本量n不合格数x13000.200210000.08333310.8004101010.91721ˆnxEnxMDˆ表3.1不合格率的二种贝叶斯估计的比较8在试验3和试验4中,“抽检3个产品全部不合格”与抽检“10个产品全部不合格”也是有差别的。在实际中,人们经常选用后验期望估计作为贝叶斯估计。2.贝叶斯估计的误差设是的一个贝叶斯估计,在样本给定后,是一个数,在综合各种信息后,是按取值,所以评价一个贝叶斯估计的误差的最好而又简单的方式是用θ对的后验均方差或平方根来度量,定义如下:ˆˆ)(x2)ˆ()ˆ(xExMSE称为的后验均方差,而其平方根称为后验标准差.ˆ)(xˆˆˆ定义3.2设参数θ的后验分布为,贝叶斯估计为,则的后验期望9当时,则,称为后验均方差.后验均方差与后验方差有如下关系:)(ˆxEE)()ˆ()ˆ(2xVarExMSEExE222)ˆˆ()()]ˆˆ()ˆ[()ˆ()ˆ(EEExxxVarEExMSE这表明,当时,可使后验均方差达到最小,实际中常取后验均值作为的贝叶斯估计值.Eˆˆ10例2设一批产品的不合格率为,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为,2,1,)1()(1xxXPx3,2,1,31)4(iiP2)41(431)4,3(iiiXP设的先验分布为,如今只获得一个样本观察值x=3,求的最大后验估计,后验期望估计,并计算它的误差.故联合分布为X=3的无条件概率为(利用全概率公式)11485])41(43)42(42)43(41[31)3(222XP3,2,1,)41(54)3()4,3()34(2iiiXPiXPXiP故或414243)34(XiP209208203可看出,的最大后验估计41ˆMD4017)3(ˆXEE160051)4017(8017)()()(222xExExVar的后验方差为161)401741(160051)ˆˆ()()ˆ(22ExVarxMSEMDˆ123.区间估计(可信区间)对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法求置信区间常受到批评.定义3.3参数的后验分布为,对给定的样本和概率,若存在这样的二个统计量与,使得)(xx)10(1)(ˆˆxLL)(ˆˆxUU1)ˆˆ(xPUL则称区间为参数的可信水平为贝叶斯可信区间,或简称为的可信区间.而满足]ˆ,ˆ[UL11131)ˆ(xPL的称为的(单侧)可信下限.Lˆ11)ˆ(xPU满足的称为的(单侧)可信上限.Uˆ1这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:1.在条件方法下,对给定的样本和可信水平,通过后验分布可求得具体的可信区间,譬如,的可信水平为0.9的可信区间是,这时我们可以写出x19.0)6.25.1(xP]6.2,5.1[142.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量,使它的分布不含未知参数,这是一项技术性很强的工作.相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布,可信区间的寻求要简单得多.例3设是来自正态总体的一个样本观察值,其中已知,若正态均值的先验分布取为,其中与已知,则可求得的后验分布为,由此获得的可信区间nxxx,,,21),(2N2),(2N),(211N11)(21112111P15EX1设随机变量X的密度函数为(1)假如θ的先验分布为U(0,1),求θ的后验分布.(2)假如θ的先验分布为求θ的后验分布及后验期望估计10,2)(2xxxp10,3)(21lnˆ,1,)1()()1(2xxxxxxxE21ˆ,1,)1(1)()2(xxxxE163、2贝叶斯决策方法决策就是对一件事作决定。它与推断的差别在于是否涉及后果。统计学家在作推断时是按统计理论进行的,但很少考虑结论在使用后的损失。可决策者在使用推断时必需与得失联系在一起,能带来利润的就会使用,使他遭受损失的就不会采用,度量得失的尺度就是损失函数。它是著名的统计学家A.Wald(1902-1950)在40年代引入的一个概念。从实际归纳出损失函数是决策的关键。贝叶斯决策:把损失函数加入贝叶斯推断就形成贝叶斯决策论,损失函数被称为贝叶斯统计中的第四种信息。17一、决策的基本概念321,,321,,aaa3-2014-3-4-12例1设甲乙二人进行一种游戏,甲手中有三张牌,分别标以。乙手中也有三张牌,分别标以。游戏的规则是双方各自独立的出牌,按下表计算甲的得分与乙的得分。321aaa32118这是一个典型的双人博弈(赌博)问题。不少实际问题可归纳为双人博弈问题。把上例中的乙方改为自然或社会,就形成人与自然(或社会)的博弈问题。例2农作物有两个品种:产量高但抗旱能力弱的品种和抗旱能力强但产量低的品种。在明年雨量不知的情况下,农民应该选播哪个品种可使每亩平均收益最大?这是人与自然界的博弈。以明年60mm雨量为界来区分雨量充足和雨量不充足。写出收益矩阵(单位:元)121221aa21aa100020010040019例3一位投资者有一笔资金要投资,有以下几个投资供他选择:购买股票,根据市场情况,可净赚5000元,但可能使他亏损10000元存入银行,不管市场情况如何总可净赚1000元::21aa212121aa这位投资者在金融市场博弈。未来的金融市场也有两种情况:看涨与看跌可写出投资者的收益矩阵50001000-100001000投资者将依据收益矩阵决定他的资金投向何方这种人与自然(或社会)的博弈问题称为决策问题20二、决策的三要素1aaA1状态集,其中每个元素表示自然界(或社会)可能出现的一种状态,所有可能状态的全体组成状态集。2行动集,其中a表示人对自然界可能采取的一个行动一般行动集有两个以上的行动可供选择。若有两个行动无论对自然界的哪一个状态出现,总比收益高,则就没有存在的必要,可把它从行动集中去掉,使留在行动集中的行动总有可取之处。22aa213收益函数,函数值表示当自然界处于状态,而人们选取行动时所得到的收益大小。收益函数的值可正可负,若正表示盈利,负表示亏损,单位常用货币单位,收益函数的建立不是件容易的事,要对所研究的问题有全面的了解才能建立起来。收益矩阵aQ,ijanmnnmmQQQQQQQQQQ212222111211,ijijQaQ22三、损失函数1、从收益到损失为了统一处理,在决策中常用一个更为有效的概念:损失函数。在状态集和行动集都为有限时用损失矩阵。这里的损失函数不是负的收益,也不是亏损。例如,某商店一个月的经营收益为-1000元,即亏1000元。这是对成本而言。我们不能称为损失,而称其为亏损。我们讲的损失是指“该赚而没有赚到的钱”,例如该店本可以赚2000元,当由于某种原因亏了1000元,那我们说该店损失了3000元。用这种观点认识损失对提高决策意识是有好处的。按上述观点从收益函数可以很容易获得损失函数。23例4某公司购进某种货物可分大批、中批和小批三种行动,记为,未来市场需求量可分为高、中、低三种状态,记为,三个行动在不同的市场的利润如下这是一个收益矩阵,我们把它改写为损失矩阵如下:321,,aaa18.07.22432610Q321,,0481023.71.80L321,,aaa242、损失函数aQaQaLAa,,,maxaLaA,构成决策问题的三要素:由收益函数容易获得损失函数例5某公司购进一批货物投放市场,若购进数量a低于市场需求量,每吨可赚15万元。若购进数量超过市场需求量,超过部分每吨反要亏损35万元。由此可写出收益函数aaaaaQ351515,25显然,当购进数量a等于市场需求量时,收益达到最大aaaaaL3515,263、损失函数下的悲观准则AaaL,,max''aa',,maxmaxminaLa

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功