第七章 参数估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第七章参数估计统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题.本章讨论总体参数的点估计和区间估计.§1点估计设总体X的分布函数的形式为已知,但它的一个或多个参数为未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题.例1在某炸药制造厂,一天中发生着火现象的次数X是一个随机变量,假设它服从以o为参数的泊松分布,参数为未知.现有以下的样本值,试估计参数.解由于X,故有=E(X).我们自然想到用样本均值来估计总体的均值E(X).现由已知数据计算得到得E(X)=的估计为1.22.口.176.点估计问题的一般提法如下:设总体X的分布函数的形式为已知,是待估参数.X,,X:,…,X。是X的一个样本,是相应的一个样本值.点估计问题就是要构造一个适当的统计量(),用它的观察值()作为未知参数的近似值.我们称()为的估计量,称()为的估计值.在不致混淆的情况下统称估计量和估计值为估计,并都简记为.由于估计量是样本的函数.因此对于不同的样本值,的估计值一般是不相同的。例如在例1中,我们用样本均值来估计总体均值.即有估计量下面介绍两种常用的构造估计量的方法:矩估计法和最大似然估计法.(一)矩估计法设X为连续型随机变量,其概率密度为Zf(x;),或X为离散型随机变量,其分布律为P{X=x}=p(x;),其中为待估参数,是来自X的样本.假没总体X的前k阶矩(其中Rx是X可能取值的范围)存在.一般来说,它们是的函数.基于样本矩:○1多于一个未知参数时,可同样讨论.·177·依概率收敛于相应的总体矩(i=l,2,…,k),样本矩的连续函数依概率收敛于相应的总体矩的连续函数(见第六章§2),我们就用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量.这种估计方法称为矩估计法.矩估计法的具体做法如下:设这是一个包含是k未知参数的联立方程组.一般来说,可以从中解出,得到以Ai分别代替上式中的,i=1,2,…,k,就以分别作为,i=1,2,…,k的估计量,这种估计量称为矩估计量.矩估计量的观察值称为矩估计值.例2设总体X在[a,b]上服从均匀分布,a,b未知.是来自X的样本,试求a,b的矩估计量..178.·自这一方程组解得解所得结果表明,总体均值与方差的矩估计量的表达式不因不同的总体分布而异.(二)最大似然估计法若总体X属离散型,其分布律P{X.179.=x}=p(x;),的形式为已知,为待估参数,是可能取值的范围.设是来自X的样本,则的联合分布律为又设是相应于样本的一个样本值.易知样本取到观察值的概率,亦即事件发生的概率为这一概率随的取值而变化,它是的函数。L()称为样本的似然函数(注意,这里是已知的样本值.它们都是常数).关于最大似然估计法,我们有以下的直观想法:现在已经取到样本值了,这表明取到这—一样本值的概率了L()比较大.我们当然不会考虑那些不能使样本,出现的作为估计,再者,如果已知当使取很大值,而中的其它的值使L()取很小值,我们自然认为取作为未知参数的估计值,较为合理.由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值,在取值的nT能范围内挑选使似然函数达到最大的参数值,作为参数的估计值.即取使这样得到的与样本值,有关,常记为(),称为参数的最大似然估计值,而相应的统计量()称为参数的最大似然估计量.若总体X届连续型,其概率密度.f(x;),的形式已知,为待估参数,是可能取值的范围.设是来自X.180.的样本,则的联合密度为设是相应于样本的一个样本值,则随机点()落在点()的邻域(边长分别为的n维立方体)内的概率近似地为其值随的取值而变化,与离散型的情况——样,我们取的估计值使概率(1.3)取到最大值,但因子不随而变,故只需考虑函数的最大值.这里称为样本的似然函数.若则称()为的最大似然估计值,称()为的最大似然估计量.这样,确定最大似然估计量的问题就归结为微分学中的求最大值的问题丁.以从方程·181’求得,而从后一方程求解往往比较方便.(1.6)称为对数似然方程。例4设.是来自X的一个样本,试求参数p的最大似然估计量.解设是相应于样本的一个样本值.X的分布律为故似然函数为解得p的最大似然估计值p的最大似然估计量为我们看到这一估计量与矩估计量是相同的.口最大似然估计法也适用于分布中含多个未知参数的情况.这时,似然函数L是这些未知参数的函数.分别令.182.解上述由k个方程组成的方程组,即可得到各未知参数(i=1,2,…,是)的最大似然估计值(1.7)称为对数似然方程组.例5设为未知参数,是来自X的一个样本值.求卢,f2的最大似然估计量.解X的概率密度为似然函数为它们与相应的矩估计量相同.口例6设总体X在[a,b]上服从均匀分布,a,b未知,是一个样本值.试求a,b的最大似然估计量.·183.估计值为d,厶的最大似然估计量为此外,最大似然估计具有下述性质:设的函数具有单值反函数又设是X的概率分布中参数的最大似然估计,则的最大似然估计.事实上,因为是的最大似然估计,于是有上式可写成当总体分布中含有多个未知参数时,也具有上述性质.例如,在例5中已得到的最大似然估计为.184·我们还要提到的是,对数似然方程(1.6)或对数似然方程组(1.?)除了一些简单的情况外,往往没有有限函数形式的解,这就需要用数值方法求近似解.常用的算法是牛顿一拉弗森(Newton—Raphson)算法,对于(1.7)有时也用拟牛顿算法,它们都是迭代算法,读者可参考有关的参考书.§2基于截尾样本的最大似然估计在研究产品的可靠性时,需要研究产品寿命T的各种特征.产品寿命T是一个随机变量,它的分布称为寿命分布.为了对寿命分布进行统计推断,就需要通过产品的寿命试验,以取得寿命数据.一种典型的寿命试验是,将随机抽取的n个产品在时间t=0时,同时投入试验,直到每个产品都失效.记录每一个产品的失效时间,这样得到的样本(即由所有产品的失效时间所组成的样本)叫完全样本.然而产品的寿命往往较长,由于时间和财力的限制,我们不可能得到完全样本,于是就考虑截尾寿命试验.截尾寿命试验常用的有两种:一种是定时截尾寿命试验.假设将随机抽取的n个产品在时间t=0时同时投入试验,试验进行到事先规定的截尾时间停止.如试验截止时共有m个产品失效,它们的失效时间分别为此时m是一个随机变量,所得的样本称为定时截尾样.185·本.另一种是定数截尾寿命试验.假设将随机抽取的n个产品在时间t=0时同时投入试验,试验进行到有m个(m是事先规定的,mn)产品失效时停止.m个失效产品的失效时间分别为这里是第m个产品的失效时间.所得的样本称为定数截尾样本.用截尾样本来进行统计推断是可靠性研究中常见的问题.设产品的寿命分布是指数分布,其概率密度为0未知.设有n个产品投入定数截尾试验,截尾数为m,得定数截尾样本,现在要利用这一样本来估计未知参数(即产品的平均寿命).在时间区间有m个产品失效,而有n—m个产品在t。时尚未失效,即有n一m个产品的寿命超过我们用最大似然估计法来估计,为了确定似然函数,需要知道上述观察结果出现的概率.我们知道一个产品在失效的概率近似地为其余n一m个产品寿命超过的概率为故上述观察结果出现的概率近似地为其中为常数.因忽略一个常数因子不影响的最大似然估计,故可取似然函数为.186·对数似然函数为于是得到的最大似然估计为其中称为总试验时间,它表示直至时刻为止n个产品的试验时间的总和.对于定时截尾样本(其中是截尾时间),与上面的讨论类似,可得似然函数为的最大似然估计为其中称为总试验时间,它表示直至时刻为止n个产品的试验时间的总和.例设电池的寿命服从指数分布,其概率密度为0未知.随机地取50只电池投入寿命试验,规定试验进行到其中有15只失效时结束试验,测得失效时间(小时)为115119131138142147148155.187.158159163166167170172试求电池的平均寿命的最大似然估计.解n=50,m=15,=115+119+…+170十172+(50—15)X172=8270,得的最大似然估计为§3估计量的评选标准自前一节可以看到,对于同一参数,用不同的估计方法求出的估计量可能不相同,如上节的例2和例6.而且,很明显,原则上任何统计量都可以作为未知参数的估计量.我们自然会问,采用哪一个估计量为好呢?这就涉及到用什么样的标准来评价估计量的问题.下面介绍几个常用的标准.1‘无偏性没X,,X;,…,X。是总体X的一个样本,是包含在总体X的分布中的待估参数,这里是的取值范围.无偏性若估计量的数学期望存在,且对于任意有则称是的无偏估计量.在科学技术中一称为以作为的估计的系统误差.无偏估计的实际意义就是无系统误差.例如,设总体X的均值为,方差o均未知,由第六章(2.19)、(2.20)知这就是说不论总体服从什么分布,样本均值是总体均值的无偏估计;样本方差是总体方差的无偏估.188·计‘而估计量却不是的无偏估计,因此我们一般取作为的估计量.例1设总体X的k阶矩存在,又设是X的一个样本.试证明不论总体服从什么分布,k阶样本矩是k阶总体矩的无偏估计量.例2设总体X服从指数分市,其概率密度为其中参数0为未知,又设是来自X的样本,试证和nZ=n[min()]都是的无偏估计量.证因为,所以是的无偏估计量.而Z=mtn()具有概率密度即nZ也是参数的无偏估计量.口由此可见一个未知参数可以有不同的无偏估计量.事实上,在本例中中的每一个都可以作为的无偏估计量.2‘有效性:·189·现在来比较参数的两个无偏估计量和,如果在样本容量n相同的情况下,的观察值较更密集在真值的附近,我们就认为较为理想.由于方差是随机变量取值与其数学期望(此时数学期望E()=E()=)的偏离程度的度量,所以无偏估计以方差小者为好.这就引出了估计量的有效性这一概念.有效性设=()与=()都是的无偏估计量,若对于任意,有且至少对于某一个上式中的不等号成立,则称较有效.例3(续例2)试证当”n1时,的无偏估计量较的无偏估计量nZ有效.证由于D(X)=,故有D()=/n.再者,由于D(Z)=/n2,故有D(nZ)=.当n1时D(nZ)D(),故较nZ有效.口3‘相合性前面讲的无偏性与有效性都是在样本容量n固定的前提下提出的.我们自然希望随着样本容量的增大,一个估计量的值稳定于待估参数的真值.这样,对估计量又有下述相合性的要求.相合性设()为参数的估计量,若对于任意,当n)时()依概率收敛于,则称为的相合估计量.即,若对于任意都满足:对于任意o,有则称是的相合估计量.例如由第六章§2知,样本k(k≥1)阶矩是总体X的k阶矩的相合估计量,进而若待估参数=g(),.190.是的相合估计量.由最大似然估计法得到的估计量,在一定条件下也具有相合性.其详细讨论已超出本书范围,从略.相合性是对一个估计量的基本要求,若估计量不具有相合性,那么不论将样本容量n取得多么大,都不能将估计得足够准确,这样的估计量是不可取的.上述无偏性、有效性、相合性是评价估计量的一些基本标准,其它的标准这里就不讲了.54区间估计对于一个未知量,人们在测量或计算时,常不以得到近似值为满足,还需估计误差,即要求知道近似值的精确程度(亦即所求真值所在的范围).类似地,对于未知参数,除了求出它的点估计外,我们还希望估计出一个范围,并希望知道这个范围包含参数真值的可信程度.这样的范围通常以区间的形式给出,同时还给出此区间包含参数真值的可信程度.这种形式的估计称为区间估计,这样的区间即所谓置信区间.现在我们引入置信区间的定义.置信区间设总体X的分布函数F(x;)含有一个未知参数,(是可能取值的范围),对于给定值(01),若由来自X的样本确定的两个统计量=()和=()(夕),对于任意满足则称随机区间(,)是的置信水平为1一的置信区间,和分别称为置信水平为1一的双侧置信区间的置信下限和置信上限,.191.1一称为置信水平.当X是连续型随机变量时,对于给定的,我们总是按要求P{}

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功