抽样检验中样本容量的确定

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

抽样检验中样本容量的确定林鹤凯、宋明展、杨琨、孔京生摘要:在实验工作中,常遇到如何把握采集样本的容量的问题,本文结合实际,从三个方面论述如何求出一个既满足精度,又相对较小的样本容量。求解的主体思想,为区间估计,即给定区间范围从而求得最佳n值。另外,在假设检验中,本文从生产和检验双方考虑,得到两种不同的容量取值方法,在生产中具有一定意义。根据所做估计,本文用matlab编程进行了仿真实验。经失败实验的统计,当n30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。关键词:参数检验、假设检验、最佳检验、样本容量、matlab实验验证1、问题简述:在实验工作中常遇到问题是如何把握采集样本的容量,如果容量n太小,估计问题不那么精确,检验问题就不太可靠;容量太大,又会造成人力物力的浪费。在此我们的就是要结合实际求出一个即满足精度又相对较小的样本容量。2、问题求解[1]:参数估计1、点估计以正态总体为例,有,已知为其样本。a的无偏估计为,且,若要求,其中,δ是已知常数,则,从而使估计可以更精确。2、区间估计以正态总体为例有:当已知有()/~(0,1)naN当未知有a的置信水平为1-α的区间估计分别为:假设检验(以参数检验为主)1、参数检验基本思想:2~(,)Na12n,,,2()/Dn()D2/n2(,)Na11()/~nnaSt____/2/2()()nanuu____/2/2(1)(1)(1)(1)tnSnatnSn假设总体(,)Na,其中已知,a未知,显著水平为(1)提出假设,如:原假设00:aaH备选假设10:aaH(2)构造统计量,该统计量满足一个已知的分布,如:__0()/(/)nua(3)构造拒绝域,如:(0,1)uN从而/2uu2、样本容量n确定的本质:(1)区间估计(2)根据接收域去求n的范围,显然n在满足的范围内越小越好3、原理及方法:(1)双侧检验:1)假设总体(,)Na,其中未知,a未知,显著水平为原假设00:aaH备选假设10:aaH可以得置信水平为1的区间估计____/2/2(),()nnuu定义/2()nu为估计精度。若事先给定值,则2/2/nu在有些问题中,构造的统计量所服从的分布函数与n有关,则我们需要采用试差法来如课本135页的形式,2)假设总体(,)Na,其中、a未知,显著水平为原假设00:aaH备选假设10:aaH构造统计量__01()/(1)nSntat,拒绝域(1)ntt进而求出其置信水平为1的区间估计为____(1)1,(1)1nSnnSntt在给定后,我们可以得到2221()(1)nnst,其中0.05从t分布临界表中看到,对于显著水平0.05的情形,当30n时,其临界值(1)2nt,这个临界值对于30n各个n值的影响不太大,因此我们可以先采用近似公式221()4ns,若求得的n大大超过30,则与(1)2nt不矛盾了。否则采用试差法来确定n,其步骤为:a)先用221()4ns计算出nb)再用上一步算出来的n作为(1)nt中的n,将(1)nt代入2221()(1)nnst求出新的nc)循环b)直至2221()(1)nnst两边n值相同或差异很小为止(2)单侧检验:假设总体(,)Na,其中已知,a已知,显著水平为原假设00:aaH备选假设10:aaH可以将备选假设转化为10:aaH,其中为有实际意义的最小差值,也就是说如果0aa,则我们可以直接认为在考虑随机因素的情况下0aa由拒绝域__0()/(/)nuau可以推出()nu从而可得2nu,满足该式且最小的整数n极为最合理的样本容量注:(1)以上所讲的双侧检验的以及单侧检验的均是由检验方制定的精度(有利于检验方),以此来确定合理的n,这与实际情况是相符的。然而我们也应该看到,如果从利于生产方的角度来说,生产方显然希望n较小,这可以从直观上理解。当然这里的n有一个可以接受的上限,以u检验为例,从接受域得到,即在这个范围内检验是生产商乐于接受的(2)对于两个总体假设检验样本容量的确定参见课本138页,其思想与单参数假设检验样本容量的确定一致(3)对于非参数检验(以皮尔苏检验为例)可以求出2211221421(miimimpnv满足该式且最小的整数n极为最合理的样本容量4、例题某种电子仪器额定电流的总体方差2200,经校验确定的置信水平0.95的置信区间的/2uu22/0una长度为20mA,问要检验多少台仪器,才能满足这样的要去?解:取2200,10S,由221()4ns可得9n由于30n,所以要使用试差法查得临界值0.05(8)2.31t,代入2221()(1)nnst得11.67n又0.05(11)2.20t,代入2221()(1)nnst得10.94n因为10,94与11比较接近,所以不用在“试差”了,即样本容量为11最佳检验(两种错误发生的概率均已知)1、最佳检验的回顾(只考虑两点检验)两类错误:原假设0H;1H观察值12(,,,)nTxxx0H的否定域为0,a为置信水平第一类错误(弃真):00{}PTAHa第二类错误(取伪):01{}PTAH2、样本容量n确定的本质:(1)控制两类错误在较小的范围内(2)建立错误概率与分布函数的等式关系,求解n3、原理及方法(不同问题统一的作法)假设假设检验的参数为,(;)T为满足Z分布的随机变量函数,为样本的某个统计量,(,)Fx为(;)T分布函数,Z为Z分布的分为点。0011:,:HaHa的两点假设。第一类错误概率:00{(;)}PTH,及00(,)(,)1FZaFa(1)第二类错误概率:01{(;)}1PTH,及11(,)(,)FZaFa(2)解得n.举例:服从(,)Na分布,a未知,已知,不妨设10aa,(否则按照书P130的例题8.4.4)。则对于假设0011:,:HaaHaa。最佳否定域应该为A,服从(,/)Nan分布。这里可知00(;)()/Tana,满足标准正态分布。令0()/Una,由第一类错误(1)与第二类错误(2)知{}PUu,{}PUu。Uu,故0()/unAa,1()/unAa查表得两个分为点,从而解方程组得22210()/()nuuaa。3、例题某种电子仪器额定电流的总体方差,经校验确定的置信水平0.95的置信区间的长度为20mA,问要检验多少台仪器,才能满足这样的要去?解:取,由可得,由于,所以要使用试差法查得临界值,代入得又,代入得由自由度10,得带入,得因为10.94与10.68比较接近,所以不用在“试差”了,即样本容量为11。3、仿真实验[2]:给定分布函数,生成足够多数据的随机数,通过观察分析这些随机数的统计量来仿真抽样,从而观察样本容量对抽样结果影响。为了方便操作,该实验使用标准正态分布函数。3.1问题假设(1).假设随机变量方差未知,运用t-检验。(2).根据实际操作,样本容量不会太大,假设在60以内。(3).0.05()2.0,30tnn,查表可知,假设n10的部分,分为点2.4;10n30的部分,分为点为2.2;3.2实验内容:22002200,10S221()4ns30n0.05(8)2.31t2221()(1)nnst11.67n22009n11.67n0.05(11)2.20t2221()(1)nnst10.68n0.05(10)2.23t2221()(1)nnst10.94n10.68n(1).样本容量从5到60,分别生成随机数向量;(2).计算统计量,画出统计量的变化趋势;(3).设置t检验的置信水平为的置信区间,每种样本容量进行100次实验,统计检验量落入接受域的实验的次数。3.3实验结果(结果具有相似性,所以给出某次实验的结果)3.3.1实验的期望与方差,方差估计式为221nSn,是方差的无偏估计。3.3.2失败统计(每种)3.4结果分析从期望方差图可以看出,统计量在预估值之间震荡,可解释为受随机因素的影响。同样给出此时的频数分布图可以看出,在样本容量不大的情况下,样本分布不接近正态分布,因此产生结果的随机性很明显,统计量没有收敛趋势。比如n取很大的时候才接近正态分布。经失败实验的统计,当n30的阶段实验,失败实验的次数小于5次,可以说实验的成功率为95%,置信水平在0.05下的实验,从而仿真结果还是真实可信。4、总结和体会1、我们在做参数估计等实验之前能够预估需要多大的样本容量才能达到实验目的,这对今后不管走上研究道路还是管理道路都很有帮助。2、其实样本容量的确定,是一个十分重要的工作。正如在前文假设检验中所示,如果从生产方的角度考虑问题,自然希望n越小越好,样本容量有一个可接受的上限;而从检验方的角度考虑,n则是越大越好,在满足精度范围就要有一个起码的下限。说的功利一些,这里的n所取值是和一方的利益相关的,选取自然需要谨慎。3、我们在做实验时,是根据具体问题出发的,从而抽象出一个概念或模型,在做出这个模型后,还必须同具体问题进行对照,否则将无法对这个模型的准确性进行判断。这就帮助我们在今后做事时,也要注意同实际情况进行比较。4、样本容量在数理统计的多个方面都有体现,是一个与实践情况联系紧密的概念。我们组所研究的假设检验中的样本容量确定,其实是一种提高假设检验“效率”的方式。事实求是的讲,我组所做成的结论是在一定简化基础上得到的,之后还可以有更多的研究。参考文献:[1]概率论及数理统计(第4版)下册.高等教育出版社:中山大学,2009.[2]何正风.Matlab概率论与数理统计分析.机械工业出版社,2012.附录:matlab仿真程序n=60;N=0;ta=2.4;fori=5:ncleardh=0;forj=1:100d=randn(i,1);ksai(i-4)=mean(d);sgma1(i-4)=std(d);ssgma(i-4)=(i)*var(d)/(i-1);sgma2=sqrt(ssgma);t=sqrt(i-1)*ksai(i-4)/sgma1(i-4);ifi=30ta=2.0;end11.67nif30i|i10ta=2.2;endif(tta|t-ta)h=h+1;endendN(i-4)=h;endX=-3:0.1:3;figure(1)hist(d,X);c=1;x=0;j=5:1:60;figure(2);title('100´ÎʵÑéʧ°Ü´ÎÊý')subplot(2,1,1);plot(j,N,'*');subplot(2,1,2);hist(N);figure(3);plot(j,ksai,'-*r');holdon;plot(j,sgma2,'-ob');holdoff

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功