抽样调查-第8章多阶段抽样

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

返回§8.1引言前面提到的整群抽样虽然有很多优点,但是由于群内单元通常具有相似性(表现为群内相关系数大于零)。尤其是当群比较大时,人们自然会想到没有必要对群内所有单元都进行调查,而只要对群内单元进行再抽样,对被抽中的单元进行调查,这就是常用的多阶段抽样。返回一、多阶段抽样的定义先在总体单元(初级单元)中抽出样本单元,并不对这个样本单元中的所有下一级单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元并进行调查。这种抽样方法称为二阶段抽样。同样的道理,还可以有三阶段抽样、四阶段抽样等。对于二阶段以上的抽样,统称为多阶段抽样。返回二、多阶段抽样的优点(1)多阶段抽样保持了整群抽样的样本比较集中、便于调查、节约费用等优点。(2)多阶段抽样不需要编制所有小单元的样本框。三、抽选方法与推断原理多阶段抽样时,每一个阶段的抽样可以相同,也可以不同。它通常与分层抽样、整群抽样、系统抽样结合使用。多阶段抽样时,抽样是分步进行的,因此,讨论估计量的均值及其方差时,需要分阶段进行这要用到下面的性质。返回性质1对于两阶段抽样,有)()(21EEE)]([)]([)(2121VEEVV式中,为在固定初级单元时对第二阶抽样求均值和方差;为对第一阶抽样求均值和方差。22,VE11,VE性质1可以推广到多阶段抽样的情形,例如对于三阶段抽样,有)()(321EEEE)]([)]}([{)]([)(321321321VEEEVEEEVV返回§8.2初级单元大小相等的二阶抽样第一阶段在总体N个初级单元中,以简单随机抽样抽取n个初级单元,第二阶段在被抽中的初级单元包含的M个二级单元中,以简单随机抽样抽取m个二级单元,即最终接受调查的单元。例如:某个新开发的小区拥有相同户型的15个单元的楼盘,居民已经陆续搬入新居,每个单元住有12户居民,为调查居民家庭装修情况,准备从180户居民户中抽取20户进行调查。如下表:返回编号单元房号123456789101112131415一栋A座一栋B座一栋C座二栋A座二栋B座二栋C座三栋A座三栋B座三栋C座四栋A座四栋B座四栋C座五栋A座五栋B座五栋C座123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112123456789101112返回表中红字为抽中的房号。这时,初级单元有15个,每个初级单元拥有二级单元12个。首先将单元从1到15编号,在15单元中随机抽取5个单元,分别是1,6,9,12,13号;然后在被抽中的单元中,进行第二次抽样,即分别在12户居民户中随机抽取4户。一、符号说明初级单元和初级单元拥有的二级单元个数:N,M第一阶段和第二阶段抽样的样本量:n,m第i个初级单元中的第j个二级单元的观测值:样本中第i个初级单元中的第j个二级单元的观测值:ijYijy返回第一阶段和第二阶段的抽样比:MmfNnf21,第i个初级单元按二级单元的平均值:mjijiMjijiymyYMY111,1按二级单元的平均值:niiNiiynyYNY111,1初级单元间的方差:,)(112121YYNSNii2121)(11yynsnii返回初级单元内的方差:21122)()1(1iNiMjijYYMNS21122)()1(1inimjijyymns由的表达式可知,若记22S2122)(11MjiijiYYMS则有NjiSNS122221即是的平均值。同理有22S22iS2122)(11mjiijiyymsnjisns122221返回二、估计量及其性质(一)总体均值的估计性质2对于初级单元大小相等的二阶抽样,如果两个阶段都是简单随机抽样,且对每个初级单元,第二阶抽样是相互独立进行的,则对总体均值的无偏估计为:YnimjijniiynmynyY11111其方差为:22221111)(SnmfSnfyV的无偏估计为:)(yV22221111)(snmfsnfyv返回【例8.1】欲调查4月份100家企业的某项指标,首先从100家企业中抽取了一个有板有5家样本企业的简单随机样本,调查人员对5家企业分别在调查月内随机抽取3天作为调查日,要求样本企业只填写这3天的流水帐。调查的结果如下。样本企业第一日第二日第三日12345573851486259416053556450634954要求根据这些数据推算不100家企业该指标的总量,并给出估计的95%置信区间。返回解将企业作为初级单元,将每一天看着二级单元。调查月内拥有30天(即拥有30个二级单元)。首先在初级单元中抽取一个n=5的简单随机样本再对每个样本的二级单元分别独立抽取一个m=3的简单随机样本由题意,N=100,M=30,n=5,m=310.0303,05.0100521MmfNnf首先计算样本初级单元的均值、方差:iy22is返回样本企业123456043585057133939719iy22is于是得到:6.53)5750584360(5111niiyny3.49)(112121yynsnii4.23112222niisns返回4372.94.2335)10.01(05.03.49505.01)(yv1608006.5330100yNMY849348004372.930100)()(2222yvMNYv0078.921684934800)()(YvYs置信度为95%的置信区间为:160800±1.96×9216在上面的方差估计式中,第一项是主要的,第二项要小得多!返回(二)对总体比例的估计如果要估计总体中具有所研究特征的二级单元数占全体全体二级单元数的比例,则NiiNiiANMPNP1111式中,为第i个初级单元中具有所研究特征的二级单元数,则对P的估计为:iAniiniianmpnp1111式中,为第i个初级单元中具有所研究特征的二级单元数。返回性质3对于二阶抽样,如果两个阶段都是简单随机抽样,则有PpE)(估计量的方差为:pNiiiNiiQPMNMnmfPPNnfpV12121)1(1)(111)()(pV的无偏估计为:niiiniiqpmnffppnnfpv1221121)1()1()()1(1)(式中,.1;1iiiipqPQ返回【例8.2】欲调查某个新小区居民家庭装潢聘请装潢公司的比例。我们在15个单元中随机抽取了5个单元,在这5个单元分别随机抽取了4户居民进行调查,对这20户的调查结果如下表:样本单元第一户第二户第三户第四户一栋A座二栋C座三栋C座四栋C座五栋B座是否否否是是是否否否否否否否否否否是否否要求根据这些数据推算居民家庭装潢聘请装潢公司的比例。返回解:记聘请装潢公司的居民户为“1”,否则记为“0”。这里,N=15,M=12,n=5,m=4,124,15521ff因此,25.0)10112(45111niianmp其方差的估计为:niiiniiqpmnffppnnfpv1221121)1()1()()1(1)(00657.0081.0)()(pvpsP的置信区间为:081.096.125.0返回§8.3初级单元大小不等的二阶抽样一般而言,初级单元的大小是不相等的,如果按初级单元的大小分层后,层内初级单元的大小差别仍很大,则需用本节介绍的方法来处理二阶抽样的问题。当初级单元大小不等时,一般采用不等概抽样。一、符号说明总体中初级单元个数及第一阶抽取的样本量:N,n第i个初级单元中二级单元数:iM第i个初级单元中第二阶抽样的样本量:im第i个初级单元中第j个二级单元的观测值:ijY样本中第i个初级单元中第j个二级单元的观测值:ijy返回第一阶和第二阶的抽样比:iiiMmfNnf21;二级单元个数:niiNiimmMM1010,指标总和:nimjijNiMjijiiyyYY1111,第i个初级单元指标总和:iimjijiMjijiyyYY11,第i个初级单元按二级单元的平均值:iimjijiiiiMjijiimyymyMYYMYii111,1返回按二级单元的平均值:niiNiMjijmyyMYYMYi10110,1初级单元间的方差:,)(112121NiiYYNS,)(112121niiyyns第i个初级单元二级单元间的方差:,)(112122iMjiijiiYYMS2122)(11imjiijiiyyms返回二、估计量及其性质(一)对初级单元进行简单随机抽样如果二阶抽样中每个阶段都采用简单随机抽样,并且每个初级单元中二级单元的抽样是相互独立的,则对总体总和的估计可以采用简单估计,也可以考虑采用比率估计。1.简单估计量对总体总和的简单估计为:niiniiiuYnNyMnNY11根据性质1,不仅可以证明这个估计量是无偏的,并且它的方差为:返回221222112)1()(11)1()(iNiiiiNiiuSmfMnNYYNnfNYV的一个无偏估计为:)(uYV221222112)1()(11)1()(iniiiiuniiusmfMnNYYnnfNYv式中,niiuYnY11返回2.比率估计量由于初级单元的大小不同,往往造成初级单元的观测值差异很大,使得估计量方差的第一项很大,从而估计量的方差也就变得很大。这时,可以考虑将初级单元的大小作为辅助变量,采用比率估计量对总体总和进行估计。iMiY)(uYViM对总体总和的估计量为:niiniiniiniiiRMYMMyMMY110110返回这是一个有偏估计量,但随着样本量的增加,其偏倚将趋于零。其近似均方误差为:21212)(11)1()(YYMNnfNYMSENiiiR22122)1(iNiiiiSmfMnN返回的样本估计为:)(RYMSE21212)(11)1()(RniiiRYyMnnfNYv22122)1(iniiiismfMnN式中,0MYYRR返回(二)对初级单元进行放回不等概抽样利用第五章的方法,事先规定每个初级单元被抽中的概率对被抽中的初级单元,再抽取个二级单元。).1(1NiiiZZim对总体总和的估计通常是构造初级单元指标总量的无偏估计,然后利用第五章介绍的Hansen-HuRwitz估计量对总体总量Y进行估计。iYiYniiiHHzYnY11由于是的无偏估计,由性质1,可以证明是Y的无偏估计。且的方差为:iYiYHHYHHY返回])()([1)(1221NiiiNiiiiHHZYVYZYZnYV的一个无偏估计为:)(HHYV21)(111)(HHniiiHHYzynnYv注意上述对第二阶抽样并没有做出特别的规定,而且估计量的方差估计式与第二阶抽样的方式无关。在实际工作中,如果初级单元大小不相等,通常人们喜欢在第一阶抽样时按放回的与二级单元数成比例的不等概抽样;第二阶抽样则采用简单随机抽样,且每个样本初级单元的样本量都相等,此时,估计量的形式非常简单。返回【例8.3】某小区拥有10座高

1 / 46
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功