抽样调查原理与方法Chapter8Multi--Stagesampling抽样调查原理与方法当总体单元的数目大、分布广时,若采用简单随机抽样,则需要编制包含全部总体单元的抽样框,工作量相当大;若采用系统抽样,则需将全部总体单元按一定标志进行有序排列,实施起来仍然很麻烦;若采用分层抽样,则需掌握一定的辅助信息进行分层,而实际应用中并不一定能找到合适的辅助变量;若采用单级整群抽样,则必需掌握全部总体单元的有关资料后进行分群,并在入样群内进行全面调查,工作量也是极其庞大的。例如,欲做农户家计调查,我国约有两亿农户,如果按上述几种方式进行抽样,其工作量之大难以想象。此时若采用多阶段抽样,可以简化抽样框的编制,便于最终样本单元的抽取,使得组织工作容易进行,避免上述抽样设计过程中的麻烦。抽样调查原理与方法第一节概述一.什么是多阶段抽样分多个阶段抽到最终接受调查的样本。初级单元(PSU)----PrimarySamplingUnit二级单元(SSU)----Second-stageSamplingUnit三级单元(TSU)----Third-stageSamplingUnit最终单元(SSU)----UltimateSamplingUnit抽样调查原理与方法假设总体由个初级单元组成,每个初级单元又由若干个二级(次级)单元组成,若在总体中按一定方法抽取个初级单元,对每个抽中的初级单元再抽取若干二级单元进行调查,这种抽样方法称为二阶段抽样(two-stagesampling)(也称二阶抽样、二级抽样)。在二阶段抽样中,全部抽样是分两步实施的:第一步是从总体中抽初级单元,称为第一阶段抽样(第一阶抽样);第二步是从每个被抽中的初级单元中抽二级单元,称为第二阶段抽样(第二阶抽样)。Nn抽样调查原理与方法如果每个二级单元又由更小的三级单元组成,那么在第二阶段抽样后,若在每个被抽中的二级单元中再进行三级单元的抽样,则是三阶段抽样(三阶抽样)。同样的道理,还可以定义更高阶段抽样。对于二阶段以上的抽样,称为多阶段抽样(多阶抽样)。抽样调查原理与方法以上述我国农户调查为例,可以定义全国的县为初级单元,乡镇为二级单元,自然村为三级单元,户为四级单元。在全国抽取若干样本县,在样本县中再抽若干样本乡镇,在样本乡镇中,抽取若干自然村,在自然村中抽取样本户,这是一个四阶段抽样。抽样调查原理与方法二、多阶段抽样特点1.构造抽样框相对容易多阶段抽样的一优点是不需要编制所有小单元的抽样框。抽取初级单元时,只需编制初级单元的抽样框,对被抽中的初级单元,再去编制二级单元抽样框,依此类推,每阶段只需编制该阶段的抽样框,从而大大降低编制抽样框的工作量,实际中非常方便。抽样调查原理与方法即使是在某个城市范围内的居民调查,也不可能且没有必要编制全市的居民名单抽样框,多阶段抽样方法就可以解决这一问题。此外,对于有些调查问题,抽样框的变动非常频繁,待抽样框整理完毕后,可能与实际情况相去甚远,多阶段抽样也是解决这类问题的办法。抽样调查原理与方法2.节省人力、物力,发挥了抽样的效率多阶段抽样保持了整群抽样样本单元相对集中的特点,因此与简单随机抽样相比,实施方便,每个基本单元的调查费用较低;另一方面,它并不像整群抽样那样对入样群的所有单元进行调查,而是在中选的初级单元中抽取二级单元,避免了一阶整群抽样由于调查过多的小单元而造成人力、物力与财力的浪费,充分发挥了抽样的效率。因此,多阶段抽样既保持了样本相对集中的优点,又克服了样本信息相似重复、降低抽样效率的缺点。抽样调查原理与方法3.行政上便于组织,某些条件可满足各级需要全国范围内的调查一般都用到多阶段抽样技术,尤其是根据我国目前政治、经济体制的特点,各级党政机关为了宏观控制经济,都需要统计数字,而全国的抽样调查数字往往不能满足各级政府的需要,如果把多阶段抽样和各地的需要结合起来,可以利用现成的行政区划或组织系统来划分阶段,为抽样调查的组织工作提供方便,满足各级政府的数据需求。抽样调查原理与方法4.可用于散料的抽样所谓“散料”,是指连续松散的、不易区分的个体或抽样单元的材料。例如一堆煤、一车水泥、储藏在一个仓库的粮食等。进行散料的抽样时,抽样单元可以人为划分,也可以取其自然的单位。例如,一级单元是自然或人为划分的分装(例如一袋水泥),二级单元则是从分装中抽取一定数量(如一千克)的份样作调查。抽样调查原理与方法5.划分阶段不宜过多抽样调查原理与方法三、推断原理多阶段抽样属于分步抽样,对分步抽样,讨论估计量的均值及其方差要分步进行。性质1对于二步抽样,有式中,、为在固定初级单元时对第二步抽样求均值和方差;、为对第一步抽样求均值和方差。二阶段抽样的抽样是分两步进行的,所以具有上述性质。ˆ12ˆˆEEE1212ˆˆˆVVEEV2E2V1E1V抽样调查原理与方法性质1可以推广到分多步抽样的情形,例如对于三阶段抽样,有123ˆˆEEEE123123123ˆˆˆˆVVEEEVEEEV抽样调查原理与方法第二节初级单元大小相等时的二阶抽样采用srs,从N中抽n个初级单元采用srs从每个中选初级单元中抽取m个次级单元一、符号ijY,总体中第i个初级单元中第j个次级单元指标值i=1,2,….N,j=1,2,….Mijy,样本中第i个初级单元中第j个次级单元观测值i=1,2,…n,j=1,2,….m抽样调查原理与方法MmfNnf21,MYYyyYYiimijiMiji抽样调查原理与方法NiiiNYYmyyninyy抽样调查原理与方法221)(11YYNSNi221)(11yynsni2221()(1)NMijiSYYNM222)()1(1inijmyymns抽样调查原理与方法第个初级单元二级单元内的方差:222111iMiijijiSYYM222111imiijijisyymi抽样调查原理与方法由的表达式注意到是所有的平均值,即:同理有:22S22iS22S222211NijSSN222211nijssn抽样调查原理与方法二、Y估计量的性质YyEynmynyYnmijni)(11ˆ抽样调查原理与方法nininiYYnEyEnEynEEyE]1[)](1[)1()(12121抽样调查原理与方法估计量方差一般公式为:于是有:)ˆ()ˆ()ˆ(2121VEEVV22221111)(SmnfSnfyV(1)抽样调查原理与方法的无偏估计为:式中估计量的方差由两项组成:第一项源于第一阶段抽样,主要取决于第一阶段抽样的样本量与初级单元间的方差;第二项源于第二阶段抽样,主要取决于第二阶段抽样的总样本量与初级单元内的方差。Vy122211211fffvyssnnmn21snm22S抽样调查原理与方法一般而论,第一项占总方差的绝大部分,第二项的分母是第一项的倍,且要乘以小于1的因子,相对于第一项要小得多,因此在二级单元样本量固定的条件下,越大(越小),则方差越小,即提高、减小可以大大提高估计的精度。此外,可以证明(见附录)初级单元内样本方差仍是总体相应方差的无偏估计,但样本初级单元间的方差并不是总体相应方差的无偏估计。m1fmnnmnm22s22S21s21S抽样调查原理与方法如果第一阶的抽样比可以忽略,则方差估计式可以简单为如下的结果:这个结果在实际工作中可以作为参考,因为当第二阶段采用等距抽样或某些复杂抽样时,方差的无偏估计很难得到,当可以忽略时,只需要初级单元的均值就可以得到方差近似估计。当然,从另一个方面看,可以忽略,意味着总体中初级单元很大而抽选出的却很小,结果是样本分布相对集中,势必增大抽样误差,因此应用时要多加斟酌。1f2211111niisvyyynnn22S1fiyNn1f抽样调查原理与方法相应地,总体总量及方差的无偏估计量分别为:YVYˆYNMy22ˆvYNMvy抽样调查原理与方法类似的,可以构造三阶抽样y的估计方差233212221211)1()1(1)(snmkfffsnmffsnfy抽样调查原理与方法三、总体比例的估计ai,第i个初级单元中具有某特征的次级单元数。11nnmiippannmiNiNiQPMNMnmfPPNnfPV)1(1)(111)(221抽样调查原理与方法ininiqpmnffppnnfpv)1()1()()1(1)(22121四、最优样本量m与n的确定目标:CT给定条件下,如何确定m与n,从而使)(yV最小。抽样调查原理与方法二阶抽样费用函数nmCnCCCT21022221111)(SmnfSnfyVNSmnSMSSnSMmnSNn212222212221)(1)11(1)11((4)(5)抽样调查原理与方法极小化))(()]()[())(1(2122221222221021mCCmSSmCCmSMSSCCSNVT其中:MSSS22212抽样调查原理与方法使上式达到极小的充要条件是mCCmSS212从而mopt满足212CCSSmopt抽样调查原理与方法由上式看出,m与,成正比,与,成反比。求出m后,利用(4),(5)式,即可求出n.22S1C21S2C抽样调查原理与方法一般说来,不为整数,而在实际应用时,要取整数,为此,Cameron(1951)给出了下面的取值规则:若令是的整数部分,即,则有:(1)若,取;(2)若,取;(3)若或,则取。optmmoptmoptmm21optmmm1mm21optmmmmm2optmM22210SSMmM抽样调查原理与方法第三节初级单元大小不等时的二阶抽样一、一般说明几种处理方法*先分层,再抽样*不等概抽样必要符号补充NiMMM00:抽样调查原理与方法iiiiMmff22:222)(11iMijiiYYMSi抽样调查原理与方法如果初级单元之间的规模差异不是很明显,并不能将其严格分层,仍然可以采用简单随机抽样抽取初级单元。若二阶抽样中每个阶段都采用简单随机抽样,并且每个初级单元中二级单元的抽样是相互独立的抽样调查原理与方法当初级单元大小不等,且按初级单元的规模分层后,各层级初级单元的大小差别仍很大,或者合理的分层是按其他指标进行的,对初级单元抽样一般采用不等概抽样。这个过程可以通过放回不等概率抽样(PPS)或者不放回不等概率抽样(∏PS)实现。抽样调查原理与方法二、Y的估计入选概率iZ,1NiZ估计过程先估计iY,然后利用iYˆ估计Y汉森—赫维茨估计量抽样调查原理与方法niiHHZYnYˆ1ˆNiiiiNiHHZYVYZYZnYV)ˆ()([1)ˆ(22)ˆ(HHYV的无偏估计量为:YYEHH)ˆ(抽样调查原理与方法2)ˆˆ()1(1)ˆ(HHniiHHYZYnnY若二阶抽样采用srs,即iiiyMYˆ是Yi的无偏估计而:2222222)1()()ˆ(iiiiiiiSfmMyVMYV抽样调查原理与方法于是有niiiHHZyMnY1ˆ22222)1(1)(1)ˆ(iiiiiiiNiHHSZmfMnYZYZnYV2)ˆ()1(1)ˆ(HHniiiHHYZyMnnY抽样调查原理与方法三、初级单元的PPS抽样由前知:niiiHHZyMnY1ˆ在PPS抽样中0MMZii,代入上式,得niPPSynMY0ˆ抽样调查原理与方法若进一步令mi=m,这时估计量是自加权的。自加权含义:各最终单元入选样本的概率相同,如果一个估计量可以表达为样本观测值的常倍数,则称这种估计量是自加权的。对汉森—赫维茨估计量而言