09第九章二重抽样

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第九章二重抽样第一节二重抽样概述第二节二重分层抽样第三节二重比估计第四节二重回归估计第一节二重抽样概述一、二重抽样的概念在设计和实施某些抽样调查时,需要事先掌握有关总体的一些信息。但在许多场合下,总体的这些有关信息是事先未知的,或者不完全知道。为此,人们提出了二重或多重抽样的方法,以掌握有关总体信息,然后实施抽样调查。二重抽样也称二相抽样。其基本做法是:对于一个大总体,先从总体中随机抽取一个较大的样本(第一重样本),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本(第二重样本),利用这第二重样本,对总体所研究变量进行抽样推断。在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。其中二重抽样是最为常用的。二、二重抽样的作用在社会经济抽样调查中,二重抽样的主要作用有下列几方面:第一,用于从总体所有基本单元中筛选确定出主调查对象。第二,用于经常性调查。对于诸如居民的某些收入、居民基本生活支出、某些商品价格等指标,统计部门需经常了解。第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。第四,为分层抽样推断提供层权资料。分层抽样推断的前提是总体各单元能按分层标志进行归类并事先已知各层的层权。第五,为比率估计和回归估计提供辅助资料。第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。第七,用于研究样本轮换中的某些问题。第二节二重分层抽样一、二重分层抽样概述在分层抽样中,我们要求总体各层的层权应事先已知,如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。二重分层抽样是先在总体中随机抽取第一重样本n′,对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本n,用于估计总体指标。由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。在二重分层抽样中,''nnwhh为第h层估计层权,n第一重样本量,hn'第一重样本中第h层单元数,n第二重样本量,N总体单元数,hn第二重样本中第h层单元数(第h层第二重样本量),hkhnnv'/为第二重抽样第h层的抽样比,hjy第二重样本中第h层第j单元观测值,L总体层数。二、估计量及其方差在讨论二重分层抽样估计量的性质之前,我们先给出二重抽样中对估计量ˆ求均值与方差的一般公式如下)]ˆ([)]ˆ([)ˆ()],ˆ([)ˆ(212121VEEVVEEE其中,2E、2V为第一重抽样结果条件下对第二重抽样的均值及方差,1E、1V则是对第一重抽样的均值与方差。据此,可以构造出二重分层抽样的总体均值估计量为LhhhstDstDywyY1ˆ其中hnjhjhhyny11为第一重样本第h层均值的无偏估计。可以证明stDy是总体均值stDY的无偏估计量。如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为LhhhhLhhhhhstDvnSWNnSnnnSWNnnSyVEyVYV1221222211)11(')1'1()1'(')'1(')]([)'()ˆ(其中)'(1yV为第一重抽样之方差,)(2yV为第二重抽样之方差。以各层的样本方差代替各层的总体方差,以样本各层间方差代替总体方差,则可得方差的近似无偏估计量为)'11()()1'1()ˆ(ˆ12212hLhhhhLhstDhhstDnnswyywNnYV三、样本容量的最优分配在二重分层抽样中,样本量最优分配的目的是按在费用一定时使方差达到极小,或在方差一定时使费用最省的原则确定第一重样本量n′和第二重每层样本量hn。为此,可以考虑费用函数hhnCnCC''其中,C′为第一重抽样平均每一单元的调查费用;hC是第二重样本中h层平均每个单元的调查费用。由于hn是随机的,因此,我们考虑选择的n′与hv的期望费用hhhWvCnnCCEC''')(*另一方面,由于方差函数LhhhLhhhhLhhhhstDNSnSWvnSWnSvnSWNnSYV122122122''')11(')1'1()ˆ(因此,当)ˆ(stDYVV时,LhhhhLhhhvSWSWSNSVn121222()(')所以,样本量的最优分配(即n′与hv的选择)应使函数LhhhhLhhhhhvSWSWSvCCNSVCQ121222*]]['[)(达到极小。根据柯西—施瓦茨不等式,可以得出符合上述要求的条件是hhhhhhLhhhvSWvWCSWSC/'2122也即LhhhhhhSWSCCSv12122)](/'[将其代入费用函数(当*C给定时)或方差函数(当V给定时),即可求出n′的最优值。在最优分配条件下,若给定*C,则可得出方差的极小值为NSCSWSCSWCYVhLhhhhhhstD22122*min]')([1)ˆ(第三节二重比估计在使用比估计量时,要求作为辅助变量的总体均值或总和应事先已知,但在实际中可能并不掌握关于辅助变量的资料,此时,就要考虑采用二重比估计的方法。二重比估计的基本思路是先在总体中抽第一重样本用以估计总体辅助变量指标,再在一重样本中抽第二重样本按比估计法推断总体调查变量的数值。二重比估计中常见符号的涵义为:'n:一重样本量,n:二重样本量,'X:总体辅助变量平均数估计值,iy:调查变量观测值,y:二重样本平均数,x:辅助变量二重样本平均数用二重比估计法估计Y的一般形式为'ˆ'ˆXRXyxYRD其中yxRˆ,是总体比率R的有偏估计量,'1'1'niixnX,因为Rˆ是有偏的,故RDYˆ也为有偏的,但当n充分大时,RDYˆ为近似无偏的。当n′和n均为简单随机样本时,其方差为222222222221211)2('1)2(1)2('11)1'1()]ˆ([)]ˆ([)ˆ(yxxyxxyyxxyyyRDRDRDSNSRRSnSRRSSnSRRSSnnSNnYVEYEVYV在N充分大时,2)/1(ySN项可以忽略。当n为n′的子样本时,方差估计量为)ˆˆ2('1)ˆˆ2(1)ˆ(ˆ22222xxyxxyyRDsRsRnsRsRsnYV科克伦曾经证明,在n′与n相互独立,且均为简单随机样本时,方差估计量为22222ˆ'1)ˆˆ2(1)ˆ(ˆxxxyyRDsRnsRsRsnYV显然:①当n′远大于n时,两种估计之间的差异很小,并且当n是n′的子样本时的方差比n与n′相互独立时的方差要小。②二重比估计的结果RYˆ和)ˆ(ˆRYV都是有偏估计量,但随样本量的增大,这些偏差会减小,故它们是近似无偏的,且当n′较大时,二重比估计的精度比较高。③当n′=N时,二重比估计的估计精度与一般的估计是相同的。但由于n′N,故二重比估计的精度会低于一般比估计。当n=n′时,二重比估计的估计精度会低于简单随机抽样。原因是二重比估计增加了第一重样本关于辅助变量的误差。一般情况下,二重抽样中,nn′。④若第一重和第二重样本是各自独立抽取的,也即先从总体中抽取第一重样本n′,用以估计辅助信息,然后再从总体中,而不是从一重样本中,抽取第二重样本n,用以调查和推断总体研究变量,则其精度会更高,但抽样工作量却会大大增加。二、样本容量的最优分配考虑费用函数vnCnCCnCC'''2121(其中,1C为第一重抽样平均每一单元的调查费用;2C是第二重抽样平均每个单元的调查费用,ν=n/n′为抽样比。)和方差函数2222221)2('1)2(1)ˆ(yxxyxxyyRDSNSRRSnSRRSSnYV样本量的最优分配应是使函数)]2('1)2(1)[()(22222212xxyxxyySRRSnSRRSSvvCCNSVCQ极小化依柯西—施瓦茨不等式,有)2()2(2222221xxyxxyySRRSCSRRSSCv因此2221222)2()2('CSRRSCSRRSSnnxxyxxyy于是,当费用一定时,有122222212)2('CSRRSSRRSSCCCnxxyxxyy第四节二重回归估计一、估计方法在使用回归估计量时,需要掌握有关辅助变量的资料,当其未知时,一个可行的办法是采用二重抽样加以估计。二重回归估计的基本思路是先在总体中抽第一重样本作简单测试以估计辅助变量的总体资;再在第一重样本中抽取第二重样本用以对调查变量的总体指标进行估计。有关符号:N:总体单元数,'n:一重样本量,n:二重样本量,'/nnv:为第二重抽样比,'X:辅助变量一重样本估计值,iy:调查变量观测值,ix:辅助变量观测值,b:依第二重样本计算的(线性)回归系数,r:样本相关系数。二重回归估计可以采用多种形式,这里只涉及一元线性回归估计,此时,对总体均值的二重回归估计可采用以下形式:)'(ˆxXbyYlrD当n充分大时YYElrD)ˆ(其中niiniiixxyyxxb121)())((若n′和n均为简单随机样本,则估计量的方差为NSnSnSYVyyylrD22222')1()ˆ(当N时,估计量的方差可按以下形式进行估计')1()ˆ(ˆ2222nsrnrsYVyylrD其中niiiniiiyyxxyyxxr1221)()())((卡恩与特里帕绥(KhanandTripathi)曾将二重一元回归估计推广到多元线性回归。由此可见:①若n′=N,则二重回归估计与一般回归估计的效果相同。若n′=n,则二重回归估计的估计效果同简单随机抽样的相同。因为,在一般情况下,回归估计优于简单随机抽样,所以,n′越大,则估计效果越好。②相关系数ρ对抽样方差影响较大,ρ越大,抽样方差越小,所以有效地利用辅助变量,对提高抽样估计效果是很有帮助的。③通常二重回归估计的估计精度是低于一般回归估计,原因是二重抽样中,以第一重抽样所估计的'X代替了总体X,因而使抽样方差增加,故二重回归估计精度总比一般回归估计差。但当n′增大时,特别当Nn',或者当'X=X时,二重回归估计与一般回归估计精度一致。二、样本容量的最优分配在二重回归估计中,费用函数和方差函数分别为NSnSnSYVnCnCCyyylrD2222221')1()ˆ('因此,样本量的最优分配应是使函数)'](')1([)(2122222nCnCnSnSCNSVQyyy达到极小。则依柯西—施瓦茨不等式,有22212222')1(yySnCSnC也即2/12221])1(['CCnn所以2212)1('CCnn当给定总费用时,则有22121)1('CCCCn三、二重分层估计、比估计和回归估计的比较1、在回归估计中,一般要求调查变量与辅助变量之间要有很高的相关关系,并且用于辅助资料的费用很低,实际中,这些条件常常难以满足。另外,回归估计的计算过程远比比估计和分层估计要复杂。2、比估计不是无偏的,一般比回归估计有较大的方差。3、如果调查变量与分层变量是线性相关的,则按比例分层的得益与回归估计基本一致。此时,使用分层方法还是回归估计法取决于回归方法的计算量带来的费用和分层方法的分层费用的多少。4、分层抽样常比回归和比率均值有特殊的优越性,特别是在调查变量与辅助变量为非线性关系时,按比例分层能得到更大的得益;若分层变量不是数值型时,分层方法仍然可以使用,而回归和比估计方法则不能用。5、如果辅助变量的总体均值是已知的,则回归和比估计可以在独立于辅助变量的n次抽选的样本上进行,而在分层抽样中,样本n必须是第一重样本n′的子样本。

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功