返回§4.1整群抽样一、整群抽样的定义与特点1.整群抽样的定义整群抽样是将整体划分为若干群,然后以群为抽样单元,从总体中随机抽取一部分群,对抽中的群中的所有基本单元进行调查的一种抽样技术。2.整群抽样的优点(1)抽样框编制得以简化(2)实施调查便利,节约费用3.整群抽样的缺点:抽样误差较大。返回二、群的划分整群抽样中的群大致可分为两类:一类是根据行政或地域形成的群体,如学校企业和街道,对此采用整群调查是为了方便调查,节约费用。另一类群则是调查人员人为确定的,如将一大块面积划分若干块较小面积的群,这时就需要考虑如何划分群,以使在相同调查费用下调查误差最小。返回群划分的一般原则为了提高精度,划分群时应力争使同一群内各单元之间的差异尽可能大,以避免同一群内各单元提供重复信息.这个原则与分层抽样中划分层的原则恰好相反.由此看来,整群抽样和分层抽样是针对不同总体结构而提出的两种不同抽样方法.返回三、群的规模群的规模是指组成群的单元的数量。群的规模大,估计的精度差,但费用省;群的规模小,估计的精度可以提高但费用增大。实践中,确定群的规模涉及多种因数,如群的具体结构、精度、费用、调查实施的组织管理等。群的规模又有两种情况:一种是总体中的各个群规模相等;另一种是总体中各个群的规模不相等。返回四、附号说明总体第i群中第j个单元的指标值:ijY样本第i群中第j个单元的观测值:ijy总体群(PSU)数:N样本群数:n第i个群中的单元(SSU)数量:iM总体中单元总数:NiiMM10返回总体中第i群的群总值:iMiijiYY1样本中第i群的群总值:iMiijiyy1总体中第i群的个体均值:MYYii样本中第i群的群均值:Myyii总体中的群均值:niiNYY1样本中的群均值:niinyy1返回总体中的个体均值:011MYYijNiMji总体方差:NiMjijYYMS11202)(11样本方差:nimjiijniiiyyms11212)(11返回总体群间方差:NiiMjbYYNSi1212)(11样本群间方差:niimjbyynsi1212)(11返回总体中第i个群群内方差:iMjiiijiMYYS1221)(样本第i个群群内方差:imjiiijimyys1221)(返回群规模相等时整群抽样样本群内方差:niiijMjwyyMns1212)()1(1群规模相等时整群抽样总体群内方差:NiMjiijwYYMNS1122)()1(1返回§4.2等概率整群抽样在N个初级抽样单元中,第i个初级单元含个二级抽样单元。对于整群抽样而言,被抽中的群中所有二级单元全部入样。我们先考虑最简单的情形:每个群所包含的单元数M相等,称为群规模相等。(实际问题中只要群规模接近,也可视为群规模相等)。在群规模相等的情况下,整群抽样一般采用简单随机抽样方法抽取群,这时对总体均值的估计十分简单。iM返回一、群规模相等时的估计YniiniMjijynnMyy11111、均值估计量及其方差若按简单随机抽样,且群的大小相等,都等于M,则对总体均值的估计为:y返回定理4.1是的无偏估计,即yYYyE)(这样的结果是显然的,因为是按简单随机方法抽取群,所以样本群均值是总体群均值的无偏估计,因而yYYMYyE)(返回证明:因为,yMy),()(2yVMyV1)(1)(12NYYnfyVNii所以2121)1()(1)(bNiiSnMfNMYYnMfyV定理4.2的方差为:NiiYYNnfyV12)(111)(21bSnMfy返回的样本估计为:定理4.3)(yV21)(bsnMfyv由于22bbSs是的无偏估计,)()(yVyv是因而的无偏估计。总体总值YNMY的估计量为:yNMY返回总体总值YNMY的估计量的方差为:)()()(22yVMNyNMVYV2222)1()()(bSnfMNyvMNYv下面我们看一个整群抽样的例题返回【例4.11】在一次对某中学在校生零花钱的调查中,以宿舍作为群进行整群抽样,每个宿舍都有M=6名学生。用简单随机抽样在全部N=315间宿舍中抽取n=8间宿舍。全部48个学生上周每人的零花钱及相关计算数据如下表。试估计该学校学生平均每周的零花钱,并给出其95%置信区间。ijyY返回158837482668775.0125.629183791111016989.0233.631238994109798095.67299.074991059810712990104.67177.875110991328799124108.50287.50611110011699107105106.3342.27712011511799106120112.8372.5789580631301058693.33527.878个宿舍48名学生每周零花钱支出额iijyiy2is返回解:已知故,0254.0,6,8,315NnfMnN63.926)17.9833.93()17.9875[(186)(117.98833.938975122121yynMsynyniibnii返回下面计算估计量方差的估计值:34.481.18)()(81.1863.926680254.011)(2yvyssnMfyvb于是置信度为95%的置信区间为98.17±1.96×4.34,也即[89.66元,106.68元】返回2、整群抽样效率分析在整群抽样中,由于估计量的方差主要依赖群间的变异性。因此整群抽样中较大,则整群抽样就会损失精度。下面我们用方差分析表来讨论这一问题。21)(bSnMfyV22wbSS返回群规模相等时的整群抽样总体方差分析表来源自由度平方和均方群间群内总计1)(12211NSSBSYYSSBNbNiMji)1()()1(2211MNSSWSYYSSWMNwiNiMji1)(12211NMSSTSYYSSTNMNiMjij返回我们将整群抽样与简单随机抽样的效率进行比较,假设直接从总体中抽取一个样本容量为nM的简单随机样本,则样本均值的方差为:221)1()(SnMfnMSNMnMyVsrs但如果该整体被等分为N个规模为M的群,定义为群内相关系数,描述同一群内成对个体单元之间的相关程度,其表达式为:返回2)())((YYEYYYYEijikij根据组合及平均值的计算,又可表示为:21)1)(1())((2SNMMYYYYNiMkjikij返回事实上,前面提到的可以用群内相关系数近似表示:)(yVNiiYYNnMfyVMyV1222)(11.1)(1)(])1(1.[.)1(1.122MSNMNMnf])1(1[12MSnMf返回若采用简单随机抽样,直接从总体中抽取nM个个体单元,则y的方差公式为:21)(SnMfyVsrs由此,可以计算等群抽样的设计效应:)1(1)()(MyVyVdeffSRS这表明,整群抽样的方差约为简单随机抽样方差的倍)1(1M返回整群抽样估计效应与群内相关系数关系密切,若群内各单元的值都相等,则群内方差02wS此时,1为最大值,Mdeff即整群抽样的估计量方差是简单随机抽样估计量方差的倍。若群内方差与整体方差相等,即,01deff整群抽样与简单随机抽样估计的效应相当。返回若群内方差大于总体方差时,ρ的取值为负,,1deff此时,整群抽样的效率高于简单随机抽样。因此,要提高整群抽样的效率,就要通过分群尽可能降低值。这一点是通过增大群内单元之间的差异实现的。对于自然形成的群而言,无法通过调整群内单元而控制的取值。这时,要想减少抽样误差,就只能增大样本容量。返回另外,群内相关系数也可以用群内方差和群间方差表示,并由样本统计量估计:2wS2bS22,bwss2222)1(wbwbsMsss返回【例4.2】估计例4.1中以宿舍为群的群内相关系数与设计效应.解:由例4.1已计算出样本群间方差而样本群内方差为:6648.9282bs79.2201)(111)()1(1122112112niiiMjijniniMjiijwsnyyMnyyMns返回由相关系数的估计式有741.2348256.0)16(1)1(1348256.0)1(2222MdeffsMssswbwb设计效应2.741表明,在这项调查中,为达到同样的估计精度,整群随机抽样的样本量大约为简单随机抽样样本量的2.74倍.而此时简单随机抽样的样本量为:1874.268deffnMnsrs返回采用整群抽样,如果各群规模iM不等,情况会复杂一些.此时,有多种不同的抽样方法.1、等概抽样,简单估计此时,不考虑群规模不等的影响,抽样方法与前节群规模相等时相同,估计方法也相同,即采用简单随机抽样。对总体均值的估计为:YnijiijniiiMMynyny11111二、群规模不等时的估计返回niiyynnfyv12)(11.1)(因为群规模不等,估计时又未考虑权数,所以估计量是有偏的。y的方差估计为:y返回2、等概抽样,加权估计基本思路:以群规模为权数,乘以各群iM均值iy,得到群观察总值iy,再将样本中n个群的群总和平均。估计公式为:niiniiiMyyMnMnyMy111返回如果总体群平均规模未知,可以用样本群M平均规模nMmnii1代替.因此得到总体总值Y的估计:yMY0式中,NiiMM10为总体中的个体单元总数.总体总值估计量的方差:Y1)()1()(122NYYnfNYVNii返回它的无偏估计为:1)()1()(122nyynfNYvNii对均值估计而言:y1)()1()(1)(1220220NYYnMfNYVMYVNii与简单估计相比,加权估计的方法考虑了群规模iM,所以估计量分别是的无偏估计.Yy和YY和返回3、等概抽样,比率估计总体均值采用比率估计的形式为:niiniiMyy11与第三章比率估计的区别在于,这里的辅助变量可知,它是一个有偏的.当样本群数n很大时,其不是,而是群的规模.从比率估计量的性质可iXiM偏倚很小,可以忽略。总体总值Y的比率估计为:niiniiMyMyMY1100返回根据比率估计量的方差公式,估计量Yy与的方差分别为:1)(1)(122NMYYMnfyVNiii1)(11222NYYMMnfNiii)()()(2220yVMNyVMYV1)()1(1222NYYMnfNNiii与前一种方法相比,在大样本量情况下,比率估计的精度更高些。返回的样本估计为:)(yV)(YV的样本估计为:1)(1)(122nMyyMnfyvNiii)2(1111112222nininiiiiiyMyMyynMnf1)()1()(122nyMynfNYvNiii).2(11)1(1112222nininiiiiiyMyMyynnfN返回4、例题和方法比较【例4.3】某县有33个乡,共726个村,某一年度某作物总种植面积为30525亩。现采用等概抽样随机抽取十个乡进行该种作物的产量调查(调查数据如下表)。要求利用无偏估计量和比率估计量分别估计全县总产量,并计算估计量的标准差。返回样本乡编号村庄数Mi农作物总产量yi(万公斤)种植面积xi(亩)123456789101518261420282119311722