第四章分层抽样第一节分层抽样概述第二节总体参数的估计第三节总样本量的分配第四节分层与提高精度第一节分层抽样概述分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),然后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。以前只重视③,近年来,④和⑤引起了越来越多的关注。分层抽样具有以下特点:①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。满足下述条件时,分层在精度上会有很大的得益:①总体是由一些大小差异很大的单元组成的,即总体差异大;②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;③要调查的主要变量(标志)与单元的大小是密切相关的;④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。第二节总体参数的估计一、分层抽样相关符号说明在分层抽样中,先将含有个单位的总体分成分别含有个单位的层,这些层之间互不重复,且有:从每层中抽取一个子样本,而且抽样在各层中独立进行,若各层内样本量分别用表示,则将这些子样本合起来就是从总体中所抽取的一个样本。其样本容量显然满足:,对于分层抽样,经常使用下列一些符号:hYhnhNnnnnL21nLnnn,,,21NNNNL21LLNNN,,,21N第层总体中的单位数;hihh第层样本中的单位数;第层的总体总量;hiyihhiYhhyh第层的样本总量;第层第个总体单元(单位)的取值;第层第个样本单元(单位)的取值;212)(11hNihihhYYNShhhnihihhyny11hhNihihhYNY11hhhhNnfhNNWhh第层的总体层权;第层的抽样比;第层的总体均值;第层的样本均值;第层的总体方差;h212)(11hnihihhyynshh第层的样本方差。=为总体总量;L表示分层的层数;h表示层的编号(h=1,2,3,…,L);YLNiy1h1hih二、估计量1、总体均值的估计量在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权的加权平均,即:如果得到的是分层随机样本,则总体均值的简单估计为:一般情况下:原因在于权数问题。在中,每层都有精确的权数。如果每层都有或,即,则完全相等于。这种情况称为按比例分配的分层抽样,各层的抽样比相同。YstyhYhWhhhLststYNYWyYˆN1ˆˆL1h1hhL1h1hhstynnyyNNnnhh//NnNnhh//ffhystyNNh/hLhhhLhhstyNNyWy111Yhnsty2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量:3、总体比例P的估计量按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:可以证明,在分层随机抽样中,是的无偏估计量,是的无偏估计量,是P的无偏估计量。LhhhNˆyyNYststhhhhhhˆˆpWPWPLLststystPˆYYˆY三、估计量的方差1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸也相互独立,因此总体均值估计量的方差是总体各层均值估计量方差的加权平均,即式中是第h层总体均值估计量的方差。对于分层随机抽样,则有:YhˆYLhh2h)ˆ(W)()ˆ(YVyVYVstst)ˆ(hYV)(styVLh2hhh2hn1WSfLSNnWh2hhh2h)11(LSNnSWhLh2hhh2h2hW1h2hhhhh2)(1nSnNNNL可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以,估计量的方差小于总体方差。2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:对于分层随机抽样,则有:LststYVNYVNYVhh2h2)ˆ()ˆ()ˆ(Lhh2hhhh2hhhh2h)(N1)ˆ(nSnNSnfNYVLst3、总体比例估计量的方差估计总体比例,当充分大时,有:对于分层随机抽样,则有:四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。hNLhh2h)ˆ()ˆ(PVWPVst)ˆ(stPVLhhhhh2h)1(n1WPPfLnPPnNNNhhhhhhh2)1()(1)1(hhNN此时:与分别是与无偏估计。当用样本资料估计方差时,可将用替代,则得:是的无偏估计。Lh2hhlhh2h2h2Lhhh2hW1Wn1W)(ˆsNnssfyVhstLhh2hhhh2)(N1nsnNNLststnsnNNyVNYVhh2hhhh2)()(ˆ)ˆ(ˆ)(ˆstyV)ˆ(ˆstYV)(styV)ˆ(stYV)ˆ(stPVhh)hn1(PP1)1(hhhnppLstnppfWPVhhhhh2h1)1()1()ˆ(ˆLhhhhhhh21)1()(1nppnNNN)ˆ(ˆstPV)ˆ(stPV第三节总样本量的分配一、总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。总样本量在各层间分配时可采用如下方法:(一)比例分配在分层抽样中,若各层的抽样比都相同,即,则称总样本量为按比例分配。此时:所以,因此。(应取整)NnnhhNhhhNWNnnhhnWnffhhn比例分配时,总体中任一单元的入样概率都相等,都为。由此所得到的样本称为是自加权的或等加权的。在这种情况下:即或为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:LniststynnyY1h1hih1y1ˆkyynNyNYststˆNnf/nNk/(为常数)stYˆstYˆLstpropstpropSWnfyVYVh2hh1)()ˆ(若令为各层内方差的平均,则:当估计比例P时,同样有:其中:为各层内成数方差的平均。Lh2hh2WSS21)ˆ(SnfYVstpropLhhhh)1(1)1(1)ˆ(PPnfPPWnfPVstpropLhhhh)1(W)1(PPPP(二)最优分配1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:其中是固定费用,如组织宣传费、分层及编制抽样框的费用等,是在第h层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。L1hhh0CnCC0ChC根据前面的论述,在估计总体均值时,对给定的各层样本量nh,估计量的方差为:2hhh2h2h1SWNnSWV可见,第二项与样本量无关。考虑到hh0nCCCCVV2hh1SWN=h2h2hnSW则在给定总费用C下使估计量的方差V最小,与在给定V下使C最小均等价于使))((hhh2h2hnCnSWCV=2hh2hhh)(nnCSW柯西—许瓦兹(Cauchy-Schwarz)不等式对于任意的,有:当且仅当(为常数)时,等号成立。kkbahh222)())((hhhhhhhbaba0,0hhba根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有其中等号只有在以下情形时才成立(达到极小值):(为常数),这意味着:则因此所以使达到极小的最优分配即为2hhh)(CSWCVKSCnnSWnChhhhhhhhhWKhhhhCSWKnhhhhCSWKnnhhhCSWnK即可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。hL1hhhhhhhCCSWSWnnhL1hhhhhhCCSNSNn(应取整)hnhL1hhhhhhhCCnSWSWnhL1hhhhhhCCSNSN2、特殊情形——内曼分配如果各层内每个单元的平均抽样费用相等,也即时,最优分配简化为:即(应取整)在内曼分配时,估计量所能达到的最小方差为:0hCCL1hhhhhL1hhhhhhSNSNSWSWnnL1hhhhhSWSWnnhL1hhhhhSNSNnhn)()ˆ(stoptstoptyVYVNSnSL1h2hhLh2hhW)W(NSnS2Lh2hh)W(3、某些层需要超过100%抽样时的修正若抽样比较大,而个别层的也很大,则按最优分配,一些层的有可能超过(即>1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。以内曼分配为例,其具体步骤如下:假定:,则令。对部分作内曼分配:此时,若所有的(h≥2)则分配合理。否则,若有:,则hfhNhnhSNnf/hn11Nn11~Nn1NnL2hhhhh1h)(~S