第3章分层随机抽样3.1定义与符号2021/4/22一、定义在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分别为,这些层合起来就是整个总体,然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。NNNL12,,,NNhhL1不重不漏总体中的每一个单元一定属于并且只属于某一个层,而不可能同时属于两个层或不属于任何一个层。分层抽样的先决条件在调查设计前需要相关的分层信息,即抽样框数据中应有分层变量。例:学院、性别、地区定义3.1层:如果一个包含N个单元的总体可以分成“不重不漏”的L个子总体,即每个单元必属于且仅属于一个子总体,则称这样的子总体为层。即L个子总体所包含的单位数分别为,则有定义3.2分层抽样:又称为类型抽样或分类抽样,即在每一层中独立进行抽样,总的样本由各层样本组成,总体参数则根据各层样本参数的汇总做出估计,这种抽样就称为分层抽样,所得样本称为分层样本。设总得样本量为n,从L个子总体中所抽取的样本量分别为则有定义3.3分层随机抽样:如果每层中的抽样都是独立地按照简单随机抽样进行的,那么这样的分层抽样称为分层随机抽样,所得的样本称为分层随机样本。NNNL12,,,12LNNNN12,,,Lnnn12Lnnnn分层随机抽样的三个必要条件(1)每层都抽;(2)各层都独立地抽;(3)各层的抽样都是简单随机抽样。2021/4/26分层抽样特点:样本在总体中分布更均匀,更具代表性。每层的抽样都是独立进行,允许各层选择不同的抽样方法。分层抽样不仅能对总体指标进行估计,而且能对各层指标进行估计。分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。(这是因为分层抽样估计量的方差只和层内方差有关,和层间方差无关。)2021/4/27符号说明(关于第h层的记号)层号hL12,,,NhnhiyhiWNNhhfnNhhhYNyhhhiiNh11ynyhhhiinh11SNyYhhhihiNh22111snyyhhhihinh22111单元总数样本单元数第个单元的值层权抽样比总体均值样本均值总体方差样本方差2021/4/283.2简单估计量及其性质3.2.1总体均值的简单估计及其性质分层样本,总体均值的估计分层随机样本,总体均值的简单估计YWYNNYsthhhLhhhL111yWyNNysthhhLhhhL111YY定理3.1:对于分层随机抽样,是的无偏估计。YstY定理3.2:对于分层抽样,有VYWVYsthhhL21定理3.3:对于分层随机抽样,的估计量具有如下性质:YstEyYsty222112222111ˆLLhsthhhhhhhLLhhhhhhhhfVyWVYWSnWSWSnN第h层样本的样本方差。定理3.4:对于分层随机抽样,的方差的无偏估计量:sty2212222111LhsthhhhLLhhhhhhhhfvyWsnWsWsnNstvysnyyhhhihinh221111hn推论3.1:对于分层随机抽样,总体总量的简单估计量有如下性质:(1)(2)(3)是的一个无偏估计。stYNyY()stEYY21()LhsthhhhhSVYNNnn21()LhsthhhhhsvYNNnn()stVY推论3.2:对于分层随机抽样,总体比例的简单估计量有如下性质:(1)(2)(3)是的一个无偏估计。1LsthhhpWpP()stEpP2211()1LhhhhsthhhhNnPQVpNNNn()stVP211()1LhhsthhhhhNnvpNpqNn推论3.3:对于分层随机抽样,总体中具有指定特征的单元总数的简单估计量为:具有如下性质:(1)(2)(3)是的一个无偏估计。AstA()stVA11LLststhhhhhhANpNWpNp()stEAA21()1LhhhhsthhhhNnPQVANNn1()1LhhhsthhhhNNnvApqn2021/4/215例3.1调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),要估计该地区居民奶制品年消费总支出及其置信区间。层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252850N101,2,3,4hnh112000.070182850NWN111100.05200nfN224000.140352850NWN222100.025400nfN337500.263162850NWN333100.0133750nfN4415000.526322850NWN444100.00671500nfN11111139.5niiyyn1221111111624.7221niisyyn2105y3165y424y222166.667s238205.556s24193.333s2021/4/21741ˆsthhhYNy20039.54001057501651500242096504422228111ˆ5.9310hsthhhhhhhfvYNWvyNsn/2ˆ2096501.9623207.6stZvYˆstY两种途径:分别比估计:对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,即先“比”后“加权”;联合比估计:对比率的分子和分母分别加权计算出总体均值或总体总量的分层估计量,然后用对应的分层估计量来构造比估计,即先“加权”后“比”。3.3比率估计量及其性质分别比估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏差可能比较大,这时要使用联合比估计量。3.3.1分别比估计定义3.4总体均值和总体总量的分别比估计为:YYhhhhRhhRSXxyWyWyRhhhhRSRSYXxyyNYˆˆ定理3.5对于分层随机抽样的分别比估计,若各层的样本量都比较大,则有()RSEyY22221()()(1)(2)RSRSLhhyhhxhhyxhhhMSEyVyWfSRSRSnhn根据定理3.5,很容易推得在各层样本量都比较大的情况下,有()RSEYY22221()()(1)(2)RSRSLhhyhhxhhyxhhhMSEYVYNfSRSRSnhn3.3.2联合比估计定义3.5总体均值和总体总量的联合比估计为:YYXRXxyyCststRCˆXRyNXxyYCRCststRCˆˆ1LsthhhyWy1LsthhhxWx定理3.6对于分层随机抽样的分别比估计,若各层的样本量都比较大,则有()RCEyY22221()()(1)(2)RCRCLhhyhxhyxhhhMSEyVyWfSRSRSnhn根据定理3.6,很容易推得在各层样本量都比较大的情况下,有()RCEYY22221()()(1)(2)RCRCLhhyhxhyxhhhMSEYVYNfSRSRSnhn两种途径:分别回归估计:对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,即先“回归”后“加权”;联合回归估计:对两个变量先分别计算出总体总值或总体均值的分层简单估计量,然后再对它们的分层估计量来构造回归估计,即先“加权”后“回归”。3.4回归估计量及其性质分别回归估计量同样要求每层的样本量都比较大,如果达不到这个要求,加之各层的简单随机抽样误差较大,整个分层随机抽样就会产生较大的偏差,这时要使用联合比估计量。3.4.1分别回归估计定义3.6分别回归估计是指在分层随机抽样中,先在每层中对层均值或层总和做回归估计,然后再对各层的回归估计按总体层权进行加权平均。对的分别回归估计为:对的分别回归估计为:YY11()LLlrshlrhhhhhhhhyWyWyXx11()=()LlrslrshhhhhhLhhhhhhYNyNWyXxNyXx1.各层的回归系数事先给定h()lrsEyY()lrsEYY22221(1)()(2)LhhlrsyhhxhhxyhhhWfVySSSn22221(1)()(2)LhhlrsyhhxhhxyhhhNfVYSSSn2(1,2...)xyhhxhShLS222min(1)()(1)hhlrsyhhhWfVySn2.不能事先设定各层的回归系数h2221(1)()(1)LhhlrsyhhhhWfVySn若不能事先设定,则将取为第h层总体回归系数的最小二乘估计,即为样本回归系数:hhhbhb121()()()hhnhihhihihnhihiyyxxbxx2221(1)()1(1)(2)LhhlrshyhhhhhWfvynsrnn2:hr第h层样本相关系数的平方3.4.2联合回归估计定义3.7联合回归估计是指在分层随机抽样中,先对和作分层估计:YX1LsthhhyWy1LsthhhxWx进而构造总体均值的联合回归估计为:总体总量的联合回归估计为:YYˆˆˆ()lrclrcststYNyYXX()lrcststyyXx1.当为事先设定的常数()lrcEyY()lrcEYY22221(1)()(2)LhhlrcyhxhxyhhhWfVySSSn22221(1)()(2)LhhlrcyhxhxyhhhNfVYSSSn21221(1)/(1)/LhhxyhhhcLhhxhhhWfSnBWfSn2222min(1)()()hhlrcyhcxhhWfVySBSn2.当回归系数不能事先设定22221(1)()(2)LhhlrcyhcxhcxyhhhWfVySBSBSn当不能事先设定,取的样本估计:cBcb22221(1)()(2)LhhlrcyhcxhcxyhhhWfvysbsbsn2:hr第h层样本相关系数的平方21221(1)/(1)/LhhxyhhhcLhhxhhhWfsnbWfsn小结在比估计中,分别比估计与联合比估计均为有偏估计量,当各层样本量都比较大时,分别比估计与联合比估计近似无偏;当某些层的样本量不够大,而总样本量较大时,联合比估计近似无偏。在回归估计中,少数情况下,回归系数是可以事先设定的常数,其估计量无偏;多数情况下,回归系数需利用样本回归系数进行估计,其估计有偏,但在大样本的情况下近似无偏。