返回§9.1引言一、二重抽样的定义二重抽样(doublesampling),也称二相抽样,是指分两步抽取样本。先从总体N中抽样一个较大的样本,称为第一重样本,对其进行调查以获取总体的某些信息,为下一步的抽样估计提供条件;然后在第一重样本中再进行第二次抽样。这种抽样方法称为二重抽样。n二、二重抽样与两阶段抽样的区别1.两阶段抽样是先从总体N个单元中抽出n个样本单元,却并不对n个样本都进行调查,而是从中再抽出若干个二级单元进行调查。返回2。两阶段抽样的第二阶段抽样单元与第一阶段抽样单元往往是不同的。而二重抽样的第二重样本往往是第一重样本的子样本。三、二重抽样的作用(一)有利于筛选主调查对象(二)节约调查费用(三)提高抽样效率(四)可用于研究样本轮换中的某些问题(五)降低无回答偏倚返回§9.2为分层的二重抽样分层抽样是一种应用广泛的抽样方程,但进行分层抽样有一个前提,即需要将总体N个单元划分为L个互不重叠的层,而且需要知道各层的权重。如果事先无法知道总体的层权,可以采用二重抽样方法。一、符号说明用下标h表示层数,Lh,,2,1总体第h层的单元数:hN总体单元数:LhhNN1第一重样本第h层的单元数:hn第一重样本单元数:Lhhnn1返回第二重样本第h层的单元数:hn第二重样本单元数:Lhhnn1总体单元第h层的权重:NNWhh第一重样本第h层的权重:nnwhh第二重样本第h层的抽样比:10,hDhhhDfnnf第二重样本第h层j单元的观测值:Lhnjh,,2,1;,,2,1hjy第二重样本第h层样本单元的平均数:hnjhjhhyny11总体方差:2S,第h层的总体方差:2hS返回第一重样本第h层方差:2hs第二重样本第h层方差:212)(11hnjhjhhyynsh二、抽样方法第一步:利用简单随机抽样,从总体的N个单元中随机抽取第一重样本,样本单元数为;根据已知的分层标志将第一重样本分层,令,则是总体层权的无偏估计。n),,2,1(,LhnnwhhhwhW第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为n,第h层样本单元数为hnLhhnn1返回三、估计量及其性质(一)均值估计量采用二重分层抽样,对总体均值的估计量为:YhLhhstDywy1(二)均值估计量的性质stDy性质1估计量是的无偏估计。即stDyYYyEstD)(因为hhyyE)(所以有)]([)]([)(12121hLhhstDstDywEEyEEyEYyEywEhhLhh)()(111返回性质2的方差为:stDy)11()11()(122hDLhhhstDfnSWSNnyV式中,为总体方差;为第h层的总体方差;为第二重样本第h层的抽样比。2S2hShDf性质3的样本估计量为:stDy21221)()11()11()(stDhLhhhhhhLhstDyywNnswnnyv式中,为的近似无偏估计;为第二重样本第h层方差。)(stDyv)(stDyV2hs返回【例9.1】某银行要调查其客户的资产情况,已知该银行的客户数为8000,针对客户规模差异较大的特点,拟采用分层抽样。但由于缺乏现有的分层资料,决定采用二重分层抽样方法。第一重样本量=1000,根据其自报的资产情况可分为4层:第一层为300万元以下;第二层为300万元~1000万元;第三层为1000万元~件2000万元;第四层为2000万元以上。然后在第一重样本分层的基础上,在各层分别抽取第二重样本。第二重样本量为n20041hhnn,对这200个客户进行详细的调查,取得有关数据如下表,试估计该银行所有客户的资产总额及其抽样标准误差。返回分层第一重样本第二重样本样本均值300万元以下300~10001000~20002000万元以上合计5403201004010008060402020027154040031009600451201.012.7115.38690.53hyjijy22js解根据上表可计算各层的权重:04.0,10.0,32.0,54.010005404321该银行客户的平均资产额估计为:4004.01510.0732.0254.01hLhhstDywy42.6(百万元)返回该银行共有8000个客户,故全部客户资产总额为:5136042.68000stDyNY(百万元)的方差估计为:stDy21221)()11()11()(stDhLhhhhhhLhstDyywNnswnnyv)01.1()54.0)(5401801()11(2221hhhhLhswnn036822.0)53.690()04.0)(401201(2055239.0)()11(21stDhLhhyywNn返回因此,092061.0055239.0036822.0)(stDyv该银行客户资产总额的抽样标准误的估计:32.2427)()()(stDstDyvNyNsYs(百万元)四、二重分层抽样样本量的最优分配二重分层抽样中有两次抽样,这两次抽样的样本量即和,直接影响估计的精度。第一重抽样越大,对分层信息的了解和估计就越精确,从而可以减少估计量的误差;同样,第二重抽样越大,估计量的方差越小。调查的经费是有限的,因此,需要在给定费用的条件下,选择和,使得估计量的方差最小。nnnnnn)(stDyV返回假设第一重抽样的单元平均调查费用为,第二重抽样第h层的单元平均费用为。忽略其他费用,则费用函数可以表示为:1chc2LhhhTncncC121由于是随机变量,所以选择和的期望费用为:hnnhDfTChhDLhhTTWfcnncCEC121)(而总体均值估计量的方差为:)11()11()(122hDLhhhstDfnSWSNnyV返回要在一定的费用约束下使估计方差最小化,则有)()(121hLhhDhTstDWfcnncCyVL)11()11(122hDLhhhfnSWSNn)(121hLhhDhTWfcnncC由得及00hDfLnLLhhhhhhDSWSccSf12221)(返回LhhDhhTfWccCn121在实际应用中,要确定最优的和,需要对总体事先有一定的了解,例如对有一些粗略的估计。nhDfhhWSS,,22返回§9.3为比率估计的二重抽样一、二重抽样比率估计的抽样方法第一步从总体的N个单元中随机抽取第一重样本,样本单元数为;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值估计总体均值。nniixnx11X第二步从第一重样本中随机抽取出第二重样本,样本单元数为;对于第二重样本,观测目标变量与辅助变量,并用获得的和,计算,构造比率估计。nyxxyR二、二重抽样的比率估计及其性质二重抽样对总体均值的比率估计:Y返回xxyyRD式中,分别为第二重样本目标变量与辅助变量的样本平均数;为第一重样本辅助变量的平均数。xy,x性质4与简单随机抽样下的比例估计一样,是个有偏估计,其偏倚随着样本量的增加而缩小。当第二重样本的样本量足够大时,是近似无偏的。即RDyxxyyRDYyERD)(证明:记,,xyRxyR因为当第二重样本量n足够大时有返回)]([)]([)(2121RExEyEEyERDRDYyE)(1因此,是的近似无偏估计。RDyY性质5二重抽样比率估计的方差为:)]([)]([)(2121RDRDRDyVEyEVyV)]()[(][2211RVxEyV)2)(11()11(2222yxxyyRSSRSnnSNn返回通常可忽略,因此N1)2)(11(1)(222yxxyRDRSSRnnSnyV式中,分别为Y和X的总体方差和总体协方差,yxxySSS,,22XYR性质6二重抽样比率估计方差的样本估计:)2)(11(1)(222yxxyRDsRsRnnsnyv返回【例9.2】某住宅小区共有200个住户,现估计小区住户家庭月平均收入的平均水平。家庭收入的数据不易调查,而家庭支出的资料相对容易获取,而且家庭月平均收入与家庭月平均支出之间强相关,因此拟采用二重抽样比率估计方法。先从住户中随机抽取100个住户作为第一重样本,调查家庭月平均支出,结果家庭月平均支出的样本均值为1500元,然后从这100个住户中随机抽选10户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资料见下表。试估计该小区家庭月平均收入,并计算估计量标准差。返回样本住户家庭月平均支出家庭月平均收入123456789101500120020001800130030008001400160011002000180028002500190058001300200023001600某小区住户家庭收支的样本数据返回解:由题知,从上表计算得1500x5287.1,1570,2400Rxy8.747777,2.371222,161333322xyxysss该小区住户的平均家庭月收入估计为:229315005287.1xxyyRD的方差估计为:RDy)2)(11(1)(222yxxyRDsRsRnnsnyv2.3712225287.1)(1001101(101613333289.336468.7477775287.12返回的标准差的估计为:RDy43.183)()(RDRDyvys三、二重抽样比率估计时样本量的最优分配问题:在给定的费用条件下,选择第一重样本量和第二重样本量,(其中为抽样比),使得估计量的方差最小。nfnf)(RDyV费用函数:fncncncncCT2121其中,为第一重抽样的单元平均调查费用;为第二重抽样的单元平均调查费用。1c2c返回求最优值:因总体均值估计量的方差为)2)(11(1)(222yxxyRDRSSRnnSnyV)()2)(11(121222fncncCRSSRnnSnTyxxy由及得0nL0fL)()(21fncncCyVLTRD返回)2()2(2222221xyxyxxySRRScRSSRScffccCnT21返回§9.4为回归估计的二重抽样一、二重抽样回归估计的抽样方法第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值估计其总体均值nixniixnx11.X第二步:从第一重样本中随机抽取出第二重样本,样本单元数为;对于第二重样本,观测目标变量与辅助变量,并计算和回归系数,构造回归估计。niyixxy,b返回二、二重抽样的回归估计及其性质(一)二重抽样的回归估计二重抽样对总体均值的回归估计:Y)(xxbyylrD式中和分别为第一重样本和第二重样本中辅助变量的平均值;为根据第二重样本计算的目标变量的样本平均数,为根据第二重样本计算的对的回归系数。xxybiyix(二)二重抽样回归估计的性质性质7是个有偏估计,其偏倚随着样本量的增大而縮小。当第二重样本的样本量n足够大时,lrDy返回)(xxbyylrD是近似无偏的。即YyElrD)()([)()(2121xxbyEEyEEyElrDlrD证明:YyE][1性质8二重抽样回归估计的方差为:)]([)]([)(2121lrDlrDlrDyVEyEVyV式中,,)1)(11()11()(2222ynlrDsnnsnnyV