第五章不等概抽样第一节不等概抽样例O’Brienetal.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。等概率的抽取样本医院的缺点?首先,可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量,采用等概简单估计量可能会有大的方差。其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。第三,调查成本在调查开始的时候是未知的----一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。其他办法?调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小第一节不等概抽样分层抽样:抽样选择概率小的单位会有较高的权数。采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。抽样的关键是每个样本的选择概率是已知的。(i(iiiPP单元在第一次抽取中被抽中)=单元被选入样本)=场合:总体单元差异比较大时;抽样审计;多阶段的PSU.入样概率不同是否导致估计偏差?例如“水野法”抽样使得比估计为无偏估计量不等概的必要性1、提高估计精度2、方回的PPS抽样简化方差计算应用条件:通常需要知道一个辅助变量,用以确定其入样概率第一节不等概抽样1.放回不等概抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元放回总体,然后进行下一步抽烟。这样,每次抽样过程都是从同一个总体独立进行的,这种不等概抽样称为(有)放回不等概抽样第一节不等概抽样01(5.1)iiiNiiMMZMM第一节不等概抽样这种不等概抽样称作放回的与规模大小成比例的概率抽样(probabilityproportional),简称PPS抽样。实际问题中总体单元大小的度量往往不止一个,比如企业员工数量、产值、销售量、利润等都可以度量企业规模的大小。PPS的实施主要有两种方法:代码法与拉希里(Lahiri)法累计代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738=738738iiM10iM0M第一节不等概抽样[2]拉希里方法不需要累计,两次随机数决定抽中的单位。第一次:1-N之间的随机数i第二次:1-maxM之间的随机数m如果Mim,第i个单位被抽中第一节不等概抽样2.不放回不等概抽样对于不放回抽样,对总体参数的估计及其方差估计比较简单,但样本单元中可能有单元被抽中多次,直观上看,没有必要对同一单元调查多次,因此可以考虑放回不等概抽样,即每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元不再放回总体,对总体中剩下的单元进行下一次抽样。第一节不等概抽样对于不放回不等概抽样,样本的抽取可以有以下几种方法(1)逐个抽取(2)重抽法(3)全样本抽取;样本量随机(4)系统抽样法第二节放回不等概抽样一只抽取一个样本单元(n=1)的不等概抽样为了演示不等概抽样的思想,先看一个例子。一个城市有4个超市,营业面积从100平米到1000平米。我们的目标是通过抽取一家超市来估计4个超市上个月的总销售量因为我们只抽取一个超市,所以超市第一次被抽中的概率等于超市进入样本(入样)的概率。这个例子中,入样概率正比于超市营业面积iiP(i超市被选中)第一节不等概抽样因为超市A占四个超市营业面积的1/16,所以它的入样概率为1/16。假设我们知道所有超市的销售额超市营业面积㎡(万元)A1001/1611B2002/1620C3003/1624D100010/16245Total16001300iZiY第二节放回不等概抽样在估计中,可以使用选择概率来弥补不等概率抽样。如果超市的营业面积近似正比于超市的销售额,那么超市A的销售额就占所有超市销售额的1/16,因此超市A的销售额乘16可以近似的估计所有超市的销售额。因此,样本量为1的不等概率抽样的总体总量估计量为𝑌=𝑊𝑖𝑦𝑖=𝑖∈𝑆𝑦𝑖𝑍𝑖𝑖∈𝑆式中𝑊𝑖=1𝑃(单元𝑖在样本中)=1𝑍𝑖第二节放回不等概抽样样本Ziyi[A]1/161117615375[B]2/162016019600[C]3/162412829584[D]10/162453928464四个n=1的可能的不等概抽样第二节放回不等概抽样𝐸𝑌=𝑃𝑆𝑌𝑠=300𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒𝑠𝑎𝑚𝑝𝑙𝑒𝑠𝑌总是无偏估计量,因为𝐸𝑌=𝑍𝑖𝑌𝑖𝑍𝑖=𝑌𝑁𝑖=1𝑌的方差为𝑉𝑌=𝐸𝑌−𝑌2=𝑍𝑖(𝑌𝑖𝑍𝑖−𝑌)2𝑁𝑖=1第二节放回不等概抽样例如𝑉𝑌=11615367+21619600+31629584+10168464=14248与n=1的SRS样本相比,SRS样本的𝑍𝑖=14,1𝑍𝑖=𝑁,所有的可能样本见下表样本[A]1/4114465536[B]1/4208048400[C]1/4249641616[D]1/4245980462400V[]65536/448400/441616/4462400/4154488SRSY第二节放回不等概抽样二有放回不等概抽样对于放回不等概抽样,对总体总量的估计是汉森-赫维茨(Hansen-hurwitz)估计niiiniiiHHmynMzynY1011ˆ例如:估计超市销售额,m:员工人数解释公式意义第二节放回不等概抽样212122201101ˆ()()ˆ()1ˆ()(1)ˆ11ˆˆ11NiHHiiiniHHiiHHnniiHHHHHHiiiiYVYZYnZyYZvYnnyMyYvYYnnznnmM可以证明ˆ()ˆˆ()()HHHHHHEYYEvYVY例5.2某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,第二节放回不等概抽样1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510第二节放回不等概抽样niiiHHmynMY10ˆ2.651070.13102423.381092623.3810926303676765404HHHHYvYsˆˆ17445475708717411896.1ˆˆHHHHYYstr=45%相对误差达到20%时所需样本量对误差达到20%时所需样本量nnnnnnnn=150第二节放回不等概抽样根据汉森-赫维茨估计量,PPS整群抽样的总体总值估计量为:𝑌=1/𝑛𝑦𝑖𝑍𝑖=𝑀𝑜/𝑛𝑦𝑖𝑀𝑖=𝑀𝑜𝑦𝑛𝑖=1𝑛𝑖=1由汉森-赫维茨估计量的性质知,𝑌是Y的无偏估计量。估计量方差为:V𝑌=𝑀𝑜𝑛𝑀𝑖(𝑌𝑖−𝑌)2𝑁𝑖=1第二节放回不等概抽样方差估计量的估计为:𝑣𝑌=𝑀02𝑛(𝑛−1)𝑀𝑖(𝑦𝑖−𝑦)2𝑛𝑖=1第三节多阶段有放回不等概抽样𝑌𝐻𝐻=1𝑛𝑌𝑖𝑍𝑖𝑛𝑖=1第三节多阶段有放回不等概抽样i221121111Y()1=[()]11()111=iHHHHiNNiiHHiiiiiHHniHHHHiimNniiHHHHijiijiiiYYYYYVYYZYnZZYYYYnnZYMYYynZnZm由于是的无偏估计,是的无偏估计,且的方差为:V()V()的一个无偏估计量为v()=如果希望是自加权的,由则要求:第三节多阶段有放回不等概抽样0i00201fM=miiiiiiiMKnZmffmffMnZm常数这里,为总体中任意一个二级单元被抽中的概率。如果事先确定,则记总体中所有二级单元数为,如果抽样时每个初级单元被抽中的概率与拥有的二级单元数成比例,第二阶段对二级单元进行简单随机抽样,则时,样本是自加权的。第三节多阶段有放回不等概抽样0001112201Y(Y)()(1)nnmPPSiijiijnPPSiiMMMyyynnmMvyynn这时,对总体总值的估计为:估计量方差的样本估计为:实际工作中,如果初级单元大小不相等,人们通常喜欢在第一阶段抽样时按放回的与二级单元数成比例的PPS抽样,第二阶段抽样则进行简单随机抽样,且每个初级单元内的二级单元样本量都相同,这样得到的样本是自加权的,估计量的形式非常简单第三节多阶段有放回不等概抽样二多阶段有放回不等概抽样以三阶段抽样为例N111111222222111111,,,1,1,1.Y111111ˆ()ijiijiiiijijuKMiijijuijunmkijuijuKMMNNNijijuiiijiijijuiiijiijijuZZZZZYYYYVYYYYnZnmZZnmkZZZ每一阶单元被抽中的概率为Z他们满足这时对总体总值2221111ˆˆˆˆˆ()()11nniiiivYYYYnYnnnn它的一个无偏估计量为第三节多阶段有放回不等概抽样实际工作中,通常做法是前二阶采用PPS,最后一阶按等概率抽取最终单元,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。此时有:1M011,,iiMijjijiijijijijjKKZZZMKK第三节多阶段有放回不等概抽样00111220111ˆˆˆ()()(1)1=nmkijijuniimkiijujuMYyMynmkYMvYyynnyynk则总体总值的估计为:方差的样本估计为:式中第三节多阶段有放回不等概抽样例【5-5】某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。第三节多阶段有放回不等概抽样确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年满18周岁以上的居民。第一步:确定抽样方法调查公司决定采用多阶段抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶段为城市、街道、居委会、居民户,在居民户中利用二维随机表(Kish随机表的简化)抽取成年居民。第三节多阶段有放回不等概抽样第二步:确定样本量及各阶