讲稿5-不等概抽样

xkx940715
3 ℃
2018-07-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SamplingWithUnequalProbabilities？--------非概率，等概率，不等概每个单元入样的概率第五章不等概抽样例O’Brienetal.(1995)对Philadelphia地区的病人进行抽样，目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院，27652个床位（抽样以前，研究人员只知道床位数，不知道病人数）。等概率的抽取样本医院的缺点？首先，可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量，采用等概简单估计量可能会有大的方差。其次，自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院，并且合理分配调查人员的工作负担也是比较困难的。第三，调查成本在调查开始的时候是未知的----一个40个医院的样本可能包括了主要的大的医院，这会导致比预计更大的成本。其他办法？调查人员还可以采用与医院病床数量成比例的方法抽取57个医院，然后从每个样本医院中抽取30个简单随机样本床位。如果病人数等于床位数，并且医院实际的床位数和抽样时依据的病床数据一致，每个病人是否有相同的入样概率？而且成本在调查实施前是已知的，因为每个访员在每个医院访问的病人数量是相同的。而且，总体总量的方差可能更小。分层抽样：抽样选择概率小的单位会有较高的权数。采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元，并且在估计中采用不同的权数来进行弥补。抽样的关键是每个样本的选择概率是已知的。iP）＝在第一次抽取中被抽中单元i(iP被选入样本）＝单元i(一、不等概抽样的必要性*提高估计精度*放回的PPS抽样简化方差计算应用条件：通常需要知道一个辅助变量，用以确定其入样的概率场合：总体单元差异比较大时;抽样审计;多阶段的PSU.入样概率不同是否导致估计偏差？例如“水野法”抽样使得比估计为无偏估计量类型放回不等概抽样不放回不等概抽样逐个抽取重抽法全样本抽取；样本量随机系统抽样法二、放回的PPS抽样UiMiiM区域1881—8220289—283406829—68............(ProbabilityProportionaltoSize)01iiiNiiMMZMM也称PPZ1代码法案例iMiMi100Mi100M0累计代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738＝738738一种多项抽样2拉希里方法不需要累计，两次随机数决定抽中的单位。第一次：1-N之间的随机数i第二次：1-maxM之间的随机数m如果Mim,第i个单位被抽中二、放回的PPS抽样UiMiiM区域1881—8220289—283406829—68............3不等概等距抽样K＝M0/nMik不重复k可能重复2k肯定重复估计量对于放回不等概抽样，对总体总量的估计是汉森-赫维茨（Hansen-hurwitz）估计niiiniiiHHmynMzynY1011ˆ例如：估计超市销售额，m：员工人数解释公式意义可以证明221ˆ()()ˆ()1ˆ()(1)NiHHiiniHHiHHYVYZYnZyYZvYnnˆ()垐()()HHHHHHEYYEvYVYniHHiiniHHiiHHMYmynnMYzynnYv1202012ˆ1ˆ111ˆ例5.2某部门要了解所属8500家生产企业当月完成的利润，该部门手头已有一份去年各企业完成产量的报告，将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧，准备采用抽样调查来推算当月完成的利润。根据经验，企业的产量和利润相关性比较强，且企业的特点是规模和管理水平差异比较大，通常大企业的管理水平较高些，因此采用以与去年产量成比例的PPS抽样，从所属企业中抽出一个样本量为30的样本，iimiyiimiyiimiy1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510757087（元）niiiHHmynMY10ˆ2.651070.13102423.381092623.3810926303676niHHiiHHMYmynnMYv12020ˆ1ˆHHHHYvYsˆˆ75708717411896.1ˆˆHHHHYYstr152302.045.02n＝４５％174118相对误差相对误差达到20％时所需样本量？二、不放回不等概抽样Horvitz_Thompson估计量iji,的含义，性质：iNijNinn)1(,ininiiHTyWyYˆ，iiW1不放回的与单元大小成比例的概率抽样为πPS抽样n固定条件下的包含概率第i单位入样概率第i，j单位都入样概率21kiN1iN1iNikkikiik2iii)//)((YYY1)ˆ(kkiNiNiKiikkiHTYYYVSkSkkkii2iS2iiYY)(/Y)1()ˆ(iiikikkiiHTYv2SkSk)//()()ˆ(kkiiiiikikkiHTYYYv2)()ˆ(jjiinijijjinHTyyYHTYˆ是Y的无偏估计)ˆ(HTY是)ˆ(HTYV的无偏估计HHYˆPPSHTYˆПPSi=1ji其他公式在某种程度上可用这两个公式表现。如：在srs中iynNYˆ（等概抽样）在srs等概抽样条件下，每个单元包含概率是nNWNniii1,则iniiHTynNyWYˆ又如，对于霍维茨——汤普森估计量iiHTyYˆ在入选概率与规模成比例条件下，i的性质为iinZ则HHniiniiHTYZynnZyYˆ1ˆπPS抽样的实施n=2条件下严格的πPS抽样布鲁尔方法德宾方法n2条件下严格的πPS抽样水野方法n2条件下非严格的πPS抽样莫蒂方法布鲁尔方法条件：所有Zi0.5逐个抽取：第一个与成比例的概率抽取第二个与成比例的概率在N-1个单元内抽取iiiZZZ21)1(jiZZ1德宾方法条件：所有Zi0.5逐个抽取：–第一个与Zi成比例的概率抽取–第二个与成比例的概率抽取)211211(jijZZZ水野方法总体差异不要太大逐个抽取：–关键：第一个单元与成比例的概率抽取–剩余的N-1个单位不放回等概抽取)1)1((*nNnnNZNnZii)1(1NnnZi莫蒂方法逐个抽取：第一个单元按照Zj的概率抽取第二个单元按照Zj/(1－Zi)的概率抽取第三个单元按照Zk/(1－Zi－Zj)的概率抽取依次递推，直至第n个单位估计量：)Pr()/Pr(ˆSyiSYiM