讲稿5-不等概抽样

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SamplingWithUnequalProbabilities?--------非概率,等概率,不等概每个单元入样的概率第五章不等概抽样例O’Brienetal.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。等概率的抽取样本医院的缺点?首先,可能医院中愿意接受CPR治疗的病人数量会正比与医院床位的数量,采用等概简单估计量可能会有大的方差。其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。第三,调查成本在调查开始的时候是未知的----一个40个医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。其他办法?调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。分层抽样:抽样选择概率小的单位会有较高的权数。采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。抽样的关键是每个样本的选择概率是已知的。iP)=在第一次抽取中被抽中单元i(iP被选入样本)=单元i(一、不等概抽样的必要性*提高估计精度*放回的PPS抽样简化方差计算应用条件:通常需要知道一个辅助变量,用以确定其入样的概率场合:总体单元差异比较大时;抽样审计;多阶段的PSU.入样概率不同是否导致估计偏差?例如“水野法”抽样使得比估计为无偏估计量类型放回不等概抽样不放回不等概抽样逐个抽取重抽法全样本抽取;样本量随机系统抽样法二、放回的PPS抽样UiMiiM区域1881—8220289—283406829—68............(ProbabilityProportionaltoSize)01iiiNiiMMZMM也称PPZ1代码法案例iMiMi100Mi100M0累计代码10.6661~6214.51451517~15131.515166152~166413.7137303167~30357.878381304~381615150531382~531710100631532~63183.636667632~6679660727668~727101.111738728~738=738738一种多项抽样2拉希里方法不需要累计,两次随机数决定抽中的单位。第一次:1-N之间的随机数i第二次:1-maxM之间的随机数m如果Mim,第i个单位被抽中二、放回的PPS抽样UiMiiM区域1881—8220289—283406829—68............3不等概等距抽样K=M0/nMik不重复k可能重复2k肯定重复估计量对于放回不等概抽样,对总体总量的估计是汉森-赫维茨(Hansen-hurwitz)估计niiiniiiHHmynMzynY1011ˆ例如:估计超市销售额,m:员工人数解释公式意义可以证明221ˆ()()ˆ()1ˆ()(1)NiHHiiniHHiHHYVYZYnZyYZvYnnˆ()垐()()HHHHHHEYYEvYVYniHHiiniHHiiHHMYmynnMYzynnYv1202012ˆ1ˆ111ˆ例5.2某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,iimiyiimiyiimiy1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510757087(元)niiiHHmynMY10ˆ2.651070.13102423.381092623.3810926303676niHHiiHHMYmynnMYv12020ˆ1ˆHHHHYvYsˆˆ75708717411896.1ˆˆHHHHYYstr152302.045.02n=45%174118相对误差相对误差达到20%时所需样本量?二、不放回不等概抽样Horvitz_Thompson估计量iji,的含义,性质:iNijNinn)1(,ininiiHTyWyYˆ,iiW1不放回的与单元大小成比例的概率抽样为πPS抽样n固定条件下的包含概率第i单位入样概率第i,j单位都入样概率21kiN1iN1iNikkikiik2iii)//)((YYY1)ˆ(kkiNiNiKiikkiHTYYYVSkSkkkii2iS2iiYY)(/Y)1()ˆ(iiikikkiiHTYv2SkSk)//()()ˆ(kkiiiiikikkiHTYYYv2)()ˆ(jjiinijijjinHTyyYHTYˆ是Y的无偏估计)ˆ(HTY是)ˆ(HTYV的无偏估计HHYˆPPSHTYˆПPSi=1ji其他公式在某种程度上可用这两个公式表现。如:在srs中iynNYˆ(等概抽样)在srs等概抽样条件下,每个单元包含概率是nNWNniii1,则iniiHTynNyWYˆ又如,对于霍维茨——汤普森估计量iiHTyYˆ在入选概率与规模成比例条件下,i的性质为iinZ则HHniiniiHTYZynnZyYˆ1ˆπPS抽样的实施n=2条件下严格的πPS抽样布鲁尔方法德宾方法n2条件下严格的πPS抽样水野方法n2条件下非严格的πPS抽样莫蒂方法布鲁尔方法条件:所有Zi0.5逐个抽取:第一个与成比例的概率抽取第二个与成比例的概率在N-1个单元内抽取iiiZZZ21)1(jiZZ1德宾方法条件:所有Zi0.5逐个抽取:–第一个与Zi成比例的概率抽取–第二个与成比例的概率抽取)211211(jijZZZ水野方法总体差异不要太大逐个抽取:–关键:第一个单元与成比例的概率抽取–剩余的N-1个单位不放回等概抽取)1)1((*nNnnNZNnZii)1(1NnnZi莫蒂方法逐个抽取:第一个单元按照Zj的概率抽取第二个单元按照Zj/(1-Zi)的概率抽取第三个单元按照Zk/(1-Zi-Zj)的概率抽取依次递推,直至第n个单位估计量:)Pr()/Pr(ˆSyiSYiM

1 / 26
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功