返回§5.1不等概抽样一、概念与特点前面所学的简单随机抽样,总体中的每个单元具有同样的入样概率,它是等概率抽样。与等概率抽样对应的另一类方法是不等概抽样,也就是在抽样前赋予总体每个单元一个入样概率.一般而言,每个单元的入样概率是由该单元在整体中的地位来确定的.因此每个单元的入样概率可能是不相同的.返回什么时候使用不等概抽样?实际工作中,如果遇到下面几种情况,则可以考虑使用不等概抽样:1、抽样单元在总体中所占的地位不一致2、调查的总体单元与抽样总体的单元不一致3、改善估计量不等概抽样的优点:提高估计精度,减少抽样误差。返回二、不等概抽样的种类1、放回不等概抽样首先给整体的每一个单元赋予一个确定的入样概率(通常是不相等的),然后在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元记录后又放回总体,再进行下一次的抽样,很显然每次抽样都是独立的。返回NiiiiiMMMMZ10放回不等概抽样中,最常用的是按照整体单元的规模大小来确定单元在每次抽样时的入样概率,假设总体中第i个单元的规模度量为,总体的总规模为每次抽样中,第i个单元被抽中的概率用表示,其中iMNiiMM10iZ返回这种不等概抽样称作放回的与规模大小成比例的概率抽样(probabilityproportionaltosize),简称PPS抽样。实际问题中,总体单元大小的度量往往不止一个,比如企业员工数量、产值、销售量、利润等都可以度量企业规模的大小。PPS抽样的实施主要有两种方法:代码法和拉希里(Lahiri)法,下面我们用一个实例分别介绍这两种方法。返回代码数,将代码数累加得到0M每次抽样0M都产生一个[1,]之间的随机数,设为m则代码m所对应的单元被抽中。(如果iM不是整数,则乘以某个倍数。)(1)代码法在PPS抽样中,赋予每个单元与相等的iM返回×10累计×10代码123456789100.614.51.513.77.815103.661.16145151377815010036601161511663033815316316677277381~67~151152~166167~303304~381382~531532~631632~667668~727728~73873.8738____iMiMiM【例5.1】设某个总体有N=10个单元,相应的单元大小及其代码数如下表,我们要在其中产生一个n=3的样本.iM返回先在[1,738]中产生一个随机数为354,再在[1,738]中产生第二个随机数为553,最后产生第三个随机493。则它们所对应的第5,7,6号单元被抽中。返回(2)拉希里法},{max1iNimM令每次抽样都分别产生M一个[1,N]之间的随机数i及[1,]之间的随机数m如果mMi则第i个单元被抽中;否则,重抽一组(i,m).在例5.1中,.10,150NM在[1,10]和[1,150]中分别产生(i,m):返回(3,121),3M=15<121,舍弃,重抽;m(8,50),8M=36<50,舍弃,重抽;m(7,77),7M=100≥77,第7号单元入样;m(5,127),5M=78<127,舍弃,重抽;m(4,77),4M=137≥77,第4号单元入样;m(9,60),9M=60≥60,第9号单元入样。m因此,第4,7,9号单元被抽中。返回2、不放回不等概抽样每次在总体中对每个单元按入样概率进行抽样,抽取出来的样本单元不放回总体,对总体中剩下的单元进行下一次抽样。不放回不等概抽样的效率比放回时的效率高,但是样本不独立会加大抽样实施、参数估计及精度计算的难度。返回对于不放回不等概抽样,样本的抽取可以有以下几种方法:(1)逐个抽取法。每次从总体未被抽中的单元中以一定的概率取一个样本单元。(2)重抽法。以一定的概率逐个进行放回抽样,如果抽到重复单元,则放弃所有抽到的单元,重新抽取。(3)全样本抽取法。对总体每个单元分别按一定概率决定其是否入样。这种方法的样本量是随机的,事先不能确定。(4)系统抽样法。将总体单元按某种顺序排列,根据样本量确定抽样间距k,在[1,k]中产生一个随机数。返回§5.2放回不等概抽样一、只抽取一个样本单元(n=1)的不等概抽样为了便于了解不等概抽样的基本思想,我们先看一个总体已知,只抽取一个样本单元的例子。【例】一个城市有四个超市营业面积从100平方米到1000平方米不等(见下表),我们的目标是通过抽取一家超市来估计这四个超市上个月的总营销量。通常超市面积越大则销售量越大,因此,我们选择的入样概率与超市的营业面积成正比。返回超市营业面积(平方米)(万元)A1001/1611B2002/1620C3003/1624D100010/16245总计16001300iZiY四个超市的背景数据iYiZ:第i个超市的包含概率,:第i个超市的销售量返回如果超市的营业面积近似正比于超市的销售额,那么超市A的销售额就占所有超市销售额的1/16,因此超市A的销售额乘以权重16(包含概率的倒数)可以近似地估计所有超市的销售额。因此,样本量为1的不等概抽样的总体总值估计量为:SiiiiSiiZyywYiiZw1式中返回样本[A]1/161117615375[B]2/162016019600[C]3/162412829584[D]10/162453928464iZiySY2)(YYS四个n=1可能的不等概样本及其估计量返回从上表可以算出:万元)。(3003921610128163160162176161)(SiiYZYE.1424884641610295841631960016215367161)(])[()(22YYZYYEYVSii可见不等概抽样的总体总值估计量是无偏的返回我们用同一个例题将不等概抽样与简单随机抽样作一比较,以此认识不等概抽样的意义。与n=1的简单随机抽样相比,简单随机抽样的样本NZZii41,41所有可能的样本见下表返回样本[A]1/4114465536[B]1/4208048400[C]1/4249641616[D]1/4245980462400iZiySRSY2)(YYSRS四个可能的简单随机样本的数据及其估计量返回我们来计算简单随机抽样的估计量方差154488)462400416164840065536(41)(SRSYV前面按不等概抽样的估计量方差为14248,是无偏估计,期望为300万元,但是其方差大于不等概抽样,这是因为不等概抽样利用了辅助信息,即与销售额相关的超市面积。SRSY返回二、一般有放回不等概抽样niiiHHzynY11对于放回不等概抽取样本容量为n的样本,总体总值的估计量为样本中所有的平均,我们得到汉森—赫维慈(Hansen-Hurwitz)估计:iiZy/上式是总体总值的无偏估计返回如果采用的是PPS抽样,即,则0MMZiiniiiniiiHHMynMzynY1011上面估计量是n个独立观测的平均,因此每个单元的总值估计量方差是:21)(YZYZiiNii返回:的方差为HHYNiiiiHHYZYZnYV12)(1)(:)(的无偏估计为HHYVniHHiiHHYxynnYv12)(111)(niHHiiMYmynnM12020)()1(返回【例5.2】某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份上年各企业完成产量的报告,将其汇总得到所属企业上年完成产量为3676万吨.考虑到时间紧,准备采用抽样调查来推算当月完成的利润.根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高,因此采用与上年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,调查结果如下表.不等概抽样例题返回imiyiimiyiimiyi138.2310926106.501900191.510213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.001045229.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.819921821.00640276.20510样本单元的有关数据红色数字表示被两次抽到,mi为企业上年完成的产量,yi为企业当月完成的产量。返回要根据以上调查结果估计该部门所属企业当月完成的利润,并给出95%置信度下的相对误差.如果要求在相同条件下相对误差达到20%,所需的样本量应该是多少?解:由上述条件知3676,300Mn估计当月完成的利润为:75708710niiiHHmynMY返回174118)()(8.53031700514)()1()(20120HHHHHHniiiHHYvYsMYmynnMYvHHY方差及标准差的估计%4575708717411896.1)(HHHHYYstr在置信度为95%时,对应的t=1.96,的相对误差HHY返回因此,在置信度仍为95%、相对误差时,所需样本量为:%201r15230)2.045.0(22121nrrn返回三、有放回不等概整群抽样在群规模不等的整群抽样中,如果群的规模差异较大,各个群对总体的影响会产生很大差别。这时可以采用不等概方式抽取群。其好处是把群的规模作为抽取样本的辅助信息,提高了估计的精度,而且方差估计有比较简单的形式。下面主要讨论以PPS抽样抽取群的情况。返回每次按的概率抽取第i个群,由于群内的单元全部参与调查,第i个群的总值为:),,2,1(0NiMMZii.1iMiijiyy根据上节讲到的汉森—赫维茨估计量,PPS整群抽样的总体总值估计量为:yMMynMZynYniiiniii01011我们知道,这是一个无偏估计。返回估计量的方差是:21021)()(1)(YYMnMYZYZnYViNiiiiNii估计量方差的估计为:212021)()1()()1(1)(yynnMYZynnYviniiini返回【例5.3】某企业欲估计上季度每位职工的平均病假天数。该企业共有8个分厂(工人数资料见下表),现用不等概整群抽样拟抽取三个分厂为样本,并以95%的置信度计算其置信区间。有关数据及抽样过程如下:返回分厂编号职工人数累积区间112001~120024501201~1650321001651~375048603751~4610528404611~7450619107451~936073909361~9750832009751~129508个分厂的职工人数资料返回【解】采用PPS抽样,利用随机数表在数字1~12950之间随机抽取3个数,分别是02011,07972和10281,于是3分厂、6分厂和8分厂入选样本。用分别表示三个分厂职工的病假天数,调查结果为:321,,yyy.5790,4160,4320321yyy431.2)320097901910416021004320(3111110niiniiiynMynMYy返回同样可求得估计量方差的估计值为:0356.0)()1(1)()(2120yynnMYvyvnii其95%的置信区间为:]80.2,06.2[37.043.20356.096.143.2返回【评价】对于群规模不等的整群抽样,采用不等概PPS抽样,可以得到总体目标量的无偏估计,估计量和估计量方差都有比较简明的形式,估计的效率也比较高,确实是值得优先采用的方法。但是此方法使用的条件是:在抽取样本前,要了解有关群规