07-第七章不等概率抽样

xiaoyuazaz
1 ℃
2017-09-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1第七章不等概率抽样7.1概述7.1.1不等概率抽样的必要性及优点在概率抽样中，简单随机抽样的一个基本特点是总体中的每一个单元的入样概率都相等，因此它是一种等概率抽样。由于分层随机抽样中每一层内的抽样也是按照简单随机抽样进行的，因此层内的抽样仍是等概率的。等概率抽样的基本出发点是将总体（或层）中的每一单元看作是平等的，不“偏向”也不“疏远”某些特定的单元。如果总体单元的差异不是很大，这种处理方法既是简单的，也是合理的。但是如果总体单元相差较大，也即总体方差大的情况，等概率抽样的效果就不一定好。例如为了估计一个城市的商业销售总额，对各商业网点进行调查。由于商业网点的规模差异极大，个别超大型商场年销售额可以超过亿元，甚至达到几十亿；而为数较多的大中型商场与商店年销售额是在几十万到几千万之间；至于数量更多的小型商店与摊位的年销售额每个仅数万元或甚至不到一万元。在这种情况下，将大型、特大型的商场与一般中小型市场或商店平等对待显然是不合理的。因为一个城市中的大型商场数量虽少，但所占的市场份额则很高，对它们我们应该给予更多的关注，对它们的调查应该调查得细一些，而对数量很大但所占市场份额并不很大的小型商店则可粗一些，不需要化很大精力作过多的调查。对此有几种处理方法，一种是将商业网点按规模（资金总额或员工总数）大小分成若干类，以类为层进行分层抽样：大型商场的抽样比可以高些，小型商店的抽样比可以低些，绝少数特大型商场甚至可以进行100％抽样，即普查。这种对少数大单元进行普查而对大多数小单元进行抽样的方法就是所谓的目录抽样（listsampling）。另一种处理的思路则考虑得更细一点，即设想在抽样中将总体中每个单元的入样概率与其规模大小联系起来：大单元抽到的概率大，小单元抽到的概率小，这就是不等概率抽样（samplingwithunequalprobabilities）。在不等概率抽样中，每个单元都被赋予一个大小不等的入样概率，而这个概率通常与某个辅助变量有关，例如前面例子中的表示单元规模（大小）的某种度量。不等概率抽样通常用于以下两种情况。一是需要估计总体总量但总体单元规模相差很大的情况。除了上面所举的例子外，还可以列举许多类似的例子：为估计一个国家或地区城市人口总数（以城市为单元），农作物总产量（以农场为单元），工业总产值（以工厂为单元），交通运输量（以航空公司、运输公司或港口为单元）等等。另一种情况是抽样审计，以项目或单笔帐作为单元，每个单元被抽到的概率与其发生金额成正比，则可以抽查少量项目2或帐而所查样本发生金额可以达到总的发生金额很大比例的效果。不等概率抽样另一常用的情况是由于种种原因不能直接对基本的较小单元抽样的情形。例如在整群抽样或多阶抽样中，若初级单元大小（用所包含的下一级单元数目表示）相差很大，则常采用对初级单元的不等概率抽样。不等概率抽样的主要优点是可以大大提高估计的精度，减少抽样误差。而它的一个必要条件是对总体中的每一个单元，都要已知一个辅助量用以确定其入样概率或两个单元同时入样的概率，这不仅在实施中是必需的，而且在数据处理中也是必要的。7.1.2不等概率抽样的主要分类文献中研究的不等概率抽样有许多，例如布鲁尔（Brewer）与哈尼夫（Hanif）在他们1983年出版的专著《不等概率抽样》中就列举了50多种方法。不过真正常用的也不过10种左右。在这些不等概率抽样方法中，按其实施方法或特性可以分成许多不同的类型。一种分类方法是按抽样过程中被抽到的单元是否被放回总体中去而分为放回抽样与不放回抽样两类。事实上由于等概率抽样相对而言比较简单，因此常用的是不放回情形，即通常意义下的简单随机抽样。而不放回的不等概率抽样由于实施、目标量的估计及其方差估计通常都比较复杂，因此放回的不等概率抽样也经常地被使用。在某种意义上可以这么说，抽样调查中的放回抽样主要用于不等概率抽样这种特殊情形。采用放回抽样的主要好处在于在每次抽样中，所获得的样本是相互独立的，因此它的数据处理就特别简单。而不放回抽样，虽然效率常常更高，但由于丧失了独立性，无论是抽样方法还是方差估计，都要比放回抽样复杂得多。另一种分类方法是放回抽样中的每个单元每次被抽到的概率或不放回抽样中最终样本包含某个单元的概率是否严格地与单元的大小成比例，还有最终样本量n是固定的还是随机的。最重要的情形是n固定且上述概率与单元大小严格或近似成比例的方法。对不放回抽样，按其样本单元抽取方式的不同又可分为以下几种方法。1.逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元，这个概率通常与已经入样的单元有关。2.重抽法。以一定的概率逐个进行放回抽样，若一旦抽到重复单元，则放弃所有已抽到的单元而重新抽取，直到抽到规定单元数且所有入样单元都不同为止。3.系统抽取法。将总体单元按某种顺序排列，且将规定的单元入样概率（或其倍数）累计起来，并确定抽样间隔，在这个范围内产生一个随机数以确定初始入样单元，然后按上述抽样间隔确定其余的样本单元。在本章中我们主要介绍几种常用且较为典型的不等概率抽样，其中的系统抽取方法将在第十章中介绍。37.2放回不等概率抽样7.2.1多项抽样与PPS抽样设总体包含N个单元，对其进行放回抽样，在每次抽样中，抽到第i个单元的概率为iZ，Ni,,2,1=，11=∑=NiiZ，独立地进行这样的抽样n次，共抽到n个单元（有可能重复），则称这种不等概率抽样为多项抽样（multinomialsampling）。若记it为总体中第i个单元在n次抽样中被抽到的次数，显然对每个i都有：nti≤≤0，且ntNii=∑=1。作为随机变量（Nttt,,,21），它的联合分布即是以下的多项分布：NtNttNZZZtttn212121!!!!（7.1）这就是多项抽样这个术语的来源。当每个单元具有一个说明其大小或规模的度量iM时，则可取0MMZii=（7.2）其中∑==NiiMM10是总体中所有单元的“大小”之和，此时每个单元在每次抽样中的入样概率与单元大小成比例，称这种特殊的多项抽样为（放回的）与大小成比例的概率抽样（samplingwithprobabilityproportionaltosize），简称PPS抽样。7.2.2多项抽样的实施方法1.代码法代码法也称汉森——维茨（Hansen-Hurwitz）法。对于给定的一组概率iZ，Ni,,2,1=，总可以找到一个整数0M，使对每个iiZMM0=，Ni,,2,1=都是一个整数。在PPS抽样抽样情形，也可以假定每个iM都4是整数（若不然也可以乘以一个常数使其都成为整数），然后对每个iM进行累计，赋以第i个单元iM个代码。具体方法是第1个单元拥有代码1~1M，第2个单元拥有代码211~1MMM++，…，第i个单元拥有代码∑∑=-=+ijjijjMM111~1，…，最后一个单元拥有代码⎟⎟⎠⎞⎜⎜⎝⎛=+∑∑=-=NjjNjjMMM1011~1。每次抽样产生一个[]0,1M之间的随机（整）数，设为m，则代码m所对应的单元即为此次抽样被抽中的单元。如此重复n次即获得n个样本单元。例7.1设某个总体有10=N个单元，欲用多项抽样从中抽取5=n个单元，给定的入样概率{}iZ如表7.1所示。则若令1000=M，即可使每个iiZMM0=皆为整数，对iM累加，赋以每个单元的代码列在表7.1各列中。表7.1用代码法进行多项（PPS）抽样iiZiM累计iM代码10.08881~820.1010189~1830.17173519~3540.0664136~4150.24246542~6560.0997466~7570.0557976~7980.0778680~8690.0449087~90100.101010091~100∑1.001000=M在[]100,1范围内产生5个随机数，设分别为04，73，25，49及82，则第1，第6，第3，第5及第8个单元即为抽中的单元。如果我们欲再增加一个样本单元，产生的随机数为58，则又对应第5个单元，这个单元即为抽中两次。由于单元愈大，被赋予的代码数就愈多，因此每个单元入样的概5率与其大小iM成比例。2.拉希里（Lahiri）法此方法也称为二次抽取法。方法是对上述的iM，令{}iNiMM≤≤=1*max，即所有iM中的最大值，每次抽取一个[]N,1范围内的随机数i及[]*,1M范围内的随机数m，若mMi≥，则第i个单元入样；否则重抽一组（mi,）。例如在例7.1中，10=N，24*=M。设[]10,1中的一个随机数为4，[]24,1中的一个随机数为9，由于964=M，因此需要重抽。设第二次抽到的一组随机数为()15,7，则仍然不满足要求，还需要抽。若再次抽到的随机数组为()8,2，则由于8102=M，故第2个单元被抽中。如此重复直到抽到n个单元（允许重复）为止。拉希里法适用于N很大的情况，因为它不需要列出如表7.1这样的表。7.2.3汉森——赫维茨估计量及其性质对于多项抽样，由于抽样是不等概率的，每个样本单元的观测值nyyy,,,21就不再是“平等的”，因此对于总体参数的估计与等概率抽样不同。前已提到，这个估计也与样本单元iZ的取值nzzz,,,21有关。汉森——赫维茨（Hansen-Hurwitz）提到的对总体总和Y的估计如下：∑==niiiHHzynY11ˆ（7.3）汉森——赫维茨估计量HHYˆ具有如下性质：若所有的0iZ，Ni,,2,1=，则：1.YYEHH=)ˆ(，即它是无偏的；（7.4）2.∑=⎟⎟⎠⎞⎜⎜⎝⎛-=NiiiiHHYZYZnYV121)ˆ(（7.5）63.若1n，则∑=⎟⎟⎠⎞⎜⎜⎝⎛--=niHHiiHHYzynnYv12ˆ)1(1)ˆ(（7.6）是)ˆ(HHYV的无偏估计。在证明上述性质以前，我们先就PPS抽样这种特殊情形，说明HHYˆ的直观意义。对于PPS抽样，0Mmzii=，代入（7.3）式，即有∑∑∑======niiiniiiniiiHHmynMMmynzynY1010111ˆ其中iy是第i个样本单元的观测值，例如商店的年销售额，而im是该单元的大小，例如商店的员工人数，则iimy即是第i个商店人均年销售额。对n个iimy取平均即是样本商业网点人均年销售额的平均，将次数乘以0M，即该地所有商业网点的员工总数，即可获得该地商业销售总额的估计。下面我们证明汉森——赫维茨估计量HHYˆ的性质。证明：设想有这样一个随机变量h，它有N个可能的取值：iiZY，Ni,,2,1=，且iiiZZY=⎟⎟⎠⎞⎜⎜⎝⎛Pr，Ni,,2,1=。则YZYZENiiii==∑=1)(h，7∑=⎟⎟⎠⎞⎜⎜⎝⎛-=NiiiiYZYZV12)(h，而HHYˆ是h的n次独立观测值iizy的样本平均数，因此根据数理统计的基本理论，我们有：YEYEHH==)()ˆ(h∑=⎟⎟⎠⎞⎜⎜⎝⎛-==NiiiiHHYZYZnVnYV121)(1)ˆ(h而样本方差∑=⎟⎟⎠⎞⎜⎜⎝⎛--niHHiiYzyn12ˆ11是)(hV的无偏估计，因此∑=⎟⎟⎠⎞⎜⎜⎝⎛--=niHHiiHHYzynnYv12ˆ)1(1)ˆ(是)ˆ(HHYV的无偏估计。7.2.4数值例——职工人数调查例7.2表7.2是某系统全部36=N个单位上一年职工人数iX及当年职工人数iY的数据。以iX为单位大小iM的度量，对单位进行PPS抽样，6=n，估计全系统当年职工总人数Y，并与简单随机抽样作精度比较。单位号iXiY单位号iXiY15986331923125522118201524363065621172181430123273222342435372386233123386142164243513717102711452525228184325012619421092162352714916610169817782817318911157015412931834412502486302042271349751631526381472378632188174157127403397122163353523421824217267299354

07-第七章 不等概率抽样

07-第七章不等概率抽样