§1简单随机抽样及实施方法简单随机抽样就是从装有N张票子的盒子里随机无放回地摸取n张票子,它可以有两种摸取方法:第三章简单随机抽样(1)从盒子中一次摸取n张票。这样摸取共有种可能性,每种可能的概率为。抽到的样本称为简单随机样本。nNnN1(2)从盒子中随机摸取1张票,相应该票的单元入样后,票并不放回盒子,从余下的票中再随机摸取1张票,相应此票的单元也入样且票也不返回盒子;依此实施,直到第n个样本入样。这两种方法都使用了随机的方法,而且样本并不重复,那么这两种方法是否都算是简单随机抽样呢?要检验一下这两种方法中每一单元的入样概率是否相等。只要验证第二种方法中总体的每n个单元一组的样本入样的可能性等于第一种方法中的即可。nN1利用条件概率即可得到验证。也就是说,两种操作方法是等价的。都是简单随机抽样但由于N、n一般都很大,第二种操作方案较方便。现在介绍一下具体实施简单随机抽样的做法:首先将N个总体元素编号为:1,2,,N,每一单元对应一个号码,若抽到某号,则相应单元入样。(1)抽签法:实际上就是一个盒子模型,将编号为1~N的N个形状与质地完全相同的纸签放在盒子里,用上述两种方法之一从盒子中摸出n张签。(2)随机数法:设想N相当大,你会做那么多的签放在盒子里以供抽取吗?随机数法用来解决这个困难。利用随机数表、随机数骰子或计算机可以获得随机数。①随机数表:本书最后附有随机数表,它应当被看成0~9数字随机地横竖排列,我们可以随机地从某行某列的数字开始如果需要一至二位数字,则从该数字开始从左向右接连地截取,该行不够则换下一行开始;如果需要三位或三位以上数字,则从开头数字开始向右取三位或三位以上的数从该数纵向往下接连获取其它随机数,不够可另换列执行,直到取到我们所需要的个数n,当然这中间应该去掉可能发生重复的数以及超出N的数字。③利用计算机产生随机数:不少现成的统计软件都可提供此类服务。但必须指出,这样产生的随机数一般不能保证其随机性,称为“伪随机数”。因此,提倡前述方法产生随机数。②随机数骰子:随机数骰子是由均质材料制成的正二十面体面上标有0~9数字各两个。如图所示。通常用3~6个随机骰子,视所需要的随机数的位数而定。骰子用不同的颜色染成可事先规定好哪种颜色的骰子产生个位数,哪种颜色的骰子产生十位数,依次下去。将所需骰子在盒内摇匀等稳定后揭盖读取朝上面的数字,即获取一组随机数。所摇的骰子数m通常取决于总体单元个数N,满足。记m个骰子按约定颜色而确定的顺序读得随机数,若,则此即为一次合格的随机数;否则予以放弃,重新摇取,直到取到n个合格的随机数为止。mmN101010RNR00R§2总体平均数与总和的估计设总体元素为,为来自该总体的简单随机样本,有时也记样本为为中的某个组合。在后者的表示中随机性体现在下标上。样本是总体的一个有代表性的剖面。12,,,NYYY12(,,,)nyyy12(,,,)niiiYYY12(,,,)niii(1,2,,)N(1,2,,)jijn12(,,,)nyyy12,,,NYYY总体平均数的估计为:Yniiyny11总体总和的估计自然为:niiynNyNY1ˆ~由于这两个估计之间仅差一个常数因子N,因而只要重点研究的估计量的若干性质即可。是样本平均数,由于样本的随机性,样本平均值也是随机变量,理论上的平均值Yyyy即数学期望为:)(11)(21niiiYYYnnNyE其中表示对中所有组合求和),,2,1(N),,,(21niii对于中的每个元素,比如,它与其它元素构成样本的可能次数显然为,因此,乃至在中出现的次数均为,于是),,,(21nYYY1Y1YiY11nN11nNNiiYnnNnNyE11111)(NiiYnNnNnnNnN11!)!(!)!()!1()!1(YYNNii11即是的无偏估计。同样也是总体总量的无偏估计yYYˆ~Y~例3.1某班第一小组10人的数学考试成绩分别为:100,95,92,88,83,75,71,62,60,50平均分为77.6。先从中任选3个为一组样本,其选法共有120种每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,77.67,77.67,57.33。从抽样调查的角度来看,我们希望抽到第二或第三组样本,根据它们来估计总体平均数相当准确。而第一和第四组样本的估计相当糟糕。但它们入样与第二第三组具有同样的可能性,这是否与的无偏性相矛盾呢?y其实并不相矛盾。我们关心的是,尽管每一组样本入样的概率相同,像第二第三组这样的“良好”情况就大体而言是否会多于像第一第四那样的“糟糕”情况呢?如果肯定的话,那么就能指望在一次随机抽样中发生的估计误差较小。该问题的解决将由下一节的讨论给出。§3估计量的方差及其估计下面求的无偏估计的方差Yy)(yVar2211)(YnYYYnNyVarniii其中表示对中所有组合求和),,2,1(N),,,(21niiinjnkjiiinYYYYnYYnNkjj1222))((2)(1NiNjijiiYYYYNnnNYYnN12))((112)(1})]([11)()111{(11122NiNiiiYYNnYYNnnNNiiYYNNnNn12)(111nNnN21nSNn2)1((或)(3.6)对随机有放回抽样,由于各次抽取是相互独立的,由概率论的知识可以求得,此时:nyVar2)(nSN2)11((或)(3.7)比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平均数,它们都是无偏估计,但随机无放回时的方差小于随机有放回时的方差。的方差表示新盒子的离散程度,也就是表示了取值范围的大小,方差小表明取值远离中心的可能性较小,这样随机的一组样本得到的实现值距很近的可能性就较大,这正是我们所期望的。因此,在实际抽样中我们采用无放回抽样方式。yyyYyY(3.6)式中的因子(N-n)/(N-1),称为随机无放回的校正系数,它是对随机有放回情况的校正。如果N相当的大,则总体可视为无限总体,由(3.7)式,nSn22即为的方差,这是无限总体情况样本平均数的方差。y而有限总体的的方差为:ynSfnSNn22)1()1(因此称1-f为有限总体校正系数,其中f=n/N,称为抽样比抽样比就是样本所占总体的比例。f越大,越接近1,则样本越接近总体,与的随机误差就越小;当f=1时,抽样变成全面普查,此时误差消失。yYy一般情况下f比较小,由于N是固定的,也就意味着n相当小,此时(3.6)式告诉我们的方差将随着n的减少而增大,此时1-f在1附近,对的影响不大。事实上,抽取样本越少,抽样误差越大。)(yVar当然,影响的方差的另一个重要因素是或。设想,当相当大时,原盒子中的数据相当地分散,从一个很分散的盒子中随机取一样本来代替总体,你不可能指望误差很小。y22S2S对于的方差,n的影响是可以由人们主观控制的,只要多花费一些,多抽取一些就能适当降低误差,当然这只能控制在一定范围内。yy可见实际抽样调查中用估计所产生的随机误差,也即的方差,主要受到样本容量n的影响,因子1-f的影响几乎可以忽略。Yy的影响是客观存在的,盒子中数据越分散,总体就变得越难捉摸。实际上,本身就是一个待估参数,必须对的大小给出估计,不估计就无法评价所产生的误差可能有多大。2S2S2S2Synyyy,,,21设为来自总体的样本,既然它是总体的一个缩影,那么这些值的离散程度应该反映了盒子的离散程度,因此采用统计量(样本方差):niiyyns122)(11来估计。为了研究统计量的性质,将改写为:2S2s2sniiYyYyns122)]()[(11niiYynYyns1222])()([11可以证明:22)(SsE即是的无偏估计2S2s2s用作为的估计,利用正态近似理论可以建立的置信区间2SY当N,n,N-n相当大时,的分布近似可用正态曲线表示,由于)(yVarYy2)11()(SNnyVar所以)()11(21ttSYyNnP取置信水平为()110注意到标准正态曲线关于0点的对称性,我们有1)11(2121uSYyNnP其中是标准正态曲线的分位点,任何一本概率统计的书上都提供有标准正态分布表以供查取分位点。21u21这样,的置信区间为:%100)1(Y])11(,)11([21212121uSNnyuSNny其中为未知参数,用其无偏估计来代替,则得置信区间Ss])11(,)11([21212121usNnyusNny])(,)([2121uyVaryuyVary或例3.2某镇有3250名职工,为调查该镇职工收入情况,用简单随机抽样方式从中抽取30名,调查结果如教材53页表3-1。试估计该镇职工的平均月收入,并求置信水平为95%的近似置信区间。Y解:N=3250,n=3033.67220170301301301iiyy])(30[1301)(13013012230122iiiiyyyys31.1871087.1356082814103428291)-(31.18710)3250301(301)1(1)(2sNnnyVar92.61786.24)(yVar05.095.01查标准正态分布表得分位点:96.1025.01u于是该镇职工月平均收入的估计值为672.23元,它的95%近似置信区间为:])(,)([2121uyVaryuyVary]96.186.2433.672,96.186.2433.672[]06.721,60.623[本节主要介绍了估计的随机误差以及置信区间的估计,对于总体总和的情况,从平均数的情况很容易导出有关结果。yY§4百分数的估计及其误差在介绍盒子模型时已经指出,对于总体中具有某种特性的单元所占比例的抽样调查,可建立0-1盒子模型。即个具有某种特性的单元相应的票上全标上1,其余全标上0。1N10个1N个1NN1N是未知数。盒子中1所占的比例是待估参数:。NNP1由于该参数恰为0-1盒子的平均数,在简单随机抽样理论中自然地采用这个无偏估计。为与参数记号相配,记:yPQpqyp1,ˆ1ˆ,ˆ由第二章第七节的讨论可知,盒子的方差为:PQNNNNNNNNNS11112因此:nPQNnNpVar1)ˆ(其中PQ为未知参数的乘积,只有对进行估计才有可能获得P的置信区间。尽管P,Q各有它们的无偏估计但它们的乘积并非PQ的无偏估计。这里需要借助于的无偏估计,并且容易计算得:)ˆ(pVarpqpˆ1ˆ,ˆ2S2sqpnnyynsniiˆˆ1)(11122)ˆ(pVar这样可得的无偏估计为:2)ˆ(snNnNpvqpnnnNnNˆˆ1)ˆ1(ˆ)1(ppNnnN-(或写为)qpnfˆˆ11其实当N比较大时,样本中1的个数服从二项分布,因此当n不是很大时,近似置信区间(3.26)会发生一定差错,应当考虑必要的修正。p的修正置信区间为:现在可以构造百分数或比例p的置信度为的置信区间)1(当N,n,N-n都比较大时,置信区间为:)ˆˆ11ˆ,ˆˆ11ˆ(2121qpnfupqpnfup