第2章简单随机抽样(SRS)2.1定义及其抽选方法2.2简单估计量及其性质2.3样本量的确定2.4设计效应2.5逆抽样2.1定义与符号简单随机抽样也称为纯随机抽样。从含有N个单元的总体中抽取n个单元组成样本,如果抽样是不放回的,则所有可能的样本有个,若每个样本被抽中的概率相同,都为,这种抽样方法就是简单随机抽样。具体抽样时,通常是逐个抽取样本单元,直到抽满n个单元为止。CNnnNC1有限放回简单随机抽样不放回简单随机抽样放回简单随机抽样(SRSwithreplacement)当从总体N个抽样单元中抽取n个抽样单元时,如果依次抽取单元时,不管以前是否被抽中过,每次都从N个抽样单元中随机抽取,这时,所有可能的样本为?个(考虑样本单元的顺序),每个样本被抽中的概率为?放回简单随机抽样在每次抽取样本单元时,都将前一次抽取的样本单元放回总体,因此,总体的结构不变,抽样是相互独立进行的,这一点是它与不放回简单随机抽样的主要不同之处。放回简单随机抽样的样本量不受总体大小的限制,可以是任意的。简单随机抽样的抽取原则:(1)按随机原则取样;(2)每个抽样单元被抽中的概率都是已知的或事先确定的;(3)每个抽样单元被抽中的概率都是相等的。所有可能样本每个样本被抽中的概率相同所有可能样本每个样本被抽中的概率相同【例2.1】设总体有5个单元(1、2、3、4、5),按放回简单随机抽样的方式抽取2个单元,则所有可能的样本为25个(考虑样本单元的顺序):1,12,13,14,15,11,22,23,24,25,21,32,33,34,35,31,42,43,44,45,41,52,53,54,55,5(2)不放回简单随机抽样(SRSwithoutreplacement)当从总体N个抽样单元中依次抽取n个抽样单元时,每个被抽中的单元不再放回总体,而是从总体剩下的单元中进行抽样。不放回简单随机抽样的样本量要受总体大小的限制。在实际工作中,更多的采用不放回简单随机抽样。【例2.2】设总体有5个单元(1、2、3、4、5),按不放回简单随机抽样的方式抽取2个单元,则所有可能的样本为个:1,22,33,44,51,32,43,51,42,51,5符号大写符号表示总体的标志值,用小写符号表示样本的标志值NNiiYYYYY211nniiyyyy211NYYYYNYNNii2111nyyyynynnii2111NiiYNNAP1110或iYniiynnap1110或iyXYXYXYRNiiNii11xyxyRniinii11ˆ2122111NNYYNSNiiniiyyns12211总体样本总体指标值上面带符号“^”的表示由样本得到的总体指标的估计。称为抽样比,记为f。估计量的方差用大写的V表示,对的样本估计,不用而用表示。NnYvˆYVˆˆYVˆ二、抽选方法1.抽签法2.随机数法——随机数表、随机数骰子、摇奖机、计算机产生的伪随机数随机数表法:N=327n=5讨论:(1)总体编号为1~35,在00~99中产生随机数,若=00或35,则抛弃重抽。(2)总体编号为1~35,在00~99中产生随机数,以除以35,余数作为被抽中的数,如果余数为0,则被抽中的数为35。三、地位与作用优点简单直观理论基础缺点N很大时难以获得抽样框样本分散不易实施,调查费用高很少单独使用,一般结合其他方法使用没有其他信息时使用多变量复杂数据分析2.2简单估计量及其性质判断下面要估计的总体目标量分别属于什么类型?调查城市居民家庭平均用电量。估计湖中鱼的数量。测试日光灯的寿命。估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。估计婴儿出生性别比。检测食盐中碘含量。一、对总体均值的估计以样本均值作为总体均值的估计性质1:对于简单随机抽样,是的无偏估计。ynyiin11yYYyE例设总体为{0,1,3,5,6},计算总体均值=3、总体方差=5.2和=6.5;给出全部的样本,并验证及。Y22S2nEyY22EsSyY1010.5-2.50.52031.5-1.54.53052.5-0.512.540630185132-126153087163.50.512.58354129364.51.54.510平均565.52.50.5306.5方差1.95样本编号单元1单元2样本均值-样本方差证明性质1对于固定的有限总体,估计量的期望是对所有可能样本求平均得到的,因此总体中每个特定的单元在不同的样本中出现的次数。nNnnNnCyyyCyyE21iy11nNCNiinNnYCnyyyny111211111)!()!1()!1()!(!!nNnNCnNnNnNnNnNnNCYYNnCYCCyyENiinNNiinNnN11111证明性质1(对称性论证法)由于每个单元出现在总体所有可能样本中的次数相同,因此一定是的倍数,且这个倍数就是,nyyyE21NYYY21NnYYNnnyEnyENiinii1111性质2:对于有限总体的方差定义:性质2:对于简单随机抽样,的方差式中:为抽样比,为有限总体校正系数。2211NYYiiNSNYYiiN22111y221SnfSNnnNyVfnN1f证明性质2(对称论证法):中的求和是对项的,中的求和是对项的2121YynEYyEyVnii)()(1)(1)(12212212YyYyEnYyEnYyEnjjiiniinii2121)()(YYNnYyENiinii)()()1()1()()(YYYYNNnnYyYyEjjiijjii)()(YyYyEjjii)()(YYYYjjii2)1(nn2)1(NN)()(1)(12212YyYyEnYyEnyVjjiiniijijiNiiYYYYNNnnnYYNnn))(()1()1(1)(12212jijiNiiYYYYNnYYnN))((11)(1212121)(11)(11YYNnYYNnNiiNii2121)(11)(1111YYNnYYNnnNNiiNii2121)(111)(11YYNNnNnYYNnNnNNiiNii221SnfSnNnN每个特定单位被选入样本的概率:=P(i)=故其定义为:*不放回抽样*每个样本被抽中的概率为*每个单位被选入样本的概率NnNnNn)())((1111)(1Nn)1()1()())((2222NNnnNnNni),(jiPij利用无限总体理论Mean=iNYNY1i01sisi随机变量NnEEii)()(2NnPi)1(NiiniYnyny11证明性质2)1(11)1()()()(),cov(2NnNnNNnNnNnEEEjijiji)11()1&1()(NnNnpEjiji)1()()1(1)1(1)()1()1(1)1(111)1(111)1()1(1),(cov)(112121211221211221122112212NnnSYYNNNNnnYYYNNNNnnYYNYNnNnnNNnNnYYYNnNnnVYYVYnYVnyVNiNiiNiNiiNiiNiNijNijiNiNijNijiNiNijijNijiiNiiiiiiii)1()()()(222NnNnNnNnEEViii简单随机抽样下,简单估计量估计精度影响因素:估计量的方差是衡量估计量精度的度量。影响估计量方差的因素主要是样本量n,总体大小N和总体方差。通常N很大,当f0.05时,可将近似取为1。总体方差是我们无法改变的;因此,在简单随机抽样的条件下,只有通过加大样本量来提高估计量的精度。VyS21f性质3:的样本无偏估计为:证明:Vyvyfns12niiyyns122)(11212)()(11YynYynnii21212)1()()(SNNnYYNnYyENiinii2221SnNnNSnfYyE2122)()(11)(YynEYyEnsEnii22)1(11SnNnNnSNNnn)()1()1(2nNNnnNS2S大样本下,抽样调查估计量渐进正态)1,0(~)ˆ(ˆNS1))ˆ(|ˆ|(SP)ˆ(S【例2.3】我们从某个=100的总体中抽出一个大小为=10的简单随机样本,要估计总体平均水平并给出置信度为95%的区间估计。iiy序号12345678910452046615085105011niiyny1111.199172)(11122niiyyns由置信度95%对应的,因此,可以以95%的把握说总体平均水平大约在之间,即2.4295和7.5705之间。5ˆyY72.11111.19101.011ˆ2snfYv3115.1ˆˆYvYs96.1t3115.196.15有放回简单随机抽样YyE2211nSNnNyV21snyv二、对总体总量的估计YNYYiiN1niiynNyNY1ˆYYEˆVYNVyNfnS()2221vYNvyNfns()2221【例2.4】续例2.3。估计总体总量,并给出在置信度95%的条件下,估计的极限相对误差。在置信度95%下,的极限相对误差为:5005100ˆY172001111.19101.01100ˆ2Yv1488.131ˆˆYvYs%41.515141.05001488.13196.1ˆˆYYstYˆ三、对总体比例的估计某一类特征的单元占总体单元数中的比例P.将总体单元按是否具有这种特征划分为两类,设总体中有个单元具有A这个特征,如果对每个单元都定义指标值Yii10,第个单元具有所考虑的特征;,否则PANNYYiiN11总体方差:SNYYiiN22111PQNNPANPAN1)()1(1122估计量性质5:对于简单随机抽样,是P的无偏估计。的方差为:panppVpPQnNnN1vpfnpq11证明PQNNPANPANS1)()1(11222pqnns1221)(snfpvvpfnpq11【例2.5】某超市新开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度,该超市与附近几个小区的居委会取得联系,在总体中按简单随机抽样抽取