第一节抽样分布第二节抽样误差第三节参数估计方法第四节各种抽样组织形式的参数估计第四章抽样估计第一节抽样分布一、抽样分布的基本问题二、常用的抽样分布定理医生抽取病人少量的血化验•工厂质检员抽样检测灯泡寿命•超市设免费品尝产品•抿一口茶,试凉热•买书,随便翻几页看印刷质量什么是抽样?抽样在生活中随处可见大学生每周上网花多少时间?为了解学生每周上网花费的时间,中国人民大学公共管理学院的4名本科生对全校部分本科生做了问卷调查。调查的对象为中国人民大学在校本科生,调查内容包括上网时间、途径、支出、目的、关心的校园网内容,以及学生对收费的态度,包括收费方式、价格等问卷调查由调查员直接到宿舍发放并当场回收。对四个年级中每年级各发60份问卷,其中男、女生各30份。共收回有效问卷共200份。其中有关上网时间方面的数据经整理如下表所示大学生每周上网花多少时间?回答类别人数(人)频率(%)3小时以下32163~6小时3517.56~9小时3316.59~12小时2914.512小时以上7135.5合计200100平均上网时间为8.58小时,标准差为0.69小时。全校学生每周的平均上网时间是多少?每周上网时间在12小时以上的学生比例是多少?你做出估计的理论依据是什么?抽样估计是以样本观测结果去估计未知的总体数量特征。如何根据概率抽样的样本去估计总体的理论与方法,因此首先要明确总体分布、样本分布与抽样分布三者的关系。一、抽样分布的基本问题(一)总体分布及其特征总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。同一变量不同的总体或同一总体不同的变量,其分布是不同的。变量分布的形态很多,例如J型分布、U型分布和钟型分布等,不同的分布会有不同的特征,认识总体分布特征是统计研究的任务之一。一、抽样分布的基本问题总体参数的值应由总体全部单位的标志值计算而来:对于特定的总体,总体参数值是唯一的。对于无限总体和非全面调查的有限总体,总体参数的值通常未知,只能通过样本来估计。•反映总体分布特征的指标叫总体参数,一般用来表示。常用的总体参数有两个:•总体均值(包括是非变量的均值);•总体方差或标准差(包括是非变量的方差或标准差)。NXXX,,21⒈总体均值(总体平均数):miimiiiNiiffXXNXX111或设有限总体容量为N,各单位某项标志的值分别为;若是非标志则设具有某种属性的有N1个单位,不具有某种属性的有N0个单位,则2、总体方差:221221111NiimiimiiiXXNXXff或3、总体标准差:NiiiNiiNiifXXfXXN12112)(11)(1或PNNQNNP1,014、总体成数(总体比例)标志值x单位数f10合计N1N0N101101PXNNNNNP5、总体是非标志的均值PXP如前是非标志的平均数为P标志值x单位数f10合计N___2201(1)(0)(1)NNPPNNPP是2由于标准差有良好的数学性质,相比较而言,它的应用最为广泛。(1)PP是1N0N21(1)NPN20(0)NPN2()fxxf6、总体是非标志的方差2PPQ(二)样本分布及其特征样本分布就是样本中所有个体关于某个变量(标志)的取值所形成的分布。同一变量不同的样本或同一样本不同的变量,其分布是不同的。由于样本来自于总体,包含了一部分关于总体的信息,所以样本分布是一种经验分布。当样本容量很大,或者是当逐渐增大时,样本分布会接近总体分布。如果样本容量很小,那么样本分布就有可能与总体分布相差很大,抽样估计的结果就会很差。反映样本分特征的指标叫样本统计量,通常用T来表示。样本统计量是随机变量,它的取值随样本的不同而发生变化。样本统计值:是样本统计量的值,由样本单位的标志值计算而来,用来估计总体参数。与总体参数相对应,常用的样本统计量有样本均值(或样本成数)样本方差(或样本标准差)⒈样本均值:miimiiiniiffxxnxx111或设样本中n个样本单位某项标志的标志值分别为,若为是非标志则设具有和不具有某种属性的样本单位数目分别为和个,则nxxx,,210n1n2.样本方差:22122111111niiniiniiisxxnsxxff或3.样本标准差:iniiniiniifxxfsxxns12112)(11)(11pnnqnnp1,014.样本成数(样本比例):5.样本是非标志的均值:pxp6.样本是非标志的方差:2pspq反映样本分布特征的样本统计量的值(即样本统计值)是可知的。但是由于抽样的随机性,样本统计值不是惟一确定的,因此样本统计量是随机变量,其值随样本不同而不同。抽样估计,就是要以可知但非惟一的样本统计值去估计惟一却未知的总体参数的值。(三)抽样分布及其特征1.抽样分布的概念及影响因素一般意义上说,抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。如果说样本分布是关于样本观测值的分布,那么抽样分布则是关于样本统计值的分布,而样本统计值是由样本观测值计算而来的。实际的抽样分布形成取决于以下五个因素:总体分布(越集中,抽样分布越集中)样本容量(最关键因素,容量越大抽样分布越集中)抽样方法(采用重复或不重复方法,抽样分布不同)抽样组织形式(不同形式下的样本个数及结构不同,抽样分布也不同)估计量构造(样本估计量不同,抽样分布不同)抽样方法根据取样方式不同,可分为:重复抽样不重复抽样从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样总体单位数N不变,同一单位可能多次被抽中。每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样.总体单位数N连续不断地减少,同一单位只可能被抽中一次。简单随机抽样对总体未作任何处理的情况下,然后按随机原则直接从总体中抽出若干单位构成样本抽取样本的具体方法:抽签法随机数表法是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。随机数表:事先按随机原则抽取的数字,写成的表。《随机数字表》是根据摇码器或计算机模拟产生的。其中不仅0-9出现的概率相等,而且由这10个数码组成的两位数、三位——等出现的概率也是相等的。应用随机数表,可以从任一行、任一数字、任一方向开始,位数也可任意组合,甚至还可以略去其中一行或一列不用。关键在于要先建立一个原则,然后从头到尾都依这个原则去做。—当N很大时,不易构造抽样框,有时得不到完整的抽样框。抽出的单位很分散,给实施调查增加了困难。没有利用其他辅助信息以提高估计的效率,该方法可能不是最精确的。简单随机抽样的缺点•分层抽样就是先将总体按一种或几种特征(性别\班级\教育\地理位置等)分为几个同质性的总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。类型抽样(分层抽样)总体N样本n2NkN1N1n2nkn······例如,某地居民中成年人有6000人,其中老年人有800人,中年人有2000人,青年人有3200人,现从中调查300人,问如何确定各层调查人数?抽样比例:p=300/6000=5%老年层抽取样本数为:800*5%=40(人)中年层抽取样本数为:2000*5%=100(人)青年层抽取样本数为:3200*5%=160(人)等比例分层随机抽样当总体中某一层人数过少,但又具有较高的研究价值,这时可增大这一层的抽样比例。如对老年人的研究。但这样做的结果,统计分析时要做适当的修正。另外,实践中分层抽样还有其他如分层最佳抽样、最低成本抽样等方法。不等比例分层随机抽样分层抽样的随机性体现在按总体分组比例每一组(层)中随机抽样。(随机抽样范围缩小到层)这种方法实质上是分层与单纯随机抽样的结合。为各层之间既不能有重复也不能有遗漏,然后用简单随机抽样或系统抽样的办法从每层中抽取一定数量的样本。层内个体之间的差异越小,而不同层之间的差异越大时,分层抽样的效果越好。实例:按照年级男女生比例进行分层抽取样本。类型抽样的优点:能提高样本的代表性;能降低影响抽样平均误差的总方差;组织起来较为方便;系统抽样,就是先将总体各单位按一定顺序排列起来,每隔一定间隔选取一个样本,直至抽满n个样本为止。系统抽样时每个样本单位抽中的概率相同,为1/k。系统抽样•具体做法是:–(A)将总体的所有个体前后排列起来。–(B)计算抽样距离。抽样距离K=N/n(N为总体包含个体数;n为样本所含个体数);–(C)在头K个个体中,用完全随机的方式抽取一个个体,设其所在的位置的序号是A。–(D)自A开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为A,A+K,A+2K…A+(n-1)K。–(E)将n个个体合起来,就构成了该总体的一个样本。•前面讲述的简单随机抽样、分层抽样和系统抽样,都是从全部总体中抽取样本单位。•在缺乏总体抽样框的情况下,适宜采用整群抽样方法。整群抽样将总体全部单位分为若干“群”,然后以群作为抽样单位,从总体中抽取若干群作为样本,并对中选群的所有单位进行全面调查。简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差ABCDEFGHIJKLMNOPIHPD•它们在第一步都是根据某种标准将总体分为一些小群。•由于抽样方式的不同,导致两者间划分子群的原则也不同。在分层抽样中,层的划分依据的是层间异质性高,即层间差异大,层内则尽可能同质的原则,即层间差异小。整群抽样与分层抽样异同•整群抽样因仅抽取某几个子群作为整体的代表,如果子群间差异显著,且每个子群内同质性很高,那么这种情况下抽取的几个子群显然无法代表总体。因此,整群抽样的分群原则应与分层抽样不同,它是使得群体间异质性低,即群间差异小,群内异质性高,即群内差异大。因此,分层抽样适用于界质分明的群体,而整群抽样适用于界质不清的总体。整群抽样与分层抽样异同当总体很大时,直接从总体中抽取单位,在技术上就会产生困难,因此一般采用多阶段抽样,也称多级抽样。•多阶段抽样就是先从总体中抽出较大总体,再从选中的较大总体中抽出较大范围的单位,再从选中的大单位中抽较小范围的单位,依次类推,最后再按随机或系统或其它抽样方法从更小的范围抽出基本单位。多阶段抽样例如,要进行一次全国性抽样调查,第一步先从全国各个省和直辖市中抽取若干省和直辖市,然后从入选的省和直辖市中抽取若干个县,第三步再从入选的县级单位中抽出若干个乡和镇,最后再从抽到的乡和镇中确定调查的对象,就是多阶段抽样。其中每一阶段抽样,既可采用简单随机抽样,也可采用系统、整群、分层等方法。而且各阶段所用方法也不要求相同。多阶段抽样例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)多阶段抽样多阶段抽样的适用范围多阶段抽样具有整群抽样的优点,同时还可用于:1、当抽样调查的面积很广或者总体范围太大无法直接抽取样本时2、可以相对地节约人力物力3、对那些基本单位数多且分散的总体,可使抽样工作大大简化2.抽样分布形式在抽样估计中,最基本的抽样分布是样本均值的抽样分布和样本成数的抽样分布,以此得到抽样分布的形式。第二节抽样误差一、抽样中的误差构成二、抽样误差的表现形式一般地,抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。所谓抽样误差是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。偶然性误差的特点是,它随着样本容量的增大而趋向于0。一、抽样中的误差构成所谓非抽样误差是由随机抽样的偶然性