第六章抽样调查第一节抽样调查的基本概念与组织形式一、抽样调查的意义一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。二、抽样调查的适用范围抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;2.虽可进行全面调查观察,但比较困难或并不必要;3.对普查或全面调查统计资料的质量进行检查和修正;4.抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。一般适用于以下范围:三、抽样调查的基本概念(一)全及总体和抽样总体(总体和样本)全及总体:所要调查观察的全部事物。总体单位数用N表示。抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。n≥30大样本n30小样本(二)全及指标和抽样指标(总体指标和样本指标)全及指标:全及总体的那些指标。抽样指标:抽样总体的那些指标。xXpP所谓,就是用抽样指标来推断全及指标。是用抽样平均数推断全及平均数,从而推断总体标志总量是用抽样成数推断全及成数,从而推断总推断一体二单位总量22ss在抽样调查中应用的总体指标和样本指标还有:方差:总体方差、样本方差标准差:总体标准差、样本标准差抽样框——即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。样本数——指从总体中可能抽取的样本的数量。样本容量——指一个样本所包括的单位数。通常有以下四种组织形式:四、抽样调查的组织形式简单随机抽样类型抽样机械抽样整群抽样(一)简单随机抽样(纯随机抽样)即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。随机抽选可有各种不同的具体做法,如:1.直接抽选法;2.抽签法;3.随机数码表法;(二)类型抽样(分类抽样)先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,组成一个总的样本。类型的划分:一是必须有清楚的划类界限;二是必须知道各类中的单位数目和比例;三是分类型的数目不宜太多。类型抽样的好处是:样本代表性高、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。两种类型:1.等比例类型抽样(类型比例抽样);2.不等比例类型抽样(类型适宜抽样)。(三)机械抽样(等距抽样)先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。排列次序用的标志有两种:1.选择标志与抽样调查所研究内容无关,称无关标志排队。2.选择标志与抽样调查所研究的内容有关,称有关标志排队。研究工人的平均收入水平时,按工号排队。例研究工人的生活水平,按工人月工资额高低排队。例机械抽样按样本单位抽选的方法不同,可分为三种:1.随机起点等距抽样kkkk+a2k+a(n-1)k+aak(k为抽取间隔)示意图:2.半距起点等距抽样kkkk(k为抽取间隔)2k2kk22kk2)1(kkn示意图:3.对称等距抽样示意图:kkk2k-a2k+a4k-a4k+aak(k为抽取间隔)机械抽样的好处:1.可以使抽样过程大大简化,减轻抽样的工作量;2.如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。机械抽样,实际上是一种特殊的类型抽样。因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。(四)整群抽样整群抽样即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差大。(五)多阶段抽样即把抽样本单位的过程分为两个或几个阶段来进行。(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲:①先抽大单位(可以用类型抽样或机械抽样),②再在大单位中抽小单位(可用整群抽样或简单随机抽样),③小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。(六)重复抽样和不重复抽样以上每一种组织方式又有不同的抽取样本方法(机械抽样和整群抽样没有重复抽样):重复抽样:又称有放回抽样。不重复抽样:又称不放回抽样。例,50001,50001,50001例,49981,49991,50001第二节抽样平均误差一、抽样误差的概念及其影响因素在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。统计误差登记误差代表性误差系统性误差随机误差实际误差平均误差抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。xXpP抽样误差就是指样本指标和总体指标之间数量上的差别,即、。抽样误差的影响因素:1.全及总体标志变异程度。——正比关系2.抽样单位数目的多少。——反比关系3.不同的抽样方式。4.不同的抽样组织形式。抽样误差的作用:1.在于说明样本指标的代表性大小。误差大,则样本指标代表性低;误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。2.说明样本指标和总体指标相差的一般范围。二、抽样平均误差抽样平均误差实际上是样本指标的标准差。通常用μ表示。在N中抽出n样本,从排列组合中可以有各种各样的样本组:1.如果是重复抽样:1(2)nnNNnDC考虑顺序的重复抽样:不虑顺序的重复抽样:样本种数种考5(1)()50312,500,000nnNBN例2.如果是不重复抽样:)!(!)())((nNNnNNNNAnN121⑴考虑顺序的不重复抽样:例)(种2002512544647484950550A⑵不考虑顺序的不重复抽样:)!(!!nNnNCnN例)(!种7601182123452002512545550550AC(一)简单随机抽样的抽样平均误差1.平均数的抽样平均误差或xx2nn(1)重复抽样取得σ的途径有:1.用过去全面调查或抽样调查的资料,若同时有n个σ的资料,应选用数值较大的那个;2.用样本标准差S代替全及标准差σ;3.在大规模调查前,先搞个小规模的试验性的调查来确定S,代替σ;4.用估计的方法。x2202()100小时某灯泡企业从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时(一般为重复抽样),根据以往资料:σ=20小时,根据以往资料,产品质量不太稳定,若σ=200小时,)(20小时于是:例(2)不重复抽样:2xNnnN12xNnn(1)nN但实际中,往往很大,很小,故改用下列公式:x400100(1)1.99()10010000上例中,若为不重复抽样,则:小时2.成数的抽样平均误差已证明得:成数的方差为p(1-p)nPPp)1()1()1(NnnPPp某玻璃器皿公司某日生产15000只印花玻璃杯,现按重复抽样方式从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。例%9815014715001500pnN%14.1150)98.01(98.0)1(nppp若按不重复抽样方式:%1374.1)150001501(150)98.01(98.0)1()1(Nnnppp(二)类型抽样的抽样平均误差在重复抽样情况下:nix2NNiii222ixn(1)nN在不重复抽样情况下:不重复抽样:)1()1(NnnPPp在成数情况下:重复抽样:nPPp)1(某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷,现用类型抽样法调查1200公顷,以各种麦田占全农场面积的比重分配抽样面积数量。例类型全场播种面积(公顷)抽样调查面积(公顷)单位面积产量不均匀程度指标(千克)符号Niniσi丘陵地区6000600750337500000平原地区3600360840254016000山地24002401000240000000合计120001200-831516000iin2麦田类型抽样的平均误差计算表)(692930120083151600022千克iiiinn)1(2Nnnix)(8.226975.519)1200012001(1200692930千克高产麦田比重的平均误差计算表类别高产田比重(%)非高产田比重(%)麦田不均匀程度指标(%)抽样调查面积(公顷)pi(1-pi)ni符号pi1-pipi(1-pi)ni丘陵80201660096.0平原9010936032.4山地60402424057.6合计---1200186%5.151200186)1()1(iiiinnppPP%078.1)1200012001(1200155.0)1()1(NnnPPp(三)机械抽样(等距抽样)的抽样平均误差1.若按无关标志排队一般采用简单随机抽样不重复抽样公式:xp2n(1)nNp(1p)n(1)nN2.若按有关标志排队2xpnp(1p)n一般用类型抽样重复抽样的公式:(四)整群抽样的抽样平均误差整群抽样的抽样平均误差受三个因素影响:(1)抽出的群数(r)多少(反比关系)(2)群间方差()(正比关系)2一般计算方法如下:rrxxix22)(为抽样各群的总平均数为抽样各群的平均数xxi为抽样各群的总成数为抽样各群的成数ppirrppip22)((3)抽样方法,当R的数目较大整群抽样都采用不重复抽样,所以在计算抽样误差时要使用修正系数1RrR时,可用Rr1来代替。)1(2Rrrxx)1(2Rrrpp假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟产品进行检验,用以检查产品的合格率,检查结果如下:ipp2i(pp)r合格率群数rpipir80%20.801.6-0.09960.0198485%40.853.4-0.04960.0098490%120.9010.80.0004…(太小不计)95%30.952.850.05040.0076298%30.982.940.08040.01939合计24-21.59-0.05669例22p2prii1ppr21.590.8996r24(pp)r0.056690.002362r24r0.00236224(1)(1)0.0095(0.95%)rR24288p样本群平均合格率群间方差或(五)多阶段抽样的抽样平均误差以两阶段抽样为例设总体分R组,每组包含个单位,若各组相等,则iMMRMN在抽样第一阶段,从R组中抽出r组;在抽样第二阶段,在中选的r组中随机抽选个im单位,若各组m相等,则n=rm则:在重复抽样下在不重复抽样下)()(1122MmMrmRrRrxrmrx22例设某大学在学期初对学生进行体重抽样调查,假设全校各班均为40人。先从全校80个班以不重复抽样方法随机抽取8个班,然后再从抽取的班中再分别抽取10个人作为第二阶段抽样单位。计算所得的抽样平均体重为60.5千克,抽样各班内方差平均数为50,各班之间体重方差为22。要求计算该校学生体重的抽样平均误差。2已知:80R8r40M10m560.x502222x解:)()(1122MmMrmRrRrx731140104010850180880822.)()(第三节全及指标的推断一、点估计和区间估计(一)点估计xXpP是由样本指标直接代替全及指标,不考虑任何抽样误差因素。即用直接代表,用直接代表。就100x1002p98%X10