第七章抽样调查基础知识抽样调查的概念、特点及分类一、抽样调查的概念与特点(一)抽样调查的概念1、抽样调查抽样调查是从研究的总体中按随机原则抽取部分单位作为样本进行观察研究,并根据这部分单位的调查结果来推断总体,以达到认识总体的一种调查方法,又称为概率抽样或随机抽样。2、随机原则随机原则是在抽取调查单位时,完全排除人为的主观因素影响,保证每一个调查单位都有相等的中选可能的原则。就概率意义而言,又称为等可能性原则。抽样调查遵守随机原则的原因:抽样调查的目的是用样本来推断总体的数量特征,这就要求抽样的部分单位能够充分的代表总体。遵守随机原则,可以使样本结构与总体结构相同,进而可以按概率理论计算误差,并进行统计推断。(二)抽样调查的特点第一、按照随机原则抽取样本;第二、根据样本的资料推断总体的数值;第三、费用低;第四、时效性强;第五、抽样调查有时是唯一的选择。二、抽样调查的种类(一)非概率抽样非概率抽样是用主观(非随机的)方法从总体中抽选单元进行调查,它是一种快速、简便且省钱的抽样的方法。它包括:随意抽样、志愿者抽样、判断抽样及配额抽样。1.随意抽样。单元的抽选以无目的、随意的方式进行,几乎没有或完全没有计划。例如街道拦截访问。2.志愿者抽样。被调查者是志愿者。3.判断抽样。选择一些很了解总体的专家来决定总体中哪些总体单位入样。4.配额抽样。从各总体中选取特定的数量单位。(二)概率抽样概率抽样在抽取样本时不带有任何倾向性,它通过从总体中随机抽选单位来避免这种偏差,因而对总体的推断更具代表性。概率抽样的基本原则:样本是随机抽取的;调查总体中的每个单位都有一个非零的入样概率。1、重复抽样与不重复抽样概率抽样按抽样过程中总体单位数是否相同分为重复抽样与不重复抽样。重复抽样是把已经抽出的样本单位再放回到总体中,继续参加下一次抽选,使总体单位数始终相同,每个总体单位有多次重复抽中的可能。不重复抽样是把已经抽出来的样本单位不再放回总体,每抽一次,总体单位数会相应减少,每个总体单位只能被抽中一次。2、常用的抽样组织方式按组织方式不同分为简单随机抽样、系统抽样、分层抽样、整群抽样、比例抽样、多阶抽样。(1)简单随机抽样简单随机抽样是一种一步抽样法,它要求在调查总体N中不加任何分组、划类、排队等,完全随机抽取n个调查单位作为样本。总体中的每个单位都有相同的被抽中的概率,这个概率记作p=n/N简单随机抽样与随意抽样的区别:简单随机抽样依据随机原则,在抽之前不知道哪个单位会抽中,每个单位都有机会被抽中,而且被抽中的概率是一样的。在全班100名同学中的名单中,按随即原则抽取5名同学。抽之前每个人被抽中的概率是一样的。随意抽样是随意的方式抽取,完全根据主观意愿来抽取。如站在班门口,完全按自己的喜好随意选取100名同学中的5人。每个人被抽中的概率不等。(2)系统随机抽样系统随机抽样也称为机械随机抽样或等距随机抽样。它是先将总体中各单位按一定的标志排队,然后每隔一定的距离抽取一定单位构成样本。(3)分层随机抽样分层随机抽样又称为类型随机抽样、分类随机抽样。它是按照某一标志,先将总体分成若干组(类),其中每一组(类)称为一层,再在层内按简单随机抽样方法进行抽样。(4)整群随机抽样整群随机抽样是先将总体按某一标志分成若干组,其中每个组称为一个群,以群为单位进行简单随机抽样,然后对抽到的群内的每个单位都进行调查,而对未抽中的群不做调查。分层抽样与整群抽样的区别:总体可以分为很多群,抽一个或多个群进行分析是整群抽样,对不同的群分别抽取个体,是分层抽样。比如,全校有5个班,我抽1班全体进行研究,是整群抽样。我在5个班中,按随机原则,分别抽取10名同学,是分层抽样。(5)多阶抽样多阶抽样是用两个或更多个连续的阶段抽取样本的过程。(6)与大小成比例的抽样与大小成比例的概率抽样是一种使用辅助信息从而使入样概率不相等的抽样技术。抽样推断的几个基本概念一、总体和样本总体,是指包括调查对象所有单位的全体,它由具有某种共同性质的许多单位组成。样本,从总体中按随机原则抽取出来的部分单位所组成的集合体就称为样本。一般地,将总体记作N,样本记作n。22PxpxpX总体指标是指根据总体各单位标志值计算的综合指标,又称为总体参数。常用的总体指标有总体平均数,总体成数,总体方差(或)和标准差(或).22pxpxpssss样本指标是根据样本各单位标志值计算的综合指标。常用的样本指标有样本平均数,样本成数,样本方差(或)和标准差(或),其计算方法与总体指标计算方法相同,只是公式中所用的符号不同。例1.某地区抽样调查200户居民户的月人均收入(百元),得表7-1资料。表7-1月人均收入(元)5-66-77-88-99-1010-1111-12合计户数(户)18357624191414200求:(1)样本容量n,样本均值和样本方差。(2)样本中,月人均收入在1000元以上的居民户所占比重。解:(1)由于调查的是200户居民户,所以样本容量n=200由于是组距数列,应先计算组中值,才能计算出样本均值和样本方差。表7-2月人均收入(百元)5-66-77-88-99-1010-1111-12合计组中值xi5.56.57.58.59.510.511.5—户数fi18357624191414200xifi99227.5570204180.51471611589107.673.115.07.445.991.4176.9517.42()iixxf717172217115897.945200:()517.42.587200iiiiiiiixiixfxfxxfsf样本均值:(元)样本方差121000p14140.14200npn假设样本中,月人均收入在元以上的居民户占比重为,则有:根据下表求样本容量,样本方差,销售额在3000元以上的职工比重表5—4某商场食品部工人日销售资料按日销售额分组(元)职工人数(人)f组中值x各组销售额(元)xf2000—25002500—30003000—350027722502750325045001925022750合计16—4650025.29061646500fxfxn=2+7+7=16p=7/16=0.44抽样误差一、抽样误差的概念(一)代表性误差代表性误差是指在抽样调查中,用部分样本推断总体时,由于样本各单位的结构情况不足以代表总体状况而产生的误差。代表性误差有两种:系统误差和随机误差。1、系统误差是指破坏了抽样的随机原则而产生的误差。例如有意识的选取好的单位或较差单位进行调查造成的误差。2、随机误差是指遵守了随机原则,但可能抽到不同的样本而产生的误差。随机误差在抽样调查中是不可避免的,是偶然的代表性误差。这种误差的大小可以计算并加以控制。(二)抽样平均误差抽样平均误差是指所有可能组成的样本指标与总体指标的平均离差,或者说,是样本平均数的标准差。抽样平均误差越小,样本的代表性越高,抽样误差就越小。抽样估计中所说的抽样误差一般就是指抽样平均误差,用μ表示。用数理统计的方法,是可以计算并控制在所允许的范围内的。(三)影响抽样误差的因素1、样本单位数目(数目越多,误差越小)。2、总体标志变动程度(变动程度越小,误差越小)。3、抽样方法(不重复抽样的误差小于重复抽样的误差)。4、抽样组织方式(分层抽样误差较小,整群抽样误差较大)。二、抽样平均误差的计算(一)样本平均数的抽样的平均误差的计算重复抽样条件下:不重复抽样条件下:(二)样本成数的抽样平均误差的计算重复抽样条件下:不重复抽样条件下:(三)总体方差未知时的解决办法1.用样本方差、成数代替2.用过去的资料代替3.用估计值代替4.用小规模试验性调查资料代替见书例2.例:某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时,根据以往资料:σ=20小时,分别按重复抽样和不重复抽样求抽样平均误差重复抽样平均误差为:不重复抽样平均误差为:)(210020100202小时x)(99.1)100001001(100400小时x某玻璃器皿厂某日生产15000只印花玻璃杯,现从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,试求这批印花玻璃杯合格率(成数)的抽样平均误差。分别按重复抽样和不重复抽样%1374.1)150001501(150)98.01(98.0)1()1(%14.1150)98.01(98.0)1(%9815014715015000NnnppnpppnNpp若按不重复抽样方式:三、抽样误差的允许范围(一)抽样极限误差抽样极限误差也叫允许误差,是指样本指标与总体指标之间抽样误差的可能范围。xpxxppxxppxXpPXxXPpPxXxpPp将上式等价转换为下列不等式:因为,总体指标是未知,上述不等式应该转换为:(二)抽样误差范围估计的可靠程度扩大极限误差的范围,可以提高抽样推断的可靠程度。这个可靠程度在统计中称做概率,它对应的数值是概率度,用t表示。概率度越大,可靠程度越高,概率度越小,可靠程度也越低。极限误差范围同概率度及抽样平均误差之间的关系是:△=t概率度t概率10.68271.960.950020.954530.9973概率度t与概率之间的对应数值(三)极限误差的计算1.样本平均数极限误差2、样本成数的极限误差3举例例:某灯泡厂从一天所生产的产品10,000个中抽取100个检查其寿命,得平均寿命为2000小时,根据以往资料:σ=20小时,以95.45%的可靠程度,求极限误差(重复抽样)△=tu=2*2=4小时某玻璃器皿厂某日生产15000只印花玻璃杯,现从中抽取150只进行质量检验,结果有147只合格,其余3只为不合格品,以68.27%的可靠程度,求这批印花玻璃杯合格率(成数)的极限误差。按重复抽样△=tu=1*1.14%=1.14%一、点估计点估计是直接用一个样本指标估计总体指标的推断方法。如用样本指标和p直接代替总体指标和P。特点:方法简便,但可靠程度不高。二、区间估计区间估计是在一定的概率保证下,根据点估计值,联系一定的误差范围估计总体指标值的一种推断方法。参数估计举例说明估计的两种方法:总体平均数的估计对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:耐用时数(小时)组中值(x)件数(f)900以下8751900—9509252950—100097561000—10501025351050—11001075431100—1150112591150—1200117531200以上12251合计—100要求:在95%的可靠程度下对该批电子元件的平均耐用时数作出估计。概率保证程度为95%,查概率表得t值为1.96。22287519252122511055.5100(8751055.5)1(12251055.5)110051.91()51.915.19()1001.965.1910.17xxfxfxxfsfsnt(小时)()小时小时(小时)估计区间的下限:1055.5-10.17=1045.33小时估计区间的上限:1055.5+10.17=1065.67小时所以,这批电子元件的平均耐用时数在1045.33小时至1065.67小时之间,可靠程度为95%。总体成数的估计:以上例的资料,设电子元件的耐用时间在1000小时及以上为合格品,以95.45%的概率估计该批电子元件的合格率。19191%10010.91(10.91)2.86%10095.45%222.86%5.72%pppnpnppntt