第七章、抽样推断第一节、抽样推断概述一、抽样推断的概念是按照随机原则,从总体中抽取一部分单位进行观查,并根据样本数值对总体作出具有一定可靠程度的估计和推断。抽样推断二、抽样调查的特点(一)按随机原则进行(二)以部分单位指标数值来推断总体的指标数值(三)会产生抽样误差,并且可事先计算,并能进行控制三、抽样调查的作用(一)用于一些不可能或不必要进行全面调查的社会经济现象,以达到对总体数量特征的认识,可以取得事半功倍的效果(二)对全面调查的资料进行补充和修正(三)广泛运用于工业生产过程中的质量检验与控制四、抽样调查的几个基本概念(一)全及总体和样本总体。(用N,n表示)大样本,小样本;抽样比例:n/N(二)总体指标和样本指标。1.总体指标。总体指标也称总体特征数。它是说明总体数量特征或规律性的数字。(1)设总体单位数为N(2)∑X为标志总量(3)X=∑X/N称为总体平均数。(4)P=M/N为总体成数(5)σ2=∑(X-X)2/N总体方差σ=√∑(X-X)2/N总体标准差。2.样本指标(1)样本容量为n(2)∑x称为样本标志总量;(3)x=∑x/n称为样本平均数(4)p=m/n称为具有该特征单位的样本成数。(5)样本方差S2=∑(x-x)2/n–1(6)样本标准差S=√∑(x-x)2/n-1全及指标具有唯一性,而样本指标不是唯一的(三)重复抽样和不重复抽样ABCDAAABACADABACADBABBBCBDBABCBDCACBCCCDCACBCDDADBDCDDDADBDC样本可能数目重复抽样N×N×N×N×……×N(有n个)不重复抽样N×(N-1)×(N-2)……×(N-n+1)第二节、抽样误差和抽样估计一、抽样误差(一)概念:是指抽样估计值与被估计的未知的真实参数(总体特征值)之差。(二)误差的来源1、登记性误差2、系统性误差3、偶然性误差(三)、抽样误差大小的影响因素1.总体各单位标志值的变异程度。在其他条件不变的情况下,总体各单位标志值的变异程度愈大,抽样误差也愈大,反之则愈小。2.样本单位数的多少。在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小,反之则愈大。3.抽样方法。抽样方法不同,抽样误差也不同。一般说来,重复抽样的误差比不重复抽样的误差要大。4.抽样的组织形式。选择不同的抽样组织形式,也会有不同的抽样误差,二、抽样平均误差μx(一)概念:抽样平均数的标准差μx==nXx2)(nxx2)(样本样本平均数x-X(x-X)12345678910111213141516404040504070408050405050507050807040705070707080804080508070808040455560455060655560707560657580-20-15-50-15-1005-501015051520400225250225100025250100225025225400合计——————2000(二)抽样平均误差的计算以μx表示抽样平均误差,σ表示总体的标准差。1.当抽样方式为重复抽样时μx=2、当抽样方式为不重复抽样时μx=)1(2NnNnnnσ2样本成数的平均误差的计算公式。1.在重复抽样下:μp==2.在不重复抽样下:μp==)1(2NnNnnnpp)1()1(NnNnpp)1(nσ2例1、某进出口公司出口一批名茶,从2000包中随机抽取100包检验,结果如下。根据规定,每包茶叶在150克以下为不合格产品。根据以上资料,按重复和不重复抽样,计算该批茶叶的抽样平均误差和抽样平均合格率误差。每包重量(克)包数148~149149~150150~151151~15210205020合计100xfxf_x-x_2(X–X)_2(X–X)f148.5149.5150.5151.5102050201485299075253030-1.8-0.80.21.23.240.640.041.4432.412.82.028.8合计10015030————76.0三、抽样估计(一)抽样估计就是以所计算的样本指标来估计相应的总体指标。(二)方法论基础大数定律:说明由大量相互独立的随机变量构成的总体,其每个变量虽有各种不同的表现,但对这些大量的变量加以综合平均,就可以消除偶然因素引起的差异,从而使总体的某一标志的规律性及其共同特征能在一定的数量和质量上表现出来。(三)抽样估计有点估计和区间估两种形式1、点估计:是用样本估计量的一个具体观测值直接作为总体的未知参数的估计值的方法。适用于对推断的准确程度与可靠性要求不高的情况。例:某公司欲购买一批降价商品共3000件,其中有一些是次品,但不知次品有多少。公司得知每件次品修复成本为5元,并认为如果总的修复成本低于1500元,就购买这批商品。公司随机抽取100件商品进行调查,发现8件次品。问这批商品的次品率是多少?公司是否可购买这批商品?P=x/n=8/100=8%3000×8%=240(件)240×5=1200(元)2、区间估计对于总体的未知指标X,根据样本确定总体指标所在的区间,并指出估计推断的可靠程度。x1、x2(x1<x2),使随机区间(x1,x2)包含X的概率等于给定值1-α(0<α<1),即P(x1≤X≤x2)=1-α则称1-α为置信概率,α为显著水平,(x1,x2)称为X的置信区间,x1、x2分别称为置信下限和置信上限。(1)、抽样极限误差抽样极限误差是指样本和总体指标之间误差的允许范围。由于总体指标是一个确定的数,而样本指标则是围绕总体指标上下波动的,它与总体指标之间既有正离差,也有负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差允许范围称为抽样极限误差。设Δx与Δp分别表示样本平均数与样本成数的抽样极限误差,则有:|x-X|≤Δx,|p-P|≤Δp上述不等式也可表示成:x-Δx≤X≤x+Δx,p-Δp≤P≤p+Δp(2)概率度通常抽样极限误差以平均误差作为标准单位来衡量,即用概率度t表示相对误差的范围。xxtppt3、置信度(概率保证程度)F(t)t与F(t)之间是一一对应的关系。tF(t)168.27%295.45%399.73%第三节抽样单位数目的确定一、影响因素1.被研究总体的标志变动度2.允许的误差范围3.抽样推断的可信程度4.不同的抽样方式和方法二、计算1.重复抽样:2.不重复抽样222xtn练习1、某城市进行抽样调查,随机抽取400户,结果得平均每户每月消费支出为1350元,标准差为380元,要求以95.45%的概率保证程度估计,该城市平均每户每月消费支出额的范围。(t=2)2、为研究某新式服装的销路,在市场上随机对900名成人进行调查,结果有540人喜欢该服装,要求以95.45%的概率保证程度估计,该市城人喜欢该时装的比率。3、某农场播种小麦4000亩,抽样调查结果表明,样本平均亩产为620千克抽样平均误差为2千克,在99.73%的概率保证下,求该农场小麦的平均亩产以及小麦总产量。(F(t)=99.73%时,t=3)4、某进出口公司出口一批名茶,从2000包中随机抽取100包检验,结果如下。根据规定,每包茶叶在150克以下为不合格品。(1)按重复抽样和不重复抽样,计算该批茶叶重量的抽样平均误差和合格率的抽样平均误差。(2)试以99.73%的概率保证程度估计这批茶叶平均每包的重量,以确定是否达到重量规格的要求。(3)以同样的概率保证程度估计这批茶叶的合格率范围。5、某电子元件厂对电子元件进行耐用时数检验,先从全部元件中随机不重复抽取1%的产品,测的数据如下:耐用时数(小时)元件数(百只)900以下900——10001000——11001100——12001200以上1878121合计100按质量标准规定,元件耐用时数不到1000小时为不合格品处理,若给定概率为95.45%,试确定:(1)该批元件的平均耐用时间的范围;(2)该批元件的合格率的范围;(3)该批元件的合格品数量的范围6、假定总体为5000单位,标准差为20,抽样极限误差为3,当概率保证程度为99.73%时,试问需要多少不重复抽样单位?7、某药厂为了检验瓶装药片的数量,从成品库中随机抽检100瓶,结果平均每瓶101.5片,标准差为3片,试以99.73%的把握程度推断,该成品库中该种药平均每瓶数量的可能范围;如果允许误差减少到原来的一半,其它条件不变,问需要抽检多少瓶?8、为调查某地区人口总数,在该地区15000户中以不重复抽样方法随机抽取30户作为样本,每户人口数如下:563323334432645345334331253424试以95.45%的把握程度推断该地区人口总数。若要求人口总数允许误差不超过3300人,则至少要抽取多少户作为样本第四节、抽样的组织形式一、纯随机抽样:是完全遵循随机原则,直接从总体中抽取样本个体,并保证每个个体都有相同被抽中的机会的抽样形式。适用于总体单位变异较小的情况。二、分层抽样(类型抽样)是将总体按某个标志分成若干组,然后在各组中采用纯随机抽样方式或其它方式抽取样本单位的形式。原则:分组时使组内差异尽可能小,使组间差异尽可能大。类型抽样的平均误差一般小于同样容量的纯随机抽样的平均误差。三、等距抽样(机械抽样)是先将总体各单位按某一标志顺序排列,然后固定的顺序和相同的间隔来抽取样本的组织形式。可分为无关标志排序抽样和有关标志排序抽样两类。优点是能使样本均匀地分布在总体中,四、整群抽样是将总体划分成若干群,然后以群为单位从中按纯随机抽样或等距抽样方式抽取部分群,对中选群中的所有单位一一进行调查的组织形式。“群”主要是自然形成的,如按行政区划、地理区域分群。特点:整群抽样的优点是组织工作较简便,但可能出现较大的误差。相对于其它抽样形式而言,在相同条件下,抽样误差较大,代表性较低。