1第章抽样推断2学习目的与要求:抽样推断是统计研究中的一种重要分析方法。学习本章要求掌握能利用统计资料来推断总体数量特征的原理及方法,其具体要求:理解抽样推断的概念及特点深刻理解抽样误差产生的原因对抽样误差、抽样平均误差、抽样极限误差加以区别重点掌握简单随机抽样组织形式的区间估计方法掌握必要样本单位数的确定方法3第八章抽样推断第一节抽样推断的一般问题第二节抽样误差第三节抽样估计的方法第四节抽样的组织方式第五节必要抽样单位数的确定4第一节抽样推断的一般问题一、抽样推断的意义抽样推断是按照随机原则,从全部研究总体中抽取一部分单位进行调查,并依据所获得的数据对总体的某一数量特征做出具有一定可靠程度的估计与推断的一种统计方法。抽样推断的全过程,就是抽样调查。5抽样推断基本特点按照随机原则抽取样本单位抽样调查的目的在于推断总体抽样误差可以事先计算并加以控制6二、抽样调查的作用(一)应用抽样法可对某些不可能或不容易进行全面调查而又要了解其全面情况的社会经济现象进行数量方面的统计分析。对无限总体不可能进行全面调查。有些现象总体范围过大,单位分布又过于分散,很难或不必要进行全面调查。对于产品或商品具有破坏性的质量检验也不能进行全面调查。对那些资料要求紧迫,需以较短时间,迅速了解总体全面情况时,也可用抽样法。7(二)应用抽样法可对全面调查的结果加以补充或订正许多社会经济现象虽然可以全面调查,但同时开展抽样调查,把两者结合起来应用也具有重要的意义。全面调查不论是一次性普查,还是经常性统计报表制度,由于范围广、工作量大,参加人员多,就较多地存在发生登记性和计算性误差的可能。在全面调查后,随即抽取一部分单位重新再调查一次,将这些单位两次调查的资料进行对照、比较,计算其差错比率,并以此为依据对全面调查的资料加以修正,这样就可以进一步提高全面调查资料的准确性。另外,由于抽样调查范围小,可以根据需要增加一些调查项目,以便进行某项更深入的研究,以补充全面调查的不足。8(三)应用抽样法可对生产过程中产品质量进行检查和控制抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,观察生产工艺过程是否正常,是否存在某些系统性的偏误,及时提供有关信息,分析可能的原因,便于采取措施,防止损失。(四)应用抽样法可对总体的某种假设进行检验,来判断这种假设的真伪,决定行动的取舍9抽样推断的几个基本概念全及总体和样本总体全及总体:抽样调查所要认识对象的全体,也叫母体,简称总体,它是具有某种共同性质或特征的许多单位的集合体。全及总体的单位数通常用N来表示,N总是很大的数。样本总体:又叫子样或抽样总体,简称样本。它是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用n表示,相对N来说,n是很小的数,它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。(一般来说,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本)10全及指标和抽样指标全及指标:根据全及总体各个单位的标志值或标志特征计算的,反映总体某种数量特征的综合指标称为全及指标。也叫总体指标或母体参数。由于全及总体是唯一确定的,所以根据全及总体计算的全及指标也是唯一确定的。抽样指标:由样本总体各单位标志值或标志特征计算的,反映样本数量特征的综合指标,它是用来估计全及指标的。11全及指标和样本指标的相关公式FXFXNXXFFXXNXX22)()(FFXXNXX2222)()(fxfxnxxffxxsnxxs22)()(ffxxsnxxs2222)()(变量总体总体平均数总体标准差总体方差全及指标样本指标12全及指标和样本指标的相关公式属性总体总体成数总体成数标准差总体成数方差全及指标样本指标PXNNP1)1(PPP)1(2PPPpxnnp1)1(ppsp)1(2ppsp13四、抽样方法重复抽样也称重置抽样、回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,把结果登记下来后,重新返回,再从全及总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有多次被重复抽取的机会。例如不重复抽样也称不重置抽样、不回置抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,不再放回去,下一次则从剩下的总体单位中继续进行抽取,如此反复构成一个样本,就是说,每个总体单位只能被抽取一次,所以从总体中每抽取一次,总体就少一个单位,因此,先后抽出来的各个单位被抽中机会是不相等的。例如16第二节抽样误差一、抽样误差的概念和影响抽样误差的主要因素(一)抽样误差的概念抽样误差是指样本指标与总体指标之间的离差。具体地讲,就是样本平均数与总体平均数的离差(即),或样本成数与总体成数的离差(即)。XxPp17在抽样中误差的来源有许多方面。其中一类是登记性误差,即在调查过程中由于观察、测量、登记、计算上的差错所引起的误差,这类误差是所有统计调查都可能发生的。另一类是代表性误差,即样本各单位的结构不足以代表总体而引起的误差。18代表性误差的发生有以下两种情况:一种是由于违反抽样调查的随机原则,如有意地多选较好的单位或较坏的单位进行调查。这样做,所据以计算的抽样指标必然出现偏高或偏低现象,造成系统性的误差。系统性误差和登记性误差都是不应当发生的,是可以也应该采取措施避免发生或将其减小到最小限度。另一种情况是,即使遵守随机原则,由于被抽选的样本有各种各样,只要被抽中的样本其内部各单位被研究标志的构成比例和总体有所出入,就会出现或大或小的偶然性代表性误差。19我们所讲的抽样误差就是指这种偶然性代表性误差。即按随机原则抽样时,在没有登记性误差和系统性误差的条件下单纯由于不同的随机样本得出不同估计量而产生的误差。抽样误差是抽样调查所固有的,是无法避免与消除的,但可以运用数学方法计算其数量界限,并通过抽样设计程序控制其范围,所以这种抽样误差也称为可控制误差。需要指出,抽样误差不是固定不变的数,它的数值是随样本不同而变化的,所以它也是随机变量。20(二)影响抽样误差大小的因素1、样本单位数的多少2、总体被研究标志的变异程度3、抽样方法4、抽样调查的组织形式21二、抽样平均误差(一)抽样平均数的抽样平均误差计算平均数的抽样平均误差的理论公式为:表示抽样平均误差该公式表明了抽样平均误差的意义。但是当总体单位数较大,而抽取的样本单位数也较大时,样本可能数目就非常大。即使求出样本可能数目,上述公式仍然不适用,这是因为,在该公式中出现了总体平均数。这也正是抽样调查所要推算出的数值,实践中是不知道的。样本可能数目2)(Xxxx22抽样调查实践中用来计算抽样平均误差的基本公式是根据定义公式推导出来的。数理统计证明,在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位数的算术平方根成反比。即:nnxx2或23现以4个工人的日产量为例来验证两个公式的计算结果是相同的。[例1]设4个工人的日产量分别为40、42、46、48件。则平均日产量与平均日产量的标准差如表8—1,则:24序号样本变量()样本平均数()离差()离差平方12345678910111213141516404040424046404842404142424642484640464046424648484048424846484840414344414244454344464745454748-4-3-10-3-201-10230134169109401104901916合计--704-80xxXx2)(Xx25如果从总体中随机抽出2个单位进行调查,则抽样平均误差:抽样平均误差:件)(44448464240NXX件)(1623.34)4448()4446()4442()4440()(22222NXXx(件)2361.221623.3nx(件)样本可能数目2361.21680)2Xxx26不重复抽样条件下计算公式为:通过比较不重复抽样条件下和重复抽样条件下的公式可以看出,根号下相差我们把这个式子叫做修正因子。不难看出当N较大时,与的计算结果是十分接近。因此,当N较大时在不重复抽样条件计算抽样平均误差的公式可采用时)1(2NnNnx)1(NnN)1(NnN)1(Nn)1(2Nnnx27[例2]从某厂生产的10000只日光灯管中随机抽取100只进行检查,假如该产品平均使用寿命的标准差为100小时,试计算该厂日光灯管平均使用寿命的平均误差。解:在重复抽样条件下在不重复抽样条件下(小时)10100100nx9.99)100000101(100100)1(22Nnnx28抽样成数的抽样平均误差如用表示抽样成数的抽样平均误差,其公式为:在重复抽样条件下在不重复抽样条件下以上所有的公式中,不论是抽样平均数的抽样平均误差,还是抽样成数的抽样平均误差,所用的标准差都是全及总体的标准差。但实际上,无论是在抽样之前,还是在抽样之后,全及总体的标准差都是未知的。所以,一般都用样本总体的相应指标来代替。pnppp)1()1()1(Nnnppp29[例3]从某厂生产的10000件产品中,随机抽取1000件进行调查,测得有85件为不合格。试求产品合格率的抽样平均误差。解:根据条件可知,合格率P==91.5%1.在重复抽样条件下==0.88%2.在不重复抽样条件下=nppp)1(1000)915.01(915.0)1()1(Nnnppp%877.099.01000085.0915.030三、抽样极限误差(一)抽样极限误差的概念抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。31抽样极限误差的计算公式基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把极限误差或分别除以或,得相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样平均误差的概率度。xxxxxtXxt或ppppptPpt或32抽样估计的概率度是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。由于抽样指标值随着样本的变动而变动,它本身是一个随机变量,因而抽样指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的概率度。33根据计算极限误差的基本公式概率度t的大小根据对推断结果要求的把握程度来确定,即根据概率保证程度的大小来确定。概率论和数理统计证明,概率度t与概率保证程度F(t)之间存在着一定的函数关系,给定不同的t值,就可以计算出F(t)来,相反,给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值。在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的方便编有“正态分布概率表”供使用时查值。根据“正态分布概率表”,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。现将几个常用的对应数值列于下表。t34常用概率度与概率保证度表概率度t概率F(t)