第四章抽样推断抽样推断的基本理论抽样推断的含义与作用本章结构抽样估计与样本容量的确定其它组织方式下的抽样估计随机事件与概率随机现象:在自然与社会中,事先无法预知是否发生,何时发生,以什么方式发生的现象。随机事件:是指随机实验每一个可能的结果。频率:是指频数与实验次数的比率。概率:设B为一随机试验,Ω为其样本空间,对于B的每一个事件A赋予一个实数,记为P(A),称为事件A的概率。抽样推断的基本理论随机变量及其概率分布随机变量:数字化的随机事件称为随机变量。随机事件的概率分布:在概率论中,常用随机变量所有可能取值及其概率来反映随机现象的变化规律,这种方法称为概率分布一元离散型随机变量的概率分布(i=1,2,…)一元连续型随机变量的概率分布iixXPPdxxfxFx正态分布的密度函数大数定律与中心极限定理大数定律:是指反映大量的随机现象平均结果具有稳定性的法则,又称大数法则。22212xfxe大数定律的方法论意义(1)现象的某种总体规律只有具有这些现象的足够多数的单位汇总综合在一起的时候,才能显示出来。只有从大量现象的总体中,才能研究这些现象的规律性。(2)现象的总体性规律,通常是以平均数的形式表现出来。(3)所研究的现象总体包含的单位越多,平均数也就越能够正确地反映出这些现象的规律性。(4)各单位的共同倾向决定着平均数的水平,而单位对平均数的离差则由于足够多数单位的汇总综合的结果,而相互抵消,趋于消失。中心极限定理正态分布的现生定理如果变量X服从于其总体平均数为、总体标准差为σ的正态分布,即总体变量X服从正态分布,则从这个总体中抽取容量为n的样本平均数也服从于正态分布,其平均数仍为,其标准差。中心极限定理如果变量X分布的平均数和标准差都是有限的数,则从这个总体所抽取的容量为n的样本,样本平均数的分布随着n的增大而趋近于平均数为、标准差为的正态分布,X2,NXXxxXx抽样推断的含义是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以计算总体相应数量的一种统计分析方法。抽样推断的特点是由部分推算整体的一种认识方法;是建立在随机取样的基础上;是运用概率估计的方法;其误差可以事先计算并加以控制。抽样推断的含义与作用抽样推断的意义(例)对于一些不可能或不必要进行全面调查的社会经济现象,可采用抽样调查。如:自动化大批量生产的产品进行质检,由于产品的生产是连续不断的,根本不可能进行全面调查;对职工家庭生活状况进行调查,是不必要进行全面调查;对于破坏性产品质检,如灯泡,电子元件的寿命测试,各种食品的检验。可以使用全面调查的场合,抽样调查仍具有特殊作用。它可以节省人力和费用,速度快;调查项目,调查质量和数字的准确性好。在工业生产过程中的质量控制,对统计总体进行假设检验等等。抽样推断的基本概念总体与样本总体:是指调查对象的所有单位构成的集合体,也称为全及总体。总体容量:构成总体的单位数。用N表示。样本:是按随机的原则从总体中抽取的部位单位组成的集合体。样本容量:是指样本的单位数,用n表示。根据样本容量的大小可以将样本分为:当n30时,为小样本;当n30时,为大样本。总体指标与样本指标总体指标:是由总体资料计算得到综合指标,也称为全及指标或总体参数。样本指标:是根据样本资料计算的综合指标,也称为抽样指标。总体指标与样本指标抽样方法重复抽样:是指每次从总体中抽取一个单位进行观察后,再把这个单位重新放回原总体中,使之继续参加下次抽取。不重复抽样:是指从总体中每次抽取一个单位进行观察之后,不再把这个单位重新放回原来的总体,这个单位不再继续参加下次抽取。抽样估计的概念是以样本的实际资料为依据,计算出一定的样本指标,并用以对总体的有关指标做出数量上的估计和判断。抽样估计的特点抽样估计实际上是从个别现象到一般现象,采用的是归纳法,是一种可能性的推理,而不是必然性。抽样估计的结论的确定性是可以估计的。用概率论的原理加以估计和控制。抽样估计的结论存在一定的误差。由于抽取的只是部分的资料,与总体资料必然存在一定的差异。抽样估计与样本容量的确定抽样估计的优良标准:无偏性;一致性;有效性抽样误差概念:部分抽样单位的指标数值与全及总体的指标数值之间的差。它是单纯由不同的随机样本得出不同的估计量而产生的误差,不包括登记误差和系统性误差。影响抽样误差的因素(1)总体标志变异度(2)样本单位数(3)抽样调查的组织方式(4)抽样方法抽样平均误差:是指样本指标与总体指标两者误差的平均数。反映样本指标与总体指标的平均离差。公式4.01样本平均数的抽样平均误差公式4.02;例4.01样本成数的抽样平均误差公式4.03;例4.02;练习4.01抽样极限误差定义:是指在一定的概率保证下,抽样误差不超过某一给定的范围,这一给定的范围称为抽样极限误差。通常表示为公式4.04平均数的抽样极限误差(公式4.05;例4.03;练习4.02)成数的抽样极限误差(公式4.06;例4.04)点估计与区间估计点估计:直接用样本的指标来估计总体指标。简单但准确度低。区间估计:样本的指标在一定概率保证下,确定总体指标的变动区间。复杂但准确度高。例4.05;例4.06;例4.07;练习4.03;练习4.04;练习4.05样本容量的确定估计总体平均数时,样本容量的确定方法(公式4.07)估计总体成数时,样本容量的确定方法(公式4.08;例4.08)其他组织方式下的抽样估计等距抽样含义:等距抽样也称机械抽样或系统抽样,它是先按某一标准将总体单位进行排序,然后按固定间隔来抽取样本单位的抽样组织方式。抽样间距:设总体容量为N,样本容量为n,则间隔的大小k为:有关标志排列,抽样平均误差的计算会比较复杂。如果排序的标志是无关标志,而且是随机取样,那么它的抽样误差就非常接近简单随机抽样,因此,可以采用简单随机抽样误差的公式来计算。Nkn类型抽样含义:类型抽样也称分层抽样,它是先按一定的标志对总体各单位进行分类,然后分别从每一类中按照随机原则抽取一定的单位组成样本。类型抽样的计算步骤:计算各组的样本平均数:计算样本平均数:计算方差:1inijjiixxn(1,2,,)ik11kkiiiiiiiNxnxxNn22iiinn22iiiixxn在重复抽样时的抽样平均误差:在不重复抽样时的抽样平均误差:例4.09整群抽样含义:整群抽样也称集团抽样,它是将总体各单位划分为若干群,然后从其中随机抽取部分群,对选中群的所有单位组成样本的抽样组织方式。2ixn21ixnnN整群抽样的计算步骤:计算群的样本平均数:计算样本平均数:计算抽样平均误差:例4.10(1,2,,)ik1MijjixxM111kMkijiijixxxkMk21xkkK22ixxk★了解某城市居民家庭的收入与消费情况★对某产品进行破坏性质量检验★调查某鱼塘的鱼苗长势情况★农产品的产量调查★自选商场经理要估计附近居民的购买能力★民意机关要估计竞选者的得票率……XXNxxn1NPN01NQPN1npn01nqpn22XXN21PQPP221xxsn21spqpp2XXN1PQPP21xxsn1spqpp指标名称总体指标样本指标平均数成数方差标准差无偏性:对于一个总体,进行重复多次的估计,这个估计量的平均数应该等于估计的总体参数,这个估计量平均来说没有偏误。样本平均数,样本成数分别是总体平均数,总体成数的无偏估计量,但样本方差就不是总体方差的一个无偏估计量。只有通过调整后的样本方差,才是总体方差的无偏估计量。具体证明为:2221()11xxEsEExXxXnn22121ExXxXxXxXn0xX注:0xx只有才成立22121ExXxXxXnxXn22121ExXxXnxnXnxXn222121ExXnxXnxXn2211ExXnxXn2211ExXnExXn2211ExXnn2211nnn2211nnnn2例5.31例5.31设有一总体,N=3,其总体各单位标志值为1,3,5.现采取重复抽样,抽取2个样本。试列出所有可能的样本,并验证样本平均数和样本方差分别是总体平均数和总体方差的无偏估计量。解:N=3,n=2的可能样本数11,11,31,533,13,33,555,15,35,5135根据总体标志值可计算:239nN113533XXN2222211813333533XXNxxn221xxsn可能样本样本平均数样本方差1,1101,3221,5383,1223,3303,5425,1385,3425,550(123234345)93x218(028202820)93s22,xXs一致性:随着样本容量的增大,越来越接近总体参数的真值。我们就称这个估计量具有一致性。有效性:一个估计量,如果它的可能数值的离散程度极大,那么这个估计量就不理想,在样本单位数相同的情况下,如果有两个无偏估计量可以选择,其中方差较小的那个估计量,就是有效性较高的估计量。如下图。比更接近,更有效。21212xxXM公式4.01重复抽样公式2xnn22xsnn不重复抽样公式1xnNn22(1)(1)xnsnnNnN公式4.02公式4.03npqnPQpNnnpqNnnPQp11重复抽样不重复抽样Forexample4.01:抽样调查33家工厂的月产值资料现从660家工厂中随机抽取5%共33家进行调查,其月产值分组资料如上表,求抽样平均误差。月产值(万元)工厂数f组中值xxf0—1010—2020—3030—402092251525351001355070合计33—355解:76.1033355fxfx22275.191xxfsf2275.191.509533xsnn2275.19331111.471233660xnsnnNnN重复抽样不重复抽样Forexample4.02:一批8瓦日光灯管8000只,按随机抽样抽取5%进行检验,发现有12只不合格,求合格品率的抽样平均误差?解:97.0400124001nnp0291.003.097.02pqs0.02910.853%400ppqn0.0291400110.83%4008000ppqnnN重复抽样不重复抽样耐用时数(千小时)组中值x元件数f7以下7——88——99——1010——1111以上6.57.58.59.510.511.52828322010合计—100从50000只电子元件中随机抽取100只检验结果如下:(设8000小时以下为不合格品)要求计算:(1)抽样平均数的抽样平均误差(2)抽样成数的抽样平均误差练习4.01解:4.9100940ffx