第六章抽样推断基础知识•排列组合公式•正态分布)!(!nNNPnN)!(!!nNnNCnN)1,0(~,Z),,(~2NZxNx那么令学习目标•掌握抽样推断中的基本原理和方法•能够利用样本资料推断总体指标•重点掌握抽样误差的计算抽样估计内容体系介绍抽样推断的概念抽样推断是建立在概率论基础上的一种科学的统计分析方法。它是指按照随机原则,从全及总体中抽取一部分单位作为样本进行实际调查,然后根据调查所得的样本数据,对总体的特征值做出具有一定可靠程度的推断,以反映总体的数量特征或数量关系。第一节抽样推断的意义及特点•由部分推算整体的一种认识方法•抽样推断是建立在随机取样的基础上•抽样推断是运用概率估计的方法•抽样推断的误差可以事先计算并加以控制抽样推断的特点抽样推断的意义及特点•全及总体与抽样总体•全及指标(总体参数)与抽样指标•样本空间与样本容量抽样推断的几对基本概念第二节抽样的基本概念及原理1.全及总体是我们所要研究的对象,而样本总体则是我们所要观察的对象,两者是有区别而又有联系的不同范畴。2.全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体,一般用N表示。3.抽样总体又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集合体。样本总体的单位数总是有限的,通常用小写英文字母n来表示。4.如果说对于一次抽样调查,全及总体是唯一确定的,但样本总体不是,样本是不确定的,一个全及总体可能抽出很多个样本总体。(一)全及总体和抽样总体•总体参数根据全及总体各单位的标志值或标志属性计算而来,是描述总体特征的概括性数字度量,即全及指标,是研究者想要了解的总体的某种特征值。•由抽样总体各单位标志值计算出来反映样本特征,并用来估计全及指标(总体参数)的指标称为抽样指标,也叫样本统计量,是样本变量的函数。(二)全及指标和抽样指标(三)样本空间与样本容量1.样本空间在总体单位数N中随机抽n个单位,有许许多多不同的样本可能,这些所有可能,形成的样本数目,称为样本空间,用M表示。(1)重复抽样(2)不重复抽样从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后再放回到总体中,重新参加下一次的抽取.抽出个体登记特征放回总体继续抽取抽样方法—重复抽样重复抽样形成的样本空间nNM从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后不再放回到总体参加下一次的抽取.抽出个体登记特征继续抽取抽样方法—不重复抽样从总体N个单位中抽取n个单位构成样本,不但考虑样本各单位成分的不同,而且还要考虑样本各单位的中选顺序。即中选成分相同但中选顺序不同的视为不同样本不重复抽样—考虑顺序从总体N个单位中抽取n个单位构成样本,只考虑样本各单位成分的不同,不管样本各单位的中选顺序.即中选成分相同但中选顺序不同的视为同一样本不重复抽样—不考虑顺序考虑顺序的不重复抽样不考虑顺序的不重复抽样)!(!nNNPMnN)!(!!nNnNCMnN样本的空间数统计推断的理论基础—大数法则如果变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数,可以几乎为1的概率来期望,样本平均数和总体平均数的绝对离差任意小(二者几乎相等)。1)(limXxPn(四)抽样推断的基本原理样本平均数与总体平均数的离差有多大?分布如何?•抽样分布是样本统计量(如样本平均数)所有可能值的概率分布•实践中不可能将所有样本一一列举,所以只能对抽样分布进行推算•推算的理论依据是正态分布的再生定理和中心极限定理抽样分布定理1.正态分布的再生定理从正态总体中抽取的样本,不论容量大小,其样本平均数服从正态分布。样本均值等于总体均值,样本均值的标准差为。2.中心极限定理从非正态总体(平均数和标准差有限)中抽取的样本,当n足够大时(n30),样本平均数分布接近正态分布。n越大,分布越趋近于正态分布。X)xE(x)1,0(~,Z),(~2NZXxXNxxx令抽样分布定理——正态分布的再生定理、中心极限定理正态总体或非正态总体、大样本XxPp第三节抽样误差•有时我们会用样本的统计量直接去估计总体参数。这种估计的可靠性是由抽样误差来衡量的。•抽样误差是由于随机原则导致的样本统计量(如样本平均数、样本成数)与总体参数之间的误差,主要包括:•样本容量的大小容量大抽样误差小•总体的变异程度变异大抽样误差大•抽样方法和抽样组织方式不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。抽样误差的影响因素•抽样误差是一个随样本不同而不同的随机变量。•因为总体指标未知,对于任何一个样本,其抽样误差都不可能测量出来。但是可以推算所有抽样的平均误差。抽样平均误差即全部可能样本的样本平均值或样本成数计算的标准差。又称抽样标准误差、抽样标准误抽样平均误差衡量抽样平均数对总体平均数的代表程度,是反映抽样平均数与总体平均数之间变异范围的主要依据。MXxx2][(MPpp2][(抽样平均误差计算公式•统计上所谓的抽样误差一般指抽样平均误差,而不是某一次具体抽样的抽样误差。MXxx2)(MPpp2)(Xx正态总体,或非正态总体、大样本。那么,据数理统计证明,重复抽样条件下:nxxnPPnpp)1(抽样平均误差的计算——计算公式变量总体的标准差属性总体的标准差例题•设有4个印刷厂装订工,其每小时装订效率分别为70,90,130,150件,现采用重复抽样的方法,从4人中抽2人构成样本,求抽样平均误差。•解:平均装订件数为装订件数的标准差为抽样平均误差为•问:重复抽样中,若要减少20%的抽样误差,那么样本单位数要扩大多少倍?•解:)(110件NXX)(62.31)(2件NXXx)(36.22件nxxnnnnxxxxxxxx56.1)(64.01)8.0(222222那么,,由于正态总体,或非正态总体、大样本。那么,不重复抽样条件下:)1(2N-N-nnxx)1()1(NnNnPPp抽样平均误差的计算——计算公式当N≥500时,NnNnNNnN11•设有4个印刷厂装订工,其每小时装订效率分别为70,90,130,150件,现采用不重复抽样的方法,从4人中抽2人构成样本,求抽样平均误差。•解:平均装订件数为装订件数的标准差为抽样平均误差为)(110件NXX)(62.31)(2件NXXx)(26.18)1(2件NnNnxx例题•若计算抽样平均误差时,总体方差未知,那么就用样本方差s2来代替。•样本方差的计算公式?抽样平均误差•估计某地区10000名适龄儿童的入学率,随机从这一地区抽取400名儿童,检查有320名儿童入学,求入学率的抽样平均误差。•解:以样本标准差代替总体标准差。%96.1)1()1(%2)1(%16)1(%,804003202Nnnppnpppppppp不重复抽样下:样下:抽样平均误差,重复抽已知例题在实际抽样中,应采用不重复抽样,而计算误差时,则可以采用重复抽样的公式计算。抽样平均误差的计算——举例例1:某灯泡厂对10000个产品进行使用寿命检验,随机抽取2%的产品进行测试,得到资料如表所示:试按上述资料,计算:(1)产品平均寿命的抽样平均误差(2)若寿命在1000小时以上为合格品,求合格品率的抽样平均误差。使用时间(小时)x产品数量f900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合计200抽样平均误差的计算——举例(1)根据上述资料,有:)fxfx小时(1057样本平均寿命样本标准差)ffxxs小时(63.531)(2抽样平均误差的计算——举例则重复条件下:)(79.320063.5322小时nsx抽样平均误差的计算——举例则不重复条件下:)1(2Nnnsx)100002001(20063.532)(75.3小时抽样平均误差的计算——举例(2)同样,按上述要求有:%5.9120037188471p样本合格率抽样平均误差的计算——举例(2)则重复抽样条件下:nppp)1(200%)5.911%(5.91%97.1抽样平均误差的计算——举例(2)不重复抽样条件下:)100002001(200%)5.911%(5.91%95.1)1()1(Nnnppp在抽样推断中,在一定概率保证下,允许样本统计量偏离总体统计量的最大幅度。(可允许的误差范围)从实际抽样角度来看,抽样极限误差就是实际样本指标与总体指标之间存在抽样误差的可能范围。px抽样极限误差(抽样允许误差)XxxPpp•用标准差作为其衡量大小的尺度,即相当于几个标准差。•z为概率度,查表得到相应的概率F(z)。xxxXxzz抽样极限误差(抽样允许误差)pppPpzz)1,0(~NXxzx1.大样本,或小样本、正态总体、方差已知概率度样本容量不超过30)1,0(~,Z),(~再生和中心2NZXxXNxxx令极限定理正态)1(~ntXxtx2.小样本,正态总体,总体方差未知概率度1)(,2nxxSnSXxtnxxSnSXxt2)(,1t分布t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,t分布也逐渐趋于正态分布Xt分布与正态分布的比较t分布正态分布t不同自由度的t分布正态分布t(df=13)t(df=5)Z•已知某地区职工家庭人均年收入为12000元,标准差为2000元,用简单重复抽样的方法抽取64户调查,问抽取出的64户的人均年收入不低于12500元的概率是多少?•解:0228.029545.05.0)2()12500(9545.0)2(22501200012500zPxPFXxzx那么,查表得例题•问抽取出的6400户的人均年收入不低于12050元的概率是多少?•已知某消费品的购买对象共10万人,其中6万是女性,现从购买者中随机不重复地抽出100人进行调查,问女性购买者的比例超过50%的概率是多少?•解:9793.09587.029587.0-5.0)04.2(%)50(04.204897.06.05.004897.0)1000001001(1004.06.0)1(4.06.0%,60)(计算概率度zPpPPpzNnnPpPpP例题•某市场牛羊肉价格服从正态分布,平均价格为13元/500克,对26天的市场价格调查结果,平均价格为12元/500克,标准差为1元/500克。问平均价格在13.5元/500克以上的概率是多少?•解:01.0)5.2()5.13(255.2251135.131ˆ1tPxPtnSXxXxtSxxx),得分布表(自由度为查样本标准差为,由样本方差代替小样本,总体方差未知例题第三节抽样估计方法•点估计•区间估计1.估计量:用于估计总体参数的统计量–如样本均值,样本比例,样本方差等–例如:样本均值就是总体均值的一个估计量–不是所有的统计量都能充当良好的估计量2.参数用表示,估计量用表示3.估计值:估计参数时计算出来的统计量的具体值–如果样本均值x=80,则80就是的估计值估计量与估计值(estimator&estimatedvalue)ˆ•抽样估计——用得到的样本指标来推断总体指标。•抽样估计的三要素合适的统计量作为估计量估计的允许误差范围估计可信度,即概率保证程度或置信度,指抽样指标与总体指标的误差不超过一定范围的概率保证程度。用表示。11