统计学-从典型案例到问题和思想经济管理类“十三五”规划教材§典型案例【6】§第一节抽样分布基本概念§第二节几个常见的抽样分布第五章抽样分布【典型案例6】如何决定是否购买一批苹果?俗话说“一日一苹果,医生远离我。”假如现在面对一批苹果,人们如何了解它们口感的均值和差异值,以便作出是否购买这批苹果的决策呢?人们常用作法:从这批苹果中随机挑出几个品尝后,得出这几个苹果口感的均值和差异值,以此作为这批苹果口感的均值和差异值,从而作出是否购买这批苹果的决策。从统计学角度来讲,挑出的几个苹果口感的均值和差异值就是样本平均数和样本方差,这批苹果口感的均值和差异值是总体平均数和总体方差。这种用商品质量数据的样本平均数、样本方差作为总体平均数、总体方差的作法,是人们购买商品时常用的有效估计方法,其理论依据是本章将要学习的内容。【典型案例6】如何决定是否购买一批苹果?第一节抽样分布基本概念一、样本容量和样本个数二、参数和统计量三、抽样分布四、抽样分布的数字特征总体是研究的所有个体构成的集合,其中的个体的数目常用表示。从中随机抽取部分个体构成一个样本,构成样本的个体的数目,常用表示,称为样本容量,也称样本量。例如,典型案例6中,一批苹果有400个,从中抽取8个进行品尝,那么,而。显然,从中可以得到很多个样本。一、样本容量和样本个数Nn400N8n从一个含有N个个体的总体中,随机抽取样本容量为n的样本,可得到很多个样本,此即样本个数。典型案例6中,将400个苹果编号,则随机抽取的样本可能是由编号为1—8的这8个苹果构成,也可能是由编号为101—108的8个苹果构成等等。一、样本容量和样本个数参数是用来描述总体数量特征的,如总体均值、总体比例、总体方差等;统计量是用来描述样本数量特征的,是由样本构造的函数,如样本均值、样本比例、样本方差等。由于总体是唯一的、固定不变的,故参数往往是一个未知的常数;而样本不唯一,且一旦抽取出来,就成为已知,故统计量是随机变量,其取值随着样本的变化而改变。2Xp2S二、参数和统计量抽样的目的就是要根据样本统计量去估计或推断总体参数。比如,常用样本均值去推断总体均值、用样本比例去推断总体比例、用样本方差去推断总体方差。以上做法的理论依据就是——样本统计量的抽样分布。Xp2S2二、参数和统计量统计量是随机变量。抽样分布就是统计量的概率分布。如样本均值的概率分布、样本比例的概率分布、样本方差的概率分布等都称为抽样分布。三、抽样分布以下将以样本均值为例说明统计量的抽样分布。【例5-1】设有一个总体,含有5个个体:10、20、30、40、50,即。采取重复抽样的方式从中抽取样本容量为2的样本,即。试写出样本均值的抽样分布。5N2nX三、抽样分布解:由于=5,=2,从总体中采取重复抽样的方式抽取样本,则样本共有=52=25个。计算出这25个样本的均值,其结果如表5-1所示。NnnNX样本序号样本个体样本均值样本均值的概率110,10101∕25210,20152∕25310,30203∕25410,40254∕25510,50305∕25620,1015720,2020820,3025920,40301020,50354∕251130,10201230,20251330,30301430,40351530,50403∕251640,10251740,20301840,30351940,40402040,50452∕252150,10302250,20352350,30402450,40452550,50501∕25表5-1n=2时样本均值的抽样及其取值情况表5-2=2时样本均值的抽样分布nX从而,样本均值的概率分布如表5-2所示。X三、抽样分布X25125225325425525425325225110P101520253035404550在例5-1中,若样本容量n=4,则样本共有个,并且例5-1中的总体是一个非常小的总体,现实世界中,我们面对的总体往往很大,进而样本数目将很可观,不可能将所有的样本都抽取出来。因此抽样分布实质上是一种理论分布。它可能是精确的某已知分布,也可能是以某已知分布为极限的极限分布。45625nN三、抽样分布抽样分布理论在推断统计中具有重要的作用,它是后续参数估计和假设检验的理论依据和基础。三、抽样分布设总体的平均数为,方差为,采取重复抽样的方式,从中抽取独立同分布的样本:,…,。根据数学期望和方差的性质,可推出:21XnX()XEX22Xn四、抽样分布的数字特征(一)样本均值的数字特征(5.1)在例5-1中,样本均值的平均数1217502525252510155030X总体均值1(1020304050)305样本均值的方差总体方差由于n=2,从而验证了(5.1)的正确性。222()[()]1000900100XEXEX222()[()]1100900200EXEX四、抽样分布的数字特征由式(5.1)可知:的平均数为,方差为。随着的增大,其方差越来越小,从而的取值越来越向着靠拢,故用去估计理论依据成立。X2nnXX由此可见,典型案例6中,人们用挑选出的几个苹果口感的均值去估计这批苹果口感的均值的做法是站得住脚的。四、抽样分布的数字特征以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,方差需要用系数进行修正,从而样本均值的数字特征为:(5.2)可见:用去估计理论依据同样成立。()XEX221XNnnNX四、抽样分布的数字特征比例:总体(或样本)中具有某种属性的个体数与全部个体数之比,总体比例记为。现有~,采取重复抽样的方式从中抽取独立同分布的样本:,…,。样本中变量值1出现次数记为,那么变量值1出现次数所占的比例为/,即为样本比例。(二)样本比例的数字特征四、抽样分布的数字特征X,1B1XnX1n1nn根据数学期望和方差的性质,可推出样本比例的数学期望、方差与总体的平均数、方差之间的关系:(5.3)p()pEp2(1)pn四、抽样分布的数字特征由式(5.3)可知:的平均数为总体比例,方差为。随着的增大,方差越来越小,从而的取值越来越向靠拢,故用去估计理论依据成立。p(1)nnpp以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,当样本容量很大时,方差需要用系数进行修正,从而样本比例的数字特征为:(5.4)可见:用去估计理论依据同样成立。()pEp2(1)1pNnnNp四、抽样分布的数字特征设总体的方差为,采取重复抽样的方式,从中抽取独立同分布的样本:,…,。根据数学期望和方差的性质,可推出样本方差的数学期望、方差与总体的方差之间的关系为:(5.5)X21XnX22()ES24221Sn(三)样本方差的数字特征四、抽样分布的数字特征由式(5.5)可知:样本方差的平均数为,方差为,随着的增大,其方差越来越小,从而的取值越来越向着靠拢,故用去估计理论依据成立。2124nn2S2S22四、抽样分布的数字特征由此可见,典型案例6中,人们用挑选出的几个苹果口感的差异值去估计这批苹果口感的差异值的做法是站得住脚的。以上结论均建立在重复抽样情形下,若是在不重复抽样情形下,方差需要用系数进行修正,从而样本方差的数字特征为:(5.6)22()ES242211SNnnN可见:用去估计理论依据同样成立。2S2四、抽样分布的数字特征统计量抽样分布的标准差,称为统计量的标准误,也称标准误差。标准误可用于说明抽样误差的大小。抽样误差是指由抽样的随机性引起的样本结果与总体的真实值之间的差异,它描述的是所有样本可能的结果与总体真值之间的平均性差异。若总体标准差未知,可用样本标准差代替,此时的标准误称为估计标准误。(四)标准误(重点)四、抽样分布的数字特征样本比例的标准误为。当总体比例未知时,可用样本比例代替,此时得到的标准误称为估计标准误。p四、抽样分布的数字特征样本方差的标准误为。当总体标准差未知时,可用样本标准差代替,此时得到的标准误称为估计标准误。2S样本均值的标准误为。当总体标准差未知时,可用样本标准差代替,此时得到的标准误称为估计标准误。X一、样本均值的抽样分布二、样本比例的抽样分布三、样本方差的抽样分布四、t分布和F分布第二节几个常见的抽样分布抽样分布即统计量的概率分布。本节将分别对样本均值、样本比例以及样本方差的抽样分布作详细的讨论。如无特别说明,本章中的抽样方式均指重复抽样。第二节几个常见的抽样分布样本均值的抽样分布,就是采取重复抽样的方式,选取容量为的所有样本,由样本均值所有可能的取值形成的概率分布。它是推断总体均值的理论基础。以下分两种情况来讨论样本均值的抽样分布类型。nX一、样本均值的抽样分布正态分布的再生定理:若总体变量~,从这个总体中抽取容量为的样本,则样本均值~。n(一)总体服从正态分布一、样本均值的抽样分布X2,NXnN2,正态分布:若的概率密度函数为(5.7)其中,和都是参数,且,则称服从参数为和的正态分布,记作。其概率密度函数图见图5-1。eπ22()21()2xfxx图5-1正态分布概率密度函数图0XX2(,)NX一、样本均值的抽样分布正态分布概率密度函数的性质:•(1),即整个曲线都在x轴的上方;•(2)曲线相对于对称,并在处达到最大值;•(3)曲线的陡缓程度由决定,越大,曲线越平缓;越小,曲线越陡峭。•(4)当趋于无穷时,曲线以轴为渐近线。•正态分布的概率密度曲线是一条对称的钟型曲线。决定了图形的中位置,决定了图形中曲线的陡峭程度。xf0xf≥xfxx21xfxx特别地,当参数=0,=1时,这样的正态分布为标准正态分布,记为,其概率密度函数为:(0,1)Neπ221()()2。xxx一、样本均值的抽样分布独立同分布中心极限定理表明:无论总体服从何种分布,只要其平均数和方差存在,那么从中抽取的独立同分布样本,…,,其均值在当很大时,就会近似服从正态分布。1XnXn2(,)Nn(二)总体服从非正态分布实际应用中,一般取,此时的样本称为大样本。若为小样本,且总体分布不是正态分布,此时不能按照正态分布来处理,要运用小样本的相关理论来讨论。30n图5-2样本均值的抽样分布图大样本小样本正态分布非正态分布总体()非正态分布正态分布2,2(,)Nn一、样本均值的抽样分布根据本章第一节,在不重复抽样情形下,样本均值的抽样分布为:~(5.8)一、样本均值的抽样分布X1,2NnNnN【例5-2】假设在一个饭店门口等待出租车的时间是服从左偏分布的,均值为12分钟,标准差为3分钟。现从饭店门口随机抽取100名顾客并记录他们等待出租车的时间,考察100名顾客的平均等待时间的抽样分布。一、样本均值的抽样分布解:依题意,总体均值=12,=3,根据中心极限定理可知:样本均值(100名顾客的平均等待时间)的抽样分布为:~,即:~一、样本均值的抽样分布XnN2,X1003,122N【例5-3】人口普查发现,某地区成年男子的身高服从正态分布N(175,62),采取重复抽样的方式从该地区抽取64名成年男子构成样本,求样本均值的平均数和方差。一、样本均值的抽样分布解:依题意,总体服从正态分布,且=175,=62。根据正态分布的再生定理,样本均值~,即样本均值的平均数,样本均值的方差。2175X=22696416XX646,1752N样本比例的抽样分布,就是采取重复抽样的方式,选取容量为的所有样本,由样本比例的所有可能的取值形成的概率分布。它是推断总体比例的理论基础。pnp二、样本比例p的抽样分布可以看到,样本比例是一种特殊的样本