教育统计学06讲抽样分布内容简介抽样分布样本平均数的抽样分布样本方差的抽样分布引子3,4,4,5,5,5,6,6,7一、抽样分布总体分布总体内个体观察值的次数分布或概率分布样本分布样本内个体观察值的次数分布或概率分布注意:一次抽样的样本分布不一定和总体分布相同。从总体中反复抽取多个相同容量的样本,这些样本具有不同的个体、不同的数值、不同的平均值等。一、抽样分布抽样分布指某种样本统计量(如平均值,方差)的概率分布。通过收集来自同一总体相同样本容量的无限个样本的某种样本统计量的值得到理论概率分布。理论上来说,若总体容量为N,样本容量为n,有放回地抽取所有可能的样本数为Nn种。所以,实验性的抽样分布是为了能使人们更容易理解,实质上是一个理论性的抽样分布。通过分析所有样本的某种统计量所构成总体的分布特征,获得样本统计量与总体参数的关系,进而以此为依据在一定可靠程度上推论总体特征(总体参数)。样本平均数的抽样分布样本方差的抽样分布二、样本平均数的抽样分布样本平均数的抽样分布具有如下特点1.样本平均数集中在总体均值附近2.样本平均数的抽样分布近似正态分布3.有放回随机取样的所有可能样本平均数的均值等于总体均值,样本平均数的标准差等于总体标准差除以样本容量的算术平均根注:为了与观测值的分布相区别,称样本统计量抽样分布的标准差为统计量的标准误(standarderror,SE)。如样本平均数的标准误记为XXSE或二、样本平均数的抽样分布统计量的标准误是统计量离散程度的指标,它反映各样本统计量与总体参数的接近程度。标准误越大,表明样本统计量与总体参数的离散程度越大,用样本统计量估计总体参数的可靠性越低。思考:什么因素影响样本统计量离散程度(标准误)大小?二、样本平均数的抽样分布中心极限定理从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值的抽样分布可用正态分布近似。样本容量应该达到多大时,我们才可以假定能够使用中心极限定理?当总体分布是对称钟形形状时,样本容量为5-10即可当总体分布严重偏斜或明显非正态,则需要更大的样本容量,一般应大于等于30可以适用。中心极限定理对三个总体的示意图总体正态样本平均数抽样分布总体非正态样本平均数抽样分布(一)平均数的抽样——正态分布平均数抽样分布——正态分布应用应用1:117例7.6应用2:已知全校学生英语成绩呈正态分布,σ为7.07,从这个总体中随机抽取一个样本容量为36的样本,计算出样本平均值为79分,试问总体均值μ的取值。(置信度取0.95)注:显著性水平α、置信度1-α、置信区间(二)平均数的抽样——t分布若总体标准差σ未知,无论样本容量多大,样本平均数的抽样分布服从:1.自由度(degreeoffreedom,df)为n-1的t分布2.平均数抽样分布的均值3.平均数抽样分布的标准差统计量t分布特点介绍t分布表使用介绍()EX1XSSEn1~11nXtttntSn,即,构建的统计量服从自由度为的分布。t分布特征1.以0为中心,左右对称的单峰分布;2.t分布是一簇曲线,其形态变化与自由度df大小有关。自由度越小,t分布曲线越低平;自由度越大,t分布曲线越接近标准正态分布曲线,如图.3.当自由度大于等于30时,t分布近似正态分布。(请大家仔细查看t分布表,当自由度超过30时,t值十分接近标准正态分布中相同概率下的Z值)t分布表的使用不同统计教材提供的表可能不同t统计量,说明计算得到的统计量t大于12.706,小于-2.706的概率为0.05一、样本平均数抽样分布表P118表总结以下两条:无论总体是否正态,当样本容量30以上时,样本平均数抽样分布近似正态分布当总体方差未知时,样本平均数抽样分布服从t分布,但若同时样本容量30以上,可用正态分布近似运用根据样本平均数估计总体平均数例1总体正态,总体均值为μ,标准差σ已知例2总体正态,总体均值为μ,标准差未知例3总体非正态,总体均值为μ,标准差σ已知例4总体非正态,总体均值为μ,标准差未知1.总体正态,总体均值为μ,标准差σ已知此种情况下,样本平均数例:已知全校学生英语成绩呈正态分布,σ为7.07,从这个总体中随机抽取一个样本容量为36的样本,计算出样本平均值为79分,试问总体均值μ的取值。(置信度取0.95)注:显著性水平α、置信度1-α、置信区间~/2XN(,n)1.总体正态,总体均值为μ,标准差σ已知已知全校学生英语成绩呈正态分布,σ为7.07,从这个总体中随机抽取一个样本容量为36的样本,计算出样本平均值为79分,试问总体均值μ的取值。(置信度取0.95)解:7.071.1836nX0.95781.961.18781.961.1875.6980.31置信区间为:2.总体正态,总体均值为μ,标准差未知样本平均数服从t分布例:假设大学生词汇记忆任务测试成绩服从正态分布,总体标准差未知,从中抽取一个容量为10的样本,求得平均数为78,样本方差为8,问总体参数μ的0.95置信区间.2.总体正态,总体均值为μ,标准差未知假设大学生词汇记忆任务测试成绩服从正态分布,总体标准差未知,从中抽取一个容量为10的样本,求得平均数为78,样本方差为8,问总体参数μ的0.95置信区间.解:10.05/282.6711010.95:19,2.262,0.95:782.2622.67782.2622.6771.9684.04nXSnntt求置信区间当自由度为时查值表得所以总体均值的置信区间为3.总体非正态,总体均值为μ,标准差σ已知由于总体非正态,平均数抽样分布未知,若样本容量大于等于30,则可根据中心极限定理,认为样本平均数的抽样分布近似正态分布.例:已知全校学生英语成绩非正态,σ为7.07,从这个总体中随机抽取一个样本容量为36的样本,计算出样本平均值为79分,试问总体均值μ的取值。(置信度取0.95)3.总体非正态,总体均值为μ,标准差σ已知已知全校学生英语成绩非正态,σ为7.07,从这个总体中随机抽取一个样本容量为36的样本,计算出样本平均值为79分,试问总体均值μ的取值。(置信度取0.95)解:7.071.1836nX0.95781.961.18781.961.1875.6980.31置信区间为:4.总体非正态,总体均值为μ,标准差未知在样本量大的情况下,由于总体方差未知,样本平均数抽样分布服从自由度为n-1的t分布。当自由度大于30时,t分布近似正态分布,所以也可以直接用正态分布处理。例:某班49人期末考试成绩为85分,标准差为6,假设此项考试能反映学生的学习水平,试推论该班全部学生的真实成绩分数。4.总体非正态,总体均值为μ,标准差未知某班49人期末考试成绩为85分,标准差为6,假设此项考试能反映学生的学习水平,试推论该班全部学生的真实成绩分数。解:10.05/260.86614910.95:148,2.021,0.95:852.0210.866852.0210.86683.2586.75nXSnntt求置信区间当自由度为时查值表得所以总体均值的置信区间为三、样本方差的抽样分布样本方差的抽样分布服从χ2(卡方)分布2221S()1nXXn此处为校正后的样本方差:Sχ2分布三、样本方差的抽样分布已知某测验分数呈正态分布,随机抽取其中一个样本n=10,s2n-1=0.286,求该测验分数总体方差σ2的0.95置信区间。三、样本方差的抽样分布已知某测验分数呈正态分布,随机抽取其中一个样本n=10,s2n-1=0.286,求该测验分数总体方差σ2的0.95置信区间。解题思路:根据前述性质我们知道,(n-1)乘以样本方差与总体方差之间之比服从卡方分布。解根据卡方分布表,可查得df=10-1=9,显著性水平α=0.05时两侧的临界值(卡方分布表使用)。220.025(9)2(9)220.975(9)2(9)2222(9)2(9)2222222(9)2(9)22192.7(1)0.95(1)(1)0.9590.28690.2860.95192.70.950.135nSnSnS0.05/1-0.05/n-11-0.05/0.05/n-1n-10.05/1-0.05/所以,的置信区间为:20.95练习例:在校大学生每月平均支出是480元,标准差为20。随机抽取25名学生,如果该样本的平均数是490元,那么容量为25的所有样本平均数的可能取值中小于490元的比例是多少?该样本平均数以及标准差0.95和0.99可能的取值范围是多少?小结抽样分布概念不同情况下的平均数抽样分布,根据样本平均数推测总体平均数方差抽样分布,根据样本方差推测总体方差