1第六章抽样分布及总体平均数的推断教学目的:通过本章学习,同学们应理解抽样分布、小概率事件、显著性水平、统计推断的两类错误等基本概念,并熟练掌握总体参数估计和总体平均数的显著性检验的方法。第一节抽样分布一、抽样分布的基本概念三种不同性质的分布:1.总体分布:总体内数据的频数分布;2.样本分布:样本内数据的频数分布;3.抽样分布:某种统计量的概率分布。平均数的抽样分布:从某一总体中抽出的,容量为n的一切可能样本平均数的分布。【如】:样本平均数的抽样分布、相关系数的抽样分布。二、平均数抽样分布的几个定理1.从总体中随机抽出容量为n的一切可能样本平均数之平均数等于总体平均数。)()(1.6XEE表示平均的符号.2.容量为n的样本平均数在其抽样分布上的标准差,与总体标准差成正比,与样本容量n的方根成反比。)(2.6nxx:是平均数抽样分布上的标准差(一般称作平均数的标准误)。3.从正态总体中,随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布。4.虽然总体不是正态分布,如果样本容量n很大,平均数的抽样分布也近似2正态分布。※:标准误越小,表明统计量与参数值越接近。三、样本平均数与总体平均数离差统计量的形态1.总体为正态分布,总体标准差已知时,平均数的离差统计量呈标准正态分布。可写作)(3.6nXZ2.总体为正态分布,但总体未知,平均数的离差统计量呈t分布。(1)总体标准差的估计量:)(14.6xnnS。:为贝塞尔氏校正系数.1nn(2)平均数的标准误的估计量:)(1/15.6nnnnnSSxxX(3)平均数的离差统计量:)(16.6nXSXtxX注:。而变化和随着xXt(4)t分布的特点①单峰对称,曲线与基线永不相交;②t值有正有负,也可为零;③t分布是随df=n-1而变化的一簇分布;参看教材86页。图例6.1和表6.1图6.1自由度为1,2,5,t分布曲线与正态曲线比较图3表6.1中央面积为0.95不同自由度t的临界值自由度2462030∞t值±4.30±2.78±2.45±2.09±2.04±1.96中央面积不变,df不同,t的临界值不同。df无限大时t分布与正态分布重合。※自由度:公式(6.6)中的n-1统计学中称为自由度(用df表示,即df=n-1)。自由度:是指总体参数估计量中变量值能独立自由变化的个数。【例如】:中,1)()(1122nxxnxxnnnnSx。可以自由变化个的限制,只有因受到)(10)(xxnxx推断统计有两种形式:参数估计和假设检验。一、总体平均数估计的基本原理1.点估计点估计:用一个样本统计量的值估计出一个具体的总体参数值,就称作点估4计。如把样本平均数当作总体平均数。点估计的评价标准:(1)无偏性:一切可能样本统计量与总体参数的离差和为零。【如】:的无偏估计量。该统计量就为总体参数,0)(xx:为无偏估计量,x:为有偏估计量。所以xnns1(2)有效性:当总体参数不止有一种无偏估计量时,某一统计量的一切可能样本值的方差小者为有效性高,方差大者为有效性低。【如】:x的有效性高,M0、Md的有效性低。(3)一致性:当n无限增大时,估计量的值越来越接近它所估计的总体参数值,则这种估计量是总体参数的一致性估计量。注:点估计既不能指明估计误差大小,也不能说明正确估计的概率大小。2、区间估计(1)区间估计:是指以统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值估计出总体参数值的所在范围。(2)平均数区间的估计原理:当总体已知时,根据平均数抽样分布定理,在95%的置信度上估计:)()(7.695.096.196.1nxP将括号内的不等式整理可得:)()(8.695.096.196.1nXnXPnXnX96.196.1为置信下限,为置信上限。5的区间估计已知条件下总体平均数二、。可按标准正态分布处理较大)时,(或总体不呈正态,但已知,总体为正态分布n【例】:某区高一学生的英语统考成绩的标准差为6分,从此次考试的试卷中随机抽出100份试卷,算得平均分为71分。试求全区平均成绩的95%和99%的置信区间:解:∵布估计,所以可按标准整态分已知,且总体为正态,30100n1.95%的置信区间为:95.018.7282.6995.0100696.171100696.17195.096.196.1)()()(PPnXnXP2.99%的置信区间为:99.058.258.2)(nXnXP99.0)55.7245.69(99.0)100658.271100658.271().58.299.0(PPZ时临界值为分布下中央面积为※:置信度越高,置信区间就越大。三、未知条件下总体平均数的区间估计1.基本原理当已知时,用Z估计;当未知时,其原理与已知时基本相同,只是临6界值不固定。95%置信度的临界值可写作:t(df)0.05/2;99%置信度的临界值可写作:t(df)0.01/2。)()()()(11.699.010.695.02/01.0)(2/01.0)(2/05.0)(2/05.0)(XdfXdfXdfXdfStXStXPStXStXPXS为标准误,有不同的计算公式。公式的三种不同形式2.小样条件下的估计【例】:某研究人员对红星小学五年级学生进行智力测查,从测查结果中随机抽出16个学生的智力分数,求得平均智力为106分,标准差为5分,试计算该校五年级学生智力分数的99%的置信区间.分布估计。,所以应按未知,且解:总体为正态,tn301699%的置信区间为:99.082.10918.10299.0116596.2106116596.210696.2116599.0)()(1)(2/01.0)15()(2/01.0)(PPtnSStXStXPxXXdfXdf且查表知,)(12.6nSSX)(113.6nSxX)()1(/)(14.622nnnXXSX页。请参看教材:表示样本的标准差。:表示样本容量;计量;:表示总体标准差的估9190xnS7我们有99%的把握说该校五年学生的平均智力在102.18至109.82之间.3.大样本条件下的估计总体为正态,未知,但n较大,t分布接近z分布,在这种条件下,既可按t分布估计,也可按z分布估计。t估计准确性高,而z估计简便。【例】:从某大学的四级英语试卷中随机抽出200份,算出7,68xX。求该校四级英语平均成绩的95%的置信区间。%的置信区间为:分布估计,,可按但未知当9530200,Zn95.096.196.1)11(nXnXPxx95.0199796.168199796.168)(P95.0976803.67).(P:。中也可不减11n以平均数为例,看假设检验的基本原理。从已知总体抽出的容量为n的一切可能样本的平均数形成的分布如右图,现有一个随机样本,其平均数为X,这个样本是来自0这一已知总体吗?原理,视其在以0为中心的平均数抽样分布上出现的概率大小而定。若样本平均数在抽样分布中出现的概率较大,则认为样本所属总体和已知总体为同一总体;若样本在抽样分布中出现的概率较小,则认为样本所属总体与已知总体有显著性差异。一、假设假设有两种:研究假设和统计假设8统计假设:是指对样本所属总体的参数水平或分布形态的推测。假设检验中一般有两个相互对立的假设:零假设(虚无、消解假设)和备择假设(期望假设),分别用H0和H1表示。零假设的实质:无差异。备择假设的实质:有差异。假设检验是从零假设出发的。二、小概率事件样本统计量的值在其抽样分布上出现的概率小于或等于事先规定的水平,则该事件就为小概率事件。小概率事件是否发生,是对零假设做出取舍的依据。三、显著性水平统计学中把拒绝零假设的概率称为显著性水平,用表示。常用α=0.05和α=0.01两个水平。显著性水平与值成反序关系。单侧与双侧(参看教材96页)。四、统计决断的两类错误1、I型错误:零假设为真而被拒绝。这类错误也称错误。2、Ⅱ型错误:零假设为假而被保留,即备择假设为真而被拒绝(参看教材117页图6.3b)。这类错误也称β错误。3、减少两类错误的方法减小α值,会增大β值。(1)α错误由研究者对差异标准的要求决定。(2)在α值不变的情况下,减小β错误的方法有两种:一是合理安排拒绝区域;二是增大样本容量。用图示说明。根据一个样本信息推断样本所属总体与已知总体是否有差异的检验就称为平均数的显著性检验。检验的基本过程:91.提出假设;三种常见的假设形式:(1)00:H01:H(2)00:H01:H(3)00:H01:H2.选择检验统计量并计算其值;3.确定检验形式;4.统计决断。一、已知条件下总体平均数的显著性检验【例】:某校初一年级英语测验的平均成绩为78分,标准差为7分。实验班40名学生的平均成绩为79.5分,问实验班成绩与全年级的成绩有无显著性差异?检验:其值选择检验统计量并计算)()提出假设:(::27878110HH假定总体为正态分布,总体σ已知,所以采用z检验36.1407785.79nXZ(3)确定检验形式没有资料说明实验班的成绩过去是高于还是低于全年级的成绩,所以采用双侧检验。(4)统计决断05.096.136.12/05.0||PZZ因此,在0.05水平上保留零假设,拒绝备择假设,结论为实验班的成绩与全年级的成绩差异不显著。10※:注意推断规则(参看教材99页)【例】:某区高中物理会考平均分为81分,标准差为8分,区重点中学150名学生的平均分为82.8分。过去资料表明区重点中学的成绩高于全区的水平,问此次会考区重点中学的成绩是否仍然显著高于全区的平均成绩?检验:其值选择检验统计量并计算)()提出假设(281181:::10HH假定总体为正态分布,且已知,所以采用Z检验76.21508818.82nuXZ(3)确定检验形式过去资料说明区重点中学的成绩高于全区的平均成绩,所以采用右侧检验。(4)统计决断01.033.2**76.201.0PZZ因此,在0.01水平上拒绝零假设,接受备择假设。结论为重点中学的物理会考成绩,仍然显著高于全区的平均成绩。※:注意单侧检验与双侧检验的区别。二、σ未知条件下总体平均数的显著性检验1.小样本的情况【例1】:(教材101页)某区初三英语统一测验平均分为65,该区某校20份试卷的分数为:72、76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、66、68、62。问该校初三英语平均分数与全区是否一样?检验:其值选择检验统计量并计算)()提出假设:(::26565110HH学生英语测验分数可以假定是从正态总体抽出的随机样本,而总体标准差σ未知。样本容量较小,n=2030,在此条件下,样本平均数与总体平均数的离差统计量呈t分布。11于是检验统计量为:XSXt/)(。用原始数据计算:266.21202020139699146658.69)(/2t(3)确定检验形式没有资料可以说明该校初三英语成绩是高于还是低于全区的平均水平,故采用双侧检验。(4)统计决断df=n-1=20-1=19查表知t(19)0.05=2.093,t(19)0.01=2.861∵t=2.2662.093∴P0.05因此,在0.05水平上拒绝零假设,接受备择假设。该校初三英语平均分数与全区平均分数有本质区别。或者说,它不属于平均数为65的总体。【例2】::某市数学竞赛的平均成绩为63.5分,A校10名参赛者的平均