第六章总体均数的估计授课教师:朱彩蓉总体均数的估计均数的抽样误差与标准误t分布总体均数的估计为什么进行抽样?总体样本随机抽样推断均数的抽样误差概念:抽样引起的总体参数与样本统计量之间的差异称为抽样误差(samplingerror)。均数的抽样误差:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。样本总体样本随机抽样100次样本样本100个样本2(4.5,0.2)N样本均数抽样误差样本1样本2样本k总体nnnnkXXX21kXXX21从总体N(4.5,0.22)中抽出100个样本的均数样本号均数14.5724.4534.4344.4954.4864.5074.4984.5094.45....1004.49从总体N(4.5,0.22)中抽出100个样本的样本均数的频数分布组段频数频率(%)累计频率(%)(4)4.38~1114.40~1124.42~3354.44~77124.46~1010224.48~2626484.50~2222704.52~1313834.54~88914.56~33944.58~55994.60~4.6211100.00合计100100——样本均数抽样分布的特点各样本均数未必均等于总体均数样本均数之间存在差异样本均数的分布规律:围绕着总体均数,中间多两边少,左右对称,基本服从正态分布样本均数的变异较原变量的变异范围小随着样本含量的增加,样本均数的变异范围逐渐缩小数理统计的中心极限定理从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布;即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布;样本均数的总体均数仍为,样本均数的标准差为。X标准误(standarderror)样本均数的标准差称标准误,是说明均数抽样误差大小的指标,大,抽样误差大;反之,小,抽样误差小。标准误的计算:标准误的估计值:XnssnXXX影响标准误大小的因素的大小与成正比与样本含量n的平方根成反比XX频数分布图图4.12005年某市120名9岁男孩肺活量频数分布-4-3-2-10123400.050.10.150.20.250.30.350.4标准正态分布N(0,1)t分布t分布的由来t分布的特征t分布曲线下的面积t分布的由来XZ变量变换总体),(2N样本均数~X~X),(2XN中心极限定理标准正态分布)1,0(N~z变量变换tsXX未知100n______XXZ如果抽取例数n=5的样本k个,每个样本又都可以按公式(6.3)计算出一个t值,可将k个t值编制成频数表,作出直方图,当k无限增大时,则可得到一条光滑的曲线。(式6.3)同理,如果抽取例数n=15时,仍能得到一条t分布曲线,因此,当n变化时,就可以得到不同的t分布曲线,如图6.4:nsXsXtX-5-4-3-2-101234500.050.10.150.20.250.30.350.415图6.4自由度分别为1、5、∞的t分布自由度随机变量能够自由取值的个数=n-限制条件的个数例:如求当,均数也为5时,随机变量X能自由取值的个数?1,2,3,45n4321,,,XXXX?5Xt分布的特征t分布是一簇单峰分布曲线。t分布以0为中心,左右对称且均匀下降。其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当=∞时,t分布即为标准正态分布。t分布曲线下面积规律t分布曲线下总面积仍为1或100%t分布曲线下面积以0为中心左右对称。由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3。附表3,t分布表的特点附表3的横标目为自由度,纵标目为概率P,表中数值为其相应的t界值,记作t,。附表3只列出正值,若计算的t值为负值时,可用其绝对值查表。附表3右上附图的阴影部分表示t,以外尾部面积的概率。-4-202400.10.20.30.4单侧t0.05,30=1.697其通式为,单侧:P(t≤-t,)=或P(t≥t,)=双侧:P(t≤-t/2,)+P(t≥t/2,)=图中非阴影部分面积的概率为,P(-t/2,tt/2,)=1-总体均数的估计用样本指标估计总体指标称为参数估计,是统计推断的一个重要方面。总体均数估计的两种方法点估计:是直接用统计量估计总体参数.区间估计:由于抽样误差的客观存在,因而按一定的概率(100(1-)%)估计总体均数所在的范围(亦称可信区间)。点估计例:已知150例7岁男童的平均身高为123.8cm,标准差为4.7cm,试估计该地所有7岁男童身高的总体均数?答:该地所有7岁男童身高的总体均数为123.8cm。区间估计概念:即按一定的概率(100(1-)%)估计总体均数所在的范围(亦称置信区间)。1)(,2,2tttP1)(,2,2tsXtPX,2,2tsXtXXXstXstX,2,2置信区间的计算未知,且n小未知,但n足够大已知/2/2(,)XXXzsXzsXtsXtsXX/,/,22/2/2(,)XXXzXz例6.3:在某地成年男子中随机抽取25人,测得其脉搏均数为72次/min,标准差为8次/min。试估计该地成年男性脉搏总体均数的95%置信区间。=(68.7,75.3)次/分根据样本计算,可推断该地成年男性脉搏总体均数的95%置信区间为(68.7,75.3)次/分。(722.064*8/25,722.064*8/25)两总体均数差值的置信区间假设正态总体和,当,均未知,但时,则两总体均数之差()的双侧()置信区间为:其中,,当n1,n2均较大时,差值的可信区间为:1221111()cXXSSnn211(,)N222(,)N212222122111212/2,()XXXXtS)2()1()1(212222112nnSnSnSc221212/2,12()SSXXznn例6.5测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。表6.5两对比组脑脊液中镁含量(mmol)组别例数均数标准差结核组281.040.17对照组341.280.14解:假定两组方差齐,根据公式6.7,6.8,6.9可得:所以两总体均数之差的95%可信区间为(0.16,0.32)mmol/L222(281)0.17(341)0.140.02428342cS122121111()0.024(4)030.0284cXXSSnn(1.281.04)2.0000.16LC(1.281.04)2.0000.32UC置信区间有两个要素准确度:反映在可信度(1-)的大小上,即可信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如可信度99%比95%好。精密度:反映在可信区间的长度上,即长度愈小愈好。在抽样误差确定的情况下,二者是相互矛盾的,若提高了可信度,可信区间势必增大,精密度下降。因此,需要同时兼顾准确度与精密度,一般情况下,常用95%可信区间。