第三节均数的抽样误差和总体均数估计1.参数估计包括:点估计与区间估计2.假设检验统计推断的两部分内容:统计推断:用样本信息推论总体的特征。总体样本随机抽取部分观察单位μ?推断inferenceX参数估计若某市2009年18岁男生身高服从均数μ=167.7cm、标准差=5.3cm的正态分布。对该总体进行随机抽样,每次抽10人,(jn=10),共抽得100个样本(g=100),计算得每个样本均数jX及标准差jS。一、均数的抽样误差与标准误jjXS167.41,2.74165.56,6.57168.20,5.36┆165.69,5.09nj=10100个=167.7cm=5.3cmX1,X2,X3,Xi,2009年某市18岁男生身高N(167.7,5.32)的抽样示意图将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制频数图从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布①,各样本均数未必等于总体均数;②各样本均数间存在差异;③样本均数的分布为中间多,两边少,左右基本对称。④样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。XX样本均数分布具有如下特点:从正态分布总体中以固定n抽样时,样本均数的分布仍服从正态分布。当样本含量n足够大时,即使从偏态分布总体中以固定n抽样,其样本均数的分布也近似服从正态分布。),(2NX),(2XNnNX2,~8理论上可以证明,抽样误差:由个体变异产生的、抽样造成的样本统计量与总体参数的差别原因:1)抽样2)个体差异由于变异的存在,抽样研究所造成的样本均数与总体均数的差异,以及各样本均数间的差异称为均数的抽样误差。抽样误差在抽样研究中是不可避免的,但只要严格遵循随机化抽样的原则,就能估计抽样误差的大小。1.均数的抽样误差的概念表示样本统计量抽样误差大小的统计指标。标准误:说明抽样误差的大小,总体计算公式Xn2、标准误(standarderror,SE)实质:样本均数的标准差若用样本标准差s来估计,(7-28)XSSn当样本例数n一定时,标准误与标准差呈正比当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。抽样调查150名3岁女孩的身高均数为92.79cm,标准差为4.61cm,则其标准误是多少?例子:0.38snxscm1、反映样本均数的可靠性;2、估计总体均数的置信区间;3、用于均数的假设检验。标准误的应用:指标意义应用标准差(s)衡量变量值变异程度,s越大表示变量值变异程度越大,s越小表示变量值变异程度越小描述正态分布(近似正态分布)资料的频数分布;医学参考值范围的估计标准误()样本均数的变异程度,表示抽样误差的大小。标准误越大表示抽样误差越大,样本均数的可靠性越小;标准误越小表示抽样误差越小,样本均数的可靠性越大总体均数区间估计;两个或多个总体均数间比较的假设检验XS标准差和标准误的区别标准差与标准误的比较标准差标准误含义描述正态分布资料的离散趋势,反映个体变量值的变异程度描述均数的抽样误差,反映样本均数对总体均数的代表性计算公式总体标准差理论值nX样本标准差1/)(22nnxxs估计值nssX与样本含量的关系样本量越大,样本标准差越稳定,越接近总体标准差,即s样本量越大,标准误越小,当n时,X(或Xs)0。用途用于描述性分析:描述离散趋势;计算变异系数;估计频数分布;确定医学参考值范围;用于计算标准误用于反映抽样误差大小用于统计推断:估计总体均数的可信区间假设检验161.若某一随机变量X服从总体均数为μ、总体标准差为的正态分布2(,)N,则可通过z变换(X)将一般正态分布转化为标准正态分布N(0,12),即z分布;二、t分布(一)t分布概念随机变量XN(,2)标准正态分布N(0,12)z变换Xz2.若样本均数X服从总体均数为μ、总体标准差为的正态分布2(,)XN,则通过同样方式的z变换(XX)也可将其转换为标准正态分布N(0,12),即z分布。X,1XXXtnSSn式中为自由度(degreeoffreedom,df)3.实际工作中,由于未知,用代替,则不再服从标准正态分布,而服从t分布。XXS()/XXS均数标准正态分布N(0,12)),(2nN1,nvSXnSXtXStudentt分布自由度:n-1XnXz/0tt分布一簇曲线),(2NX),(2XNX0uN(0,1)XXuXsXtXun足够大时,分布分布ut(1)(2)(3)以固定n随机抽样22英国统计学家Gossett分布是一簇曲线。当自由度ν不同时,曲线的形状不同。当ν时,t分布趋近于标准正态分布,但当自由度ν较小时,与标准正态分布差异较大。(二)t分布的图形与特征分布只有一个参数,即自由度tt-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0ν─∞(标准正态曲线)ν=5ν=1f(t)图不同自由度下的t分布图00.10.20.30.40.5-5-4-3-2-1012345normaldf=1df=3df=5df=10df=30t分布与标准正态分布25t分布与u分布(标准正态分布)u分布t分布相同点均为以0为中心左右对称的单峰分布不同点密度函数2221)(ueu2121221)(tΓΓtf图形只有唯一的一条曲线一簇曲线,分别对应不同的自由度。自由度越大,峰值越高,尾部越低;自由度越小,峰值越低,尾部越高。正态峰尖峭峰关系随着自由度增大,t分布逐渐接近u分布,当时,t曲线与u曲线重合。26①单峰分布,以0为中心,左右对称;②自由度ν越小,则t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近,逼近,t分布逼近z分布,故标准正态分布是t分布的特例。XXS1.特征:2.参数(onlyone):3.t界值表:详见附表2,可反映t分布曲下的面积。单侧概率或单尾概率:用,t表示;双侧概率或双尾概率:用/2,t表示。2、t界值表:详见P312,可反映t分布曲线下的面积。单侧概率或单尾概率:用表示;双侧概率或双尾概率:用表示。2.参数(onlyone):3.t界值表:详见附表2,可反映t分布曲下的面积。单侧概率或单尾概率:用,t表示;双侧概率或双尾概率:用/2,t表示。-tt0附表2t界值表自由度概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.5015.04190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587210.6860.8591.3231.7212.0802.5182.8313.1353.5273.819220.6860.8581.3211.7172.0742.5082.8193.1193.5053.792230.6850.8581.3191.7142.0692.5002.8073.1043.4853.768240.6850.8571.3181.7112.0642.4922.7973.0913.4673.745250.6840.8561.3161.7082.0602.4852.7873.0783.4503.725由t界值表可知:★相同自由度时,︱t︱越大,概率P越小。★相同t值时,双侧概率是单侧概率的两倍。★ν=∞时,t分布即为Z分布,故t界值表中最后一行是Z界值。t分布的分位数(双侧t界值)1,2/,2/tttP2,2/ttP/2/21-2,2/ttPt/2,-t/2,31,ttP,ttP1-1,ttPt,t分布的分位数(单侧t界值)32①0.05,10101.812t,单=0.05,,则有(1.812)0.05(1.812)0.05PtPt或②0.05/2,10102.228t,双=0.05,,则有(2.228)(2.228)0.05PtPt举例:三、总体均数的置信区间估计用样本统计量推断总体参数。总体均数估计:用样本均数推断总体均数。1.点估计(pointestimation):用相应样本统计量直接作为其总体参数的估计值。如用估计μ、s估计等。其方法虽简单,但未考虑抽样误差的大小。X按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。如给定=0.05,该范围称为参数的95%可信区间或置信区间;如给定=0.01,该范围称为参数的99%可信区间或置信区间。2.区间估计(intervalestimation):计算总体均数可信区间需考虑:(1)总体标准差是否已知,(2)样本含量n的大小通常有两类方法:(1)t分布法(2)z分布法1.当未知且n较小时,由于服从t分布,可按t分布原理估计总体均数的可信区间。由于即故总体均数(1-)100%的可信区间为nsXt1,2/,2/tttP1,2,2tnsXtPXXstXstX,2,2,382、当未知但n足够大时(n100),t分布近似u分布,可以u界值代替t界值,估计总体均数的可信区间。3、当已知时,可按正态分布的原理,估计总体均数的可信区间。XXsuXsuX22,XXuXuX22,39例某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%可信区间。本例n=200100,故可采用正态近似的方法按公式(3-8)计算可信区间。今X=3.64、S=1.20、n=200、XS=0.0849,取双尾0.05得0.05/21.96u。3.641.960.0849(3.47,3.81)(mmol/L)故该地正常成年人血清胆固醇均数的95%可信区间为(3.47,3.81)mmolL。40四、置信区间的确切涵义411.95%的可信区间的理解:(1)我们所估计的可信区间有95%的可能包含所要估计的总体参数。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算