第九章数值变量资料的统计推断流行病与卫生统计学系王增珍回顾上一章内容:集中趋势指标:算术均数、中位数、几何均数离散趋势指标:全距、四分位数间距、方差、标准差、变异系数正态分布:概念、特征、面积规律、应用医学参考值估计:步骤、估计方法A.研究武汉市大一学生男性身高。B.根据某几个学校男大一学生的入学体检身高资料,推测武汉市大一学生男性身高。总体参数的估计A.经常参加锻炼的女子脉搏是否等于74次/分;B.比较来自中国广东省与河北省的一年级男大学生身高。以在武汉大学和华中科技大学的两省男生为样本,得出样本均值分别为168.2cm与169.9cm,推测总体均值是否相等。推测某个总体参数是否等于某个值或两个或两个以上的总体参数是否相等本次讲授内容均数的抽样误差t分布,t分布与u分布的区别总体均数的可信区间估计一、均数的抽样误差和标准误第一节均数的抽样误差与总体均数的估计例如,从总体均数μ为4.83×/L、标准差为0.52×/L的正态分布总体N(4.83,0.522)中,随机抽取10人为一个样本(n=10),并计算该样本的均数、标准差。如此重复抽取100次(g=100),可得到100份样本,可得到100对均数和标准差S。x正态总体μ=4.83σ=0.521.4.58,0.382.4.90,0.453.4.76,0.49┆99.4.87,0.59100.4.79,0.39S12101210XX从同一总体中抽取若干个观察单位数相等的样本并计算统计量均数,样本均数不等于总体均数(ix),样本均数之间也互不相等(jixx)。抽样误差samplingerrorofmean:由于抽样而引起的差异。0510152025304.2~4.3~4.4~4.5~4.6~4.7~4.8~4.9~5.0~5.1~5.2~红细胞数(×1012/L)频数图9-1随机抽样所得100个样本均数的分布标准误(standarderror,SE)概念:样本均数的标准差,可用于衡量抽样误差的大小。XnXSSnσ未知σ已知计算了100个样本的标准差S,由此可计算样本的标准误大小。0.38100.45100.49100.3910XXXXSSnSSnSSnSSn第1个样本=0.120第2个样本=0.142第3个样本=0.155第100个样本=0.1230.520.164410Xn100个样本均数的抽样分布特点:②100个样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。③样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。①8276.483.4X标准误的特点:当样本例数n一定时,标准误与标准差呈正比;当标准差一定时,标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。Xn0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数30nn=5n=103个抽样实验结果图示标准误的用途衡量抽样误差的大小;估计总体均数的置信区间;用于假设检验。标准误与标准差的区别与联系区别:标准误标准差定义反映抽样误差反映个体变异用途总体均数可信区间医学参考值范围进行统计学检验计算标准误、CV联系:当n一定时标准差大,标准误也大抽样实验小结样本的均数围绕总体均数上下波动。均数的标准差即标准误样本均数的标准误(StandardError)计算公式为:样本标准差/从正态总体N(μ,σ2)中抽取样本,获得均数的分布仍近似呈正态分布N(μ,σ2/n)。nS=样本含量二、t分布(t-distribution)随机变量XN(,2)标准正态分布N(0,12)u变换X均数标准正态分布N(0,12)),(2nN1,nvSXnSXtXStudentt分布自由度:n-1XnX/t-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0ν─∞(标准正态曲线)ν=5ν=1f(t)图9-1不同自由度下的t分布图t分布的特征①以0为中心,左右对称的单峰分布;②t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当趋于∞时,t分布即为u分布。概率P双侧:0.100.050.020.01自由度ν单侧:0.050.0250.010.00516.31412.70631.82163.65722.9204.3036.9659.92532.3533.1824.5415.84142.1322.7763.7474.60452.0152.5713.3654.03261.9432.4473.1433.70771.8952.3652.9983.49981.8602.3062.8963.35591.8332.2622.8213.250101.8122.2282.7643.169111.7962.2012.7183.106121.7822.1792.6813.055附表9-1t界值表pSX、、参数的估计点估计:由样本统计量直接估计总体参数区间估计:在一定置信度(Confidencelevel)下,估计总体参数可能存在的范围、、三、总体均数的可信区间估计估计正确的概率(1)称为可信度或置信度(confidencelevel),常取95%或99%。置信区间(confidenceinterval,CI)是根据一定的置信度估计得到的区间。总体均数的95%置信区间的涵义是指:从理论上来说,做100次抽样,可算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。(一)置信区间的有关概念(二)总体均数置信区间的计算未知,且n较小,按t分布已知,或未知但n足够大,按u分布1、σ未知、样本例数较小时按t分布原理,95%的t值在±t0.05/2之间,即:-t0.05/2≤t≤+t0.05/2,-t0.05/2≤XSX≤t0.05/2,移项后,X-t0.05/2XS≤μ≤X+t0.05/2XS,故总体均数μ的95%可信区间为:x-t0.05/2,νxS,x+t0.05/2,νxS例9-1随机抽取某地健康男子18人,测得空腹静脉血的甘油三酯,均数x为298mmol/L,标准差S为0.663,试估计该地男子空腹静脉血的甘油三酯总体均数的95%置信区间。本例x=1.298,S为0.663,xS=nS=18663.0=0.1563,自由度ν=n-1=18-1=17,α=0.05,查t界值表,双侧t0.05/2,17=2.110,代入公式9-6得(1.298-2.110.1563,1.298+2.110.1563)=(0.968,1.628)。该地健康男子甘油三酯总体均数的95%置信区间为(0.968,1.628)mmol/L。u0.05/2=1.962.σ未知但n较大时,按u分布计算总体均数的可信区间。双侧1-α可信区间为:3.σ已知时,总体均数双侧1-α可信区间为:u0.05/2=1.96)(2/XSuX)(2/XuX)(2/nuX=区别点总体均数可信区间参考值范围含义按预先给定的概率,确定未知参数的可能范围。实际上,一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:当=0.05时,95%CI估计正确的概率为0.95,估计错误的概率小于或等于0.05,即有95%的可能性包含了总体均数。“正常人”的解剖,生理,生化某项指标的波动范围。特征总体均数可能所在的范围个体值的波动范围计算公式未知n较小:/2,XXtS已知/2XXZ,或未知但n60:或/2XXZS正态分布:/2XZS**偏态分布:PX~P100X用途总体均数的区间估计绝大多数(如95%)观察对象某项指标的分布范围(四)总体均数可信区间与参考值范围的区别本讲小结均数的抽样误差标准误:计算公式、意义和特点t分布及其特征总体均数可信区间含义估计方法与医学参考值的区别正态曲线下面积分布规律是:A.μ±1.96δ范围内占曲线下面积的99%B.μ±1.96δ范围内占曲线下面积的95%C.μ±1δ范围内占曲线下面积的68%D.μ±2.58δ范围内占曲线下面积的95%E.μ±2.58δ范围内占曲线下面积的99%课堂练习题某市120名12岁男孩平均身高X=143.10cm,S=5.67cm,则身高在128.24-157.96cm范围内的理论频数最接近下列哪个值?A.114B.119C.64D.72E.96课堂练习题衡量抽样误差大小的统计指标是:A.标准差B.变异系数C.方差D.标准误课堂练习题关于t值有:A.与总体均数和样本均数之差成正比B.与标准误成反比C.与样本含量有关D.自由度一定时,t值愈大,P值越小E.符合正态分布课堂练习题数值变量资料的统计推断第二节假设检验的基本思想和基本步骤学习要点:1.熟悉假设检验的基本思想和步骤;2.掌握t检验和u检验的方法;(一)假设检验的基本思想—利用反证法的思想假设检验的基本思想和步骤利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。当P小于或等于预先规定的概率值α,就是小概率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设H0,认为其对立面H1成立,该结论可能犯大小为α的错误。例9.2某地抽样调查了26名男性管理人员的空腹血糖,均数为4.84mol/L,标准差为0.85mol/L。已知大量调查的一般健康成年男性空腹静脉血糖的均数为4.70mol/L。试问能否认为该地健康男性管理人员的空腹血糖的均值与一般正常健康成年男性的的均值不同?差异的原因:(1)由于抽样误差造成的.(实际上,但由于抽样误差不能很好代表)(2)该地男性管理人员的空腹血糖与一般健康成年男性空腹静脉血糖()0x00假设检验的目的就是判断差异的原因:求出由抽样误差造成此差异的可能性(概率P)有多大!若P较大(P>0.05),认为是由于抽样误差造成的。原因(1),实际上若P较小(P≤0.05),认为不是由于抽样误差造成的。原因(2),实际上>00(二)假设检验的基本步骤1.建立假设,确定检验水准2.选定检验统计方法,计算检验统计量3.确定P值,作出推断结论1、建立假设,确定检验水准H0:(无效假设)µ=µ0H1:(备择假设)µµ0(µ≠µ0)检验水准的意义及确定单、双侧检验的选择:(1)根据专业知识事先不知道会出现什么结果双侧事先知道只能出现某种结果单侧(2)问题的提法*通常用双侧(除非有充足的理由选用单侧之外,一般选用保守的双侧较稳妥)2、选定检验方法,计算检验统计量3、确定P值,作出推断结论P值:在H0成立的情况下,获得比现有统计量更极端的概率。(推断的结论=统计结论+专业结论)P>0.05,按检验水准,不拒绝H0,差异无统计学意义(差异无显著性),还不能认为……不同或不等。P≤0.05,按检验水准,拒绝H0,接受H1,差异有统计学意义(差异有显著性),可以认为……不同或不等。P≤0.01,按检验水准,拒绝H0,接受H1,差异有高度统计学意义(差异有高度显著性),可以认为……不同或不等。05.005.005.0确定P值:(用求出的t值与查表查出的t值比较)查t值表:91101,10nn250.