2020/4/7医学统计学--供研究生用1第四章多个样本均数比较的方差分析Analysisofvariance(ANOVA)2方差分析方差分析的基本思想完全随机设计的单因素随机区组设计的两因素方差分析交叉设计的方差分析多个样本均数间的多重比较3第一节方差分析的基本思想用途:检验3组及以上总体均数是否相等。通过分析处理组均数之间的差别,推论它们所代表的k个总体均数间是否存在差别,或k个处理组间的差别是否具有统计学意义。因因素素水水平平11水水平平22水水平平33合合计计XX1111XX2211XX3311XX1122XX2222XX3322┇┇┇┇┇┇XX11nn11XX22nn22XX33nn33nn11nn22nn33NN==ΣΣnnii1X2X3XNXXijμμ11μμ22μμ33μμ4总变异=组间变异+组内变异表糖尿病患者、IGT异常及正常人的载脂蛋白测定结果糖尿病IGT正常人85.7096.00144.00105.20124.50117.00………111.0099.00159.00106.50120.00115.00均数105.45(11)102.39(9)122.80(10)X=110.35全部实验结果存在三种不同的变异总变异:全部实验数据大小不等。变异的大小用观察值与总均数的离均差平方和表示,记为SS总组间变异:各处理组的样本均数也大小不等,变异的大小用各组均数与总体均数的离均差平方和表示,记为SS组间。组内变异:各处理组内部观察值也大小不等,可用各处理组内部每个观察值与组均数的离均差平方和表示。记为SS组内。6总变异=组间变异+组内变异211kinjijiXXSS总总变异:211kinjiijiXXSS组内组间变异:21kiiiXXnSS组间组内变异:总=N-1组间=k-1组内=N-k7F=MS组间/MS组内如果:各样本均数来自同一总体(H0:m1m2mk),即各组均数之间无差别。则:组间变异与组内变异均只能反映随机误差,此时:F值应接近1。反之,若各样本均数不是来自同一总体,组间变异应较大,F值将明显大于1,则不能认为组间的变异仅反映随机误差,也就是认为处理因素有作用。8F值要到多大才有统计学意义呢?在各样本来自正态总体,各样本所来自的总体方差相等的假定之下,当H0成立时,检验统计量F服从自由度组间=k-1,组内=N-k的F分布,表示为:F~F(组间,组内)可由F界值表查出在某一水准下F分布的单尾界值F。当FF(组间,组内),P。F9方差分析的基本思想根据资料的设计类型,将全部观察值总的离均差平方和及自由度分解为两个或多个部分,除随机误差(如SS组内)外,其余每个部分的变异(如SS组间)可由某个因素的作用(或某几个因素的交互作用,如A因素×B因素)加以解释。通过比较不同变异来源的均方,借助F分布作出统计推断,从而了解该因素对观测指标有无影响。10方差分析对数据的基本假设(方差分析的应用条件)任何两个观察值之间均不相关每一水平下的观察值均来自正态总体各总体方差相等,即方差齐性(homogeneityofvariance)11第二节完全随机设计资料的单因素方差分析在实验研究中,将受试对象随机分配到一个研究因素的多个水平中去,然后观察实验效应。在观察研究中,按某个因素的不同水平分组,比较该因素的效应。如比较糖尿病患者,IGT异常和正常人的载脂蛋白有无差别(人群这个研究因素分为3个水平)。如将30名乙型脑炎患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗(药物这个研究因素分为3个水平),观察治疗后的退热时间。12一、完全随机设计如何随机分组?如欲将24只小白鼠随机分为3组。方法如下:首先,将小白鼠1~24编号利用随机数字表(附表15,p832)依次读取两位数作为一个随机数字录于编号下,将全部随机数从小到大编序号规定序号:1~8甲组;9~16乙组;17~24为丙组13二、变异分解:例:某社区随机抽取了30名糖尿病患者(11例),IGT异常(9例)和正常人(10例)进行载脂蛋白(mg/dL)测定,问三种人的载脂蛋白有无差别?141.完全随机设计方差分析中变异的分解总变异=组间变异+组内变异表糖尿病患者、IGT异常及正常人的载脂蛋白测定结果糖尿病IGT正常人85.7096.00144.00105.20124.50117.00………111.0099.00159.00106.50120.00115.00均数105.45(11)102.39(9)122.80(10)X=110.3152.分析计算步骤建立检验假设和确定检验水准H0:三种人载脂蛋白的总体均数相等,即m1m2m3H1:三种人载脂蛋白的总体均数不全相等=0.05计算检验统计量F值16表糖尿病患者、IGT异常及正常人的载脂蛋白测定结果糖尿病IGT正常人85.7096.00144.00105.20124.50117.00………111.0099.00159.00106.50120.00115.00∑Xij116011105.45123509.5912.59102.3996045.412283309.51030122.80110.3153420372974.9niX∑Xij217表糖尿病患者、IGT异常及正常人的载脂蛋白测定结果糖尿病IGT正常人∑Xij116011105.45123509.5912.59102.3996045.412283309.51030122.80110.3153420372974.9niX∑Xij2C=3309.52/30=365093(校正数)SS总=372974.87-365093=7881.87SS组间=11602/11+921.52/9+12282/10-365093=2384.03SS组内=SS总-SS组间=7881.87-2384.03=5497.8418表完全随机设计资料的方差分析表变异来源离均差平方和SS自由度ν均方MSF值组间)SS组间g-1组间组间SS组内组间MSMS组内SS组内N-g组内组内SS总SST=SS组间+SS组内N-119确定P值和作出推断结论查附表3F界值表(P806),1=2,2=27F0.05(2,27)=3.35,F0.01(2,27)=5.49本例F=5.85F0.01(2,27),故P0.01。可认为三种人的载脂蛋白不同。方差分析计算表变异来源SSMSFP组间2384.0321192.015.850.01组内5497.8427203.62总7811.872920以上结论表明总的来说三种人的载脂蛋白有差别,但并不表明任何两种人的载脂蛋白均有差别。要了解哪些组均数间有差别,需进一步作两两比较。当k=2时,对同一资料,F=t2。21SPSS操作与结果解释完全随机设计的单因素方差分析221.建立SPSS数据工作表g:分组(1:糖尿病;2:IGT;3:正常人)X:载脂蛋白表糖尿病患者、IGT异常及正常人的载脂蛋白测定结果糖尿病IGT正常人85.7096.00144.00105.20124.50117.00………111.0099.00159.00106.50120.00115.00均数105.45(11)102.39(9)122.80(10)一、完全随机设计方差分析的SPSS232.选用SPSS过程24One-wayANVOA对话框将x选入DependentList栏,g选入Factor栏25单击Options…按钮26选择Descriptive,Homogeneity…单击Continue返回单击PostHoc…按钮27单击OK按钮运行ANOVA过程283.结果解释三组均数(mg/dL)依次为:正常人(122.80)、糖尿病患者(105.46)和IGT患者(102.39)。Descriptives载脂蛋白11105.45510.8733.27898.150112.75985.7125.69102.38914.5524.85191.204113.57476.4124.510122.80017.0675.397110.591135.009103.0159.030110.31716.4863.010104.161116.47376.4159.0糖尿病IGT正常人TotalNMeanStd.DeviationStd.ErrorLowerBoundUpperBound95%ConfidenceIntervalforMeanMinimumMaximum29经方差齐性检验,P=0.548,按=0.05水准,还不能认为3个总体方差不等。TestofHomogeneityofVariances载脂蛋白.615227.548LeveneStatisticdf1df2Sig.30经完全随机设计的单因素方差分析,F=5.85,P=0.008,可认为三种人的载脂蛋白不同。ANOVA载脂蛋白2384.02621192.0135.854.0085497.83627203.6247881.86229BetweenGroupsWithinGroupsTotalSumofSquaresdfMeanSquareFSig.31第三节随机区组设计的方差分析(randomizedblockdesign,two-wayANOVA)亦称配伍组设计,是配对设计的扩大。例对小白鼠喂以A、B、C三种不同的营养素,目的是了解不同营养素增重的效果。采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。三周后体重增量结果(克)列于下表。问小白鼠经三种不同营养素喂养后所增体重有无差别?32一、随机区组设计如何分组:先将全部受试对象按某种或某些特征分为若干个区组(block),使每个区组内的观察对象随机地接受研究因素某一水平的处理。由于区组内的个体特征比较一致,减少了个体差异对结果的影响。33表A、B、C三种营养素喂养小白鼠所增体重区组号A营养B营养C营养均数150.1058.2064.5057.60Xij247.8048.5062.4052.90…761.9053.0051.2055.37842.2039.8046.2042.73均数53.9053.9559.1455.6634二、变异分解1.随机区组设计方差分析中变异的分解:SS总=SS处理+SS区组+SS误差35SS总=SS处理+SS区组+SS误差表A、B、C三种营养素喂养小白鼠所增体重区组号A营养B营养C营养均数150.1058.2064.5057.60Xij247.8048.5062.4052.90…761.9053.0051.2055.37842.2039.8046.2042.73均数53.9053.9559.1455.66362.分析计算步骤建立检验假设和确定检验水准H0:三种营养素喂养的小白鼠体重增量相等,即m1m2m3H1:三种营养素喂养的小白鼠体重增量不全相等=0.05计算检验统计量F值37表随机区组设计方差分析的计算公式变异来源离均差平方和SS自由度ν均方MSF值处理间(A)SSAk-1AASSEAMSMS区组间(B)SSBn-1BBSSEBMSMS误差(E)总SSESST=SSA+SSB+SSE(k-1)(n-1)N-1EESS38表方差分析结果变异来源SSMSFP处理间144.92272.462.980.05区组间2376.387339.4813.960.01误差340.541424.32总2861.842339确定P值和作出推断结论:F0.05(2,14)=3.74,P0.05。尚不能认为三种营养素喂养的小白鼠体重增量有差别。F0.01(7,14)=4.28,P0.01。可认为8个区组的小白鼠体重增量有差别,即遗传因素对小白鼠体重增量有影响(但一般更关注处理组间差别的假