方差分析(ANOVA)1Y1n2Y2n3Y3n4Y4n例子:某研究者在某单位工作人员中进行了体重指数(BMI)抽样调查,随机抽取不同年龄组男性受试者各16名,测量了被调查者的身高和体重值,由此按照BMI=体重/身高2公式计算了体重指数,请问,不同年龄组的体重指数有无差异。项目18~岁30~岁45~60岁21.6527.1520.2820.6628.5822.88………………18.8223.9326.49样本量161616平均值22.0725.9425.49标准差8.978.117.19一、方差分析的基本思想5组间变异总变异组内变异思想来源:观察值总变异可以分解为组间变异和组内变异61.总变异(Totalvariation):全部测量值Xij与总均数间的差异2.组间变异(betweengroupvariation):各组的均数与总均数间的差异3.组内变异(withingroupvariation):每组的每个测量值与该组均数的差异可用离均差平方和反映变异的大小XiXXijXiX1.总变异:所有测量值之间总的变异程度,SS总1N总kinjijTiXXSS112)(2.组间变异:各组均数与总均数的离均差平方和,SS组间1a组间SS组间反映了各组均数的变异程度组间变异=①随机误差+②处理因素效应21)(XXnSSikiiTRiXNa组内3.组内变异:用各组内各测量值Xij与其所在组的均数差值的平方和来表示,SS组内SS组内反映随机误差的影响(个体差异和测量误差)。211)(ikinjijeXXSSi均方差,均方(meansquare,MS)变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不相等,因此各部分离均差平方和不能直接比较,须将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(meansquare,MS)。组间均方和组内均方的计算公式为:SSMS组间组间组间SSMS组内组内组内1n2n3nVS1n2n3n1Y2Y3Y2Y3Y1Y1n2n3n1n2nVS3Y1Y2Y2Y3Y1Y组间均方与组内均方比值越小,样本越可能来源于同一个总体,比值越大,样本越可能不是来源于一个总体二、F值与F分布,如果各组样本的总体均数相等(H0成立),即各处理组的样本来自相同总体,无处理因素的作用,则组间变异同组内变异一样,只反映随机误差作用的大小。组间均方与组内均方的比值称为F统计量F值接近于1,就没有理由拒绝H0;反之,F值越大,拒绝H0的理由越充分。数理统计的理论证明,当H0成立时,F统计量服从F分布。…MSFMS组间组内1组间2组内0.00.20.40.60.81.01.21.401234Ff(F)F分布曲线10,10215,1215,52122121122/22/12121121)(222)(FFFf回忆t分布和t检验1718F界值表二、完全随机设计方差分析(单因素方差分析)关于因素与水平因素也称为处理因素(factor)每一处理因素至少有两个水平(level)(也称“处理组”)。完全随机设计:将实验对象随机分配到不同处理组的单因素设计方法。针对一个处理因素,通过比较该因素不同水平组均值,推断该处理因素不同水平组的均值是否存在统计学差异。例在评价某药物耐受性及安全性的I期临床试验中,对符合纳入标准的30名健康自愿者随机分为3组每组10名,各组注射剂量分别为0.5U、1U、2U,观察48小时部分凝血活酶时间(s)试问不同剂量的部分凝血活酶时间有无不同?方差分析步骤:(1)提出检验假设,确定检验水准H0:μ1=μ2=μ3H1:μ1,μ2,μ3不全相同a=0.05(2)计算检验统计量F值(3)确定P值,做出推断结论F0.05(2,26)=2.52,FF0.05(2,26),P0.05,拒绝H0。三种不同剂量48小时部分凝血活酶时间不全相同。例子:某研究者在某单位工作人员中进行了体重指数(BMI)抽样调查,随机抽取不同年龄组男性受试者各16名,测量了被调查者的身高和体重值,由此按照BMI=体重/身高2公式计算了体重指数,请问,不同年龄组的体重指数有无差异。项目18~岁30~岁45~60岁21.6527.1520.2820.6628.5822.88………………18.8223.9326.49样本量161616平均值22.0725.9425.49标准差8.978.117.19方差分析适合于任何多组独立均衡可比的数据基本步骤(1)建立假设,确定检验水准H0:三个总体均数相等,即三组工作人员的体重指数总体均数相等H1:三个总体均数不等或不全相等a=0.05(2)计算检验统计量F值变异来源SS自由度(df)MSF组间143.406271.7038.87组内363.86458.09总变异507.3647(3)确定p值,作出统计推断P2,45=3.20-3.218.87,本次F值处于F界值之外,说明组间均方组内均方比值属于小概率事件,因此拒绝H0,接受H1,三个总体均数不等或不全相等方差分析的关键条件第一、各组服从正态分布!第二、各组符合方差齐性!第三、独立性方差齐性检验Bartlett检验法LeveneF检验最大方差与最小方差之比3,初步认为方差齐同。问题:不符合条件怎么办?第一招:数据转换方差齐性转换;正态性转换第二招:特别分析方法非参数检验三、多个样本均数的两两比较方差分析能说明什么问题?不拒绝H0,表示拒绝总体均数相等的证据不足分析终止拒绝H0,接受H1,表示总体均数不全相等哪两两均数之间相等?哪两两均数之间不等?需要进一步作多重比较能否用T检验呢当有k个均数需作两两比较时,比较的次数共有c==k!/(2!(k-2)!)=k(k-1)/2设每次检验所用Ⅰ类错误的概率水准为α,累积Ⅰ类错误的概率为α’,则在对同一实验资料进行c次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积Ⅰ类错误概率α’与c有下列关系:α’=1-(1-α)c例如,设α=0.05,c=3(即k=3),其累积Ⅰ类错误的概率为α’=1-(1-0.05)3=1-(0.95)3=0.143多重比较的方法:SNK检验(q检验):探索性研究,进行两两比较。LSD-t检验:证实性检验,可认为LSD法是最灵敏的Turkey检验方法,探索性研究,要求样本量相同。Duncan检验方法,探索性研究Dunnet检验方法,证实性检验,常用于多个试验组与一个对照组间的比较。例1在肾缺血再灌注过程的研究中,将36只雄性大鼠随机等分成三组,分别为正常对照组、肾缺血60分组和肾缺血60分再灌注组,测得各个体的NO数据见数据文件no.sav,试问各组的NO平均水平是否相同?单因素方差分析分析:对于单因素方差分析,其资料在SPSS中的数据结构应当由两列数据构成,其中一列是观察指标的变量值,另一列是用以表示分组变量。实际上,几乎所有的统计分析软件,包括SAS,STATA等,都要求方差分析采用这种数据输入形式,这一点也暗示了方差分析与线性模型间千丝万缕的联系。单因素方差分析预分析(重要):检验其应用条件单因素方差分析选择data中的splitfile,出现如下对话框:单因素方差分析单因素方差分析单因素方差分析这里仅取其中一组结果,表明该资料符合分组正态性的条件。单因素方差分析注意分组检验正态性后,要先回到data菜单下的splitfile,如下操作取消拆分后才能进行后续的方差分析:单因素方差分析单因素方差分析选入分组变量选入因变量给出各组间样本均数的折线图指定进行方差齐性检验单因素方差分析结果分析单因素方差分析(1)方差齐性检验Levene方法检验统计量为3.216,其P值为0.053,可认为样本所来自的总体满足方差齐性的要求。TestofHomogeneityofVariancesno3.216233.053LeveneStatisticdf1df2Sig.单因素方差分析结果分析(2)方差分析表第1列为变异来源,第2、3、4列分别为离均差平方和、自由度、均方,检验统计量F值为5.564,P=0.008,组间均数差别统计学意义,可认为各组的NO不同。ANOVAno46925.950223462.9755.564.008139157.6334216.898186083.635BetweenGroupsWithinGroupsTotalSumofSquaresdfMeanSquareFSig.变异来源单因素方差分析结果分析(3)各组样本均数折线图Meansplots选项给出,更直观。注意:当分组变量体现出顺序的趋势时,绘制这种折线图可以提示我们选择正确的趋势分析模型。通过以上分析得到了拒绝H0的结论,但实际上单因素方差分析并不这样简单。在解决实际问题时,往往仍需要回答多个均数间到底是哪些存在差异。虽然结论提示不同组别个体的NO量不同,但研究者并不知道到底是三者之间均有差别,还是某一组与其他两组有差别。这就应当通过两两比较(多重比较)进行考察。均数两两比较方法直接校正检验水准(相对粗糙)专用的两两比较方法:计划好的多重比较(PlannedComparisons)非计划的多重比较(Post-HocComparisons)均数两两比较方法Contrasts按钮PostHoc按钮点击单因素方差分析主对话框中的PostHoc按钮,总共有14种两两比较的方法,如下:均数两两比较方法LSD法:最灵敏,会犯假阳性错误;Sidak法:比LSD法保守;Bonferroni法:比Sidak法更为保守一些;Scheffe法:多用于进行比较的两组间样本含量不等时;Dunnet法:常用于多个试验组与一个对照组的比较;S-N-K法:寻找同质亚组的方法;Turkey法:最迟钝,要求各组样本含量相同;Duncan法:与Sidak法类似。均数两两比较方法仍以例1为例,LSD法的输出格式:均数两两比较方法结果分析仍以例1为例,SNK法的输出格式:结果分析均数两两比较方法该方法的目的是寻找同质子集,故各组在表格的纵向上,均数按大小排序,然后根据多重比较的结果将所有的组分为若干个子集,子集间有差别,子集内均数无差别。当各组样本含量不同,选择Scheffe法,得结果:均数两两比较方法结果分析MultipleComparisonsDependentVariable:noScheffe13.6125026.51068.877-54.338981.563982.48167*26.51068.01414.5303150.4330-13.6125026.51068.877-81.563954.338968.86917*26.51068.046.9178136.8205-82.48167*26.51068.014-150.4330-14.5303-68.86917*26.51068.046-136.8205-.9178(J)group231312(I)group123MeanDifference(I-J)Std.ErrorSig.LowerBoundUpperBound95%ConfidenceIntervalThemeandifferenceissignificantatthe.05level.*.假设在调查的设计阶段,就计划好了第二组和第一组,以及第三组和第一组的比较,可以使用主对话框中的contrast按钮实现。在coefficients后面的框中输入1,-1,0,每次输入后点击add,就可以比较第一组和第二组的NO;再点击next按钮,继续输入下一个组合,即0,-1,1。均数两两比较方法均数两两比较方法结果分析可见,第一个组合无统计学意义,而第二个组合有显著性差异。ContrastCoefficients1-1010-1Contrast12123groupContrast