第六章方差分析1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理。理解总离差(SST)、组间平方和(SSR)、组内平方和或残差平方和(SSE)、组间均方差(MSR)、组内均方差(MSE)、自由度、F统计量等基本概念及其相与关系。2.掌握方差分析的过程。One-Way过程:单因素简单方差分析过程。在CompareMeans菜单项中,可以进行单因素方差分析、均值多重比较和相对比较。3.熟练进行单因素方差分析、两因素方差分析、协方差分析等操作,初步了解多元方差分析、重复测量的方差分析等操作。统计原理方差分析是一种通过分析样本资料各项差异的来源以检验三个或三个以上总体平均数是否相等或者是否具有显著性差异的方法。影响事物发展的最终结果的原因谓之因素。因素的不同水平构成了影响事物发展的条件,而对不同因素或因素的不同水平造成不同结果的研究通常采用方差分析的方法。方差分析主要用途:①均数差别的显著性检验②分离各有关因素并估计其对总变异的作用③分析因素间的交互作用④方差齐性检验。操作原理1.方差分析的基本步骤〈1〉构造检验的统计量SSR、SSE、SST,SST=SSR+SSE。〈2〉计算检验的统计量F,F=MSR/MSE。〈3〉统计决策。将统计量的值F与给定的显著性水平ɑ的临界值Fɑ进行比较,作出授受或拒绝原假设H0的决策。§6.1方差分析的常用术语●因变量(Dependent):某试验结果。●因素(Factor):影响试验结果的(自)变量。●水平:因素划分类别,即自变量取值类别。例:5个班级、四种工艺、不同年龄段。●可控因素:因素的不同水平会导致不同试验结果。●不可控因素:因素的水平与试验结果的关系是随机的,即:不确定因素。●方差分析:可控因素不同水平对试验结果影响有无差异。统计上存在两类误差:随机误差和系统误差。随机误差是指在因素同一水平(同一个总体)下,样本的各观测值之间的差异。系统误差是指在因素不同的水平(不同总体)下,各观测值之间的差异。方差分析过程首先需要确定因素(Factors)和因变量(Dependent)。例:单因素情况:经过一次考试,统计四个班级的学生的考试成绩,因变量为“成绩”,因素(自变量)为“班级”。解释:对于研究四个班级考试成绩的差异的时候,“成绩”是因变量,“班级”是因素,即:自变量。因素的不同水平对应不同自变量值。例:双因素情况:经过一次考试,统计两个班级的不同性别的学生考试成绩,因变量“成绩”:87、79、92......因素1(自变量1)“班级”:1班、2班、3班和4班因素2(自变量2)“性别”:男生、女生解释:对于研究四个班级的学生考试成绩差异的时候,“成绩”是因变量,“班级”是区分不同样本的一个因素,称为“因素1”或“自变量1”。对于研究不同性别的学生考试成绩差异的时候。“性别”是区分不同样本的因素,称为称为“因素2”或“自变量2”。两种因素的不同水平对应不同的自变量值和因变量值。方差分析就是比较不同水平下,因变量的均值差异,即检验各因素各水平作用下样本均值的差异.三、T检验与方差分析所研究的问题T检验是关于均值差异性的检验,方差分析也是关于均值差异性的检验。其不同点在于所面对的问题:T检验:关于单因素双水平的问题单因素方差分析:关于单因素多水平的问题多因素方差分析:关于多因素多水平的问题协方差分析:关于含不可控因素的问题§6.2单因素方差分析一、单因素方差分析的假设单一因素影响试验结果,该因素各水平:i=1,2,...K各水平下样本均值为:,...方差为:,...前提条件:样本正态分布,方差差异不显著,≈...零假设:均值差异不显著,≈...备择假设:至少有,≠i≠j方差分析的实质:相同方差下,正态分布样本的K种水平均值差异的检验。1x2xkx12σ22σk2σ12σ22σ1x2xixjx二、检验方法假定某单因素影响下的试验数据如下:表格中所有n×k个数据的总平均值为:μN---同一水平下个案个数,K---因素水平数。---i水平均值。μ---总个案均值。水平数样本数12…k1X11X21Xk12X12X22Xk2…NX1nX2nXkn各水平均值X1X2Xkix●计算组间离差平方和(BetweenGroupSumofSquares):i=1,2...k组间离差平方和SA,反映各水平均值差异。●计算组内离差平方和(WithinGroupSumofSquares)xij为i水平下的第j次测量总离差平方和TotalST=SA+SE21kiiAxNSμnjkiiijExxS121组间自由度:K-1组内自由度:K(N-1)=KN-K=M-K(M-总个案数)组间均方差:组内均方差:检验值F比率(FRatio)α差异不显著==P=α差异显著α通常取0.051kSMASAkMSMESESESAMMF2.单因素方差分析依次选择Analyze—CompareMeans—One-WayANOVA选择因变量到“DependentList”中选择因素(自变量)到“Factor”中按钮“contracst”为均值多项式对照分析选项。一般的均值比较都是线性齐次双项比较。即:与“Polynomial”在此选项中可以是:●Linear线性●Quadratic二次●Cubic三次●4th四次●5th五次ixjxCoefficients:添加系数,对每组的均值乘以一个系数,形成多项对比。即:例如:选定polynomial在Degree中选择:Quadratic在coefficients中输入:5,4,3,2,1这表示检验:之间的差异,即进行不同系数的均值的二次方的差异检验。可以同时建立多个多项式。一个多项式的一组系数输入结束,激话“Next”按钮,单击该按钮后“Coefficients”框中清空,准备接受下一组系数数据。215x224x233x242x25xnjnixqxp方差分析一旦确定各组均值间存在差异显著,多重比较检测可以求出均值相等的组;配对比较可找出和其它组均值有差异的组,并输出显著性水平为0.95的均值比较矩阵,在矩阵中用星号表示有差异的组。按钮“PostHoc”为不同水平多重对照分析选项,多重对照分析是对不同水平下的均值进行如下比较:当方差为齐性时,可以使用下面的14种多重检验方法:LSD最小显著差异检验(Least-significantdifference),用t检验完成各组均值间的配对比较。对多重比较误差率不进行调整。Bonferroni修正的LSD检验(LSDMOD):用t检验完成各组间均值的配对比较,但通过设置每个检验的误差率来控制整个误差率。Sidak多重配对比较检验。计算t统计量进行多重配对比较。可以调整显著性水平,比Bofferroni方法的界限要小。Scheffe同步进入的配对比较检验。R-E-G-WF:(Ryan-Einot-Gabriel-WelschF)用F检验进行多重比较检验。R-E-G-WQ(Ryan-Einot-Gabriel-Welschrangetest)正态分布范围进行多重配对比较。S-N-K各组均值配对比较检验(StudentNewman-Keuls)检验。用StudentRange分布进行所有各组均值间的配对比较。如果各组样本含量相等或者选择了“Harmonicaverageofallgroups”即用所有各组样本含量的调和平均数进行样本量估计时还用逐步过程进行齐次子集(差异较小的子集)的均值配对比较。在该比较过程中,各组均值从大到小按顺序排列,最先比较最末端的差异。Tukey真实显著差异检验(Tukey'shonestlysignificantdifference)检验。用Student-Range统计量进行所有组间均值的配对比较,用所有配对比较误差率作为实验误差率。Tukey‘s-b检验。用“stndentRange”分布进行组间均值的配对比较。其精确值为前两种检验相应值的平均值。Duncan多重范围检验(Duncan‘smultiplerangetest)。修复极差法(SSR),指定一系列的“Range”值,逐步进行计算比较得出结论。Hochberg'sGT2检验。用正态最大系数进行多重比较。Gabriel检验。用正态标准系数进行配对比较,在单元数较大时,这种方法较自由。Waller-Duncan检验。用t统计量进行多重比较检验,使用贝叶斯逼近。Dunnett检验:进行各组与对照组的均值比较。默认的对照组是最后一组。选择了该项就激活下面的“ControlCategory”参数框。展开下拉列表,可以重新选择对照组。“Test”框中列出了三种区间分别为:•“2-sides”双边检验;•“Control”左边检验•“Conbo1”“右边检验。上述各选项对应的是方差齐性的检验,如果方差非齐性时将使用下面的4种检验方法:Tamhane'sT2检验,T检验进行配对比较检验。Dunnett'sT3检验,正态分布下的配对检验检验。Games-howell检验,对应方差非齐性的检验。Dunnett'sC检验,正态分布下的配对比较检验。Significance选择项各种检验的显著性概率临界值,默认值为0.05,可由用户重新设定。[Options]描述统计选项“Statistics”栏中选择输出统计量:–Descriptive,要求输出描述统计量。选择此项输出观测量数目、均值、标准差、标准误、最小值、最大值、各组中每个因变量的95%置信区间。–Fixedandrandomeffects,描述标准离差和误差检验。–Homogeneity-of-variance,要求进行方差齐次性检验,并输出检验结果。用“Levenelest”检验,即计算每个观测量与其组均值之差,然后对这些差值进行一维方差分析。–Brown-Forsythe,布朗均值检验–Welch,威兹均值检验Meansplot,即均值散点图,根据各组均数描绘出因变量的分布情况。“MissingValues”:选择缺失值处理方法。–Excludecasesanalysisbyanalysis:被选择参与分析的变量含缺失值的观测量,从分析中剔除。–Excludecaseslistwise:对含有缺失值的观测量,从所有分析中剔除。§6.3单因变量多因素方差分析当作用在一个过程的因素不只一个时,对不同因素或因素的不同水平造成不同结果的研究将采用多因素方差分析的研究方法。一、概念研究多个因素的各个水平对试验结果的影响,以及各因素相互作用对试验的影响。因素A的水平数a,i=1,2...a因素B的水平数b,j=1,2...b重复测量次数m,k=1,2...m两个因素对过程的作用因素B因素A12…b行平均值1mxxx11112111...mxxx12122121...……bmbbxxx12111.....1x(bm个样本数的平均值)2mxxx21212211...…………………………………………………amaaaxxx11211...………………abmababxxx...21……..ax(bm个样本数的平均值)列平均值.1.x(am个样本数的平均值)…………..bx(am个样本数的平均值)(abm)计算因素A组间离差平方和计算因素B组间离差平方和因素AB交互组间离差平方和组内残差Error,离差平方和21..)(aiiAxmbS21..)(bjjBxmaS2....1.)(jiaiijbjjABxxxmS21.11)(aiijbjkmijkExxSA组间自由度:a-1B组间自由度:b-1AB交互组间自由度:(a-1)(b-1)组内自由度:ab(m-1)总离差平方和:ST=SA+SB+SAB+SE总离差方差:MT=(SA/DFA)+(SB/DFB)+(SAB/DFAB)对于三因素离差平方和:ST=SA+SB+SC+SAB+SBC+SAC+SABC+SE研究交互作用的要求:同一水