单因素方差分析(One-WayANOVA)1、问题与数据有研究者认为,体力活动较多的人能更好地应对职场的压力。为了验证这一理论,某研究招募了31名受试者,测量了他们每周进行体力活动的时间(分钟),以及应对职场压力的能力。根据体力活动的时间数,受试者被分为4组:久坐组、低、中、高体力活动组,变量名为group。利用Likert量表调查的总得分来评估应对职场压力的能力,分数越高,表明应对职场压力的能力越强,变量名为coping_stress。应对职场压力的能力,可以简写为CWWS得分。研究者想知道,CWWS得分的高低是否取决于体力活动的时间,即coping_stress变量的平均得分是否随着group变量的不同而不同(部分数据如右图)2、对问题的分析研究者想分析不同group间的coping_stress得分差异,可以采用单因素方差分析。单因素方差分析适用于2种类型的研究设计:1)判断3个及以上独立的组间均数是否存在差异;2)判断前后变化的差值是否存在差异。使用单因素方差分析时,需要考虑6个假设。假设1:因变量为连续变量;假设2:有一个包含2个及以上分类、且组别间相互独立的自变量;假设3:每组间和组内的观测值相互独立;假设4:每组内没有明显异常值;假设5:每组内因变量符合正态分布;假设6:进行方差齐性检验,观察每组的方差是否相等。那么,进行单因素方差分析时,如何考虑和处理这6项假设呢?3、思维导图4、对假设的判断假设1:因变量为连续变量;假设2:有一个包含2个及以上分类、且组别间相独立的自变量;假设3:每组间及组内的观测值相互独立。•和研究设计有关,需根据实际情况判断。假设4:每组内没有明显异常值。•如果某个组别中的某些因变量取值和其他值相比特别大或者特别小,则称之为异常值。异常值会影响该组的均数和标准差,因此会对最终的统计检验结果产生很大的负面影响。对于小样本研究,异常值的影响尤其显著,必须检查每组内是否存在明显异常值。•以下将说明如何在SPSS中利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的几种处理方法。(1)在主菜单点击AnalyzeDescriptiveStatisticsExplore...:出现右图Explore对话框:利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的几种处理方法(2)把因变量coping_stress送入DependentList框中,把自变量group送入FactorList框中:(3)点击Plots...,出现Explore:Plots对话框:(4)在Boxplots模块内保留系统默认选项Factorlevelstogether,在Descriptive模块内取消选择Stem-and-leaf,在下方勾选Normalityplotswithtests(执行Shapiro-Wilk's检验):点击Continue,返回Explore对话框。(5)在Display模块内点击Plots:如果使用偏度和峰度(skewnessandkurtosis)进行正态性判断,则保留Display模块内的默认选项Both或者选择Statistics。(6)点击OK,输出结果。根据如下输出的箱线图,判断每个组别内是否存在异常值。SPSS中将距离箱子边缘超过1.5倍箱身长度的数据点定义为异常值,以圆点表示;将距离箱子边缘超过3倍箱身长度的数据点定义为极端值(极端异常值),以星号(*)表示。为容易识别,在DataView窗口异常值均用其所在行数标出。本例数据箱线图无圆点或星号,因此无异常值。假如数据中存在异常值和极端异常值,其箱线图如右:箱线图是一种比较简单和流行的异常值检验方法,当然同样存在一些更为复杂的方法,这里不过多介绍。如何处理数据中存在的异常值异常值的处理方法分为2种:(1)保留异常值:1)采用非参数Kruskal-WallisH检验;2)用非最极端的值来代替极端异常值(如用第二大的值代替);3)因变量转换成其他形式;4)将异常值纳入分析,并坚信其对结果不会产生实质影响。(2)剔除异常值:直接删除异常值很简单,但却是没有办法的办法。当我们需要删掉异常值时,应报告异常值大小及其对结果的影响,最好分别报告删除异常值前后的结果。而且,应该考虑有异常值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。导致数据中存在异常值的原因有3种:(1)数据录入错误:首先应该考虑异常值是否由于数据录入错误所致。如果是,用正确值进行替换并重新进行检验;(2)测量误差:如果不是由于数据录入错误,接下来考虑是否因为测量误差导致(如仪器故障或超过量程);(3)真实的异常值:如果以上两种原因都不是,那最有可能是一种真实的异常数据。这种异常值不好处理,但也没有理由将其当作无效值看待。目前它的处理方法比较有争议,尚没有一种特别推荐的方法。需要注意的是,如果存在多个异常值,应先把最极端的异常值去掉后,重新检查异常值情况。这是因为有时最极端异常值去掉后,其他异常值可能会回归正常。如果样本量较小(50),并且对正态Q-Q图或其他图形方法的结果诠释不够有把握,推荐采用Shapiro-Wilk检验。每组自变量都会有一个Shapiro-Wilk正态性检验结果。本例结果见如下TestsofNormality表格。假设5:每组内因变量符合正态分布正态性检验有很多方法,这里只介绍最常用的一种:Shapiro-Wilk正态性检验(其他还有偏度和峰度值、直方图等)。在假设4的判断中,我们在Explore:Plots对话框中勾选了Normalityplotswithtests,输出结果中会给出Shapiro-Wilk检验的结果。如果样本量大于50,推荐使用正态Q-Q图等图形方法进行正态判断,因为当样本量较大时,Shapiro-Wilk检验会把稍稍偏离正态分布的数据也标记为有统计学差异,即数据不服从正态分布。如果数据符合正态分布,显著性水平(蓝框中的Sig.)应该大于0.05。Shapiro-Wilk检验的无效假设是数据服从正态分布,备择假设是数据不服从正态分布。因此,如果拒绝无效假设(P0.05),表示数据不服从正态分布;如果不能拒绝无效假设,则不能认为数据不服从正态分布。本例中每组正态性检验P值均大于0.05,因此不能认为每组因变量不服从正态分布。假设6:进行方差齐性检验,观察每组的方差是否相等。在第五部分SPSS操作中进行判断。如果数据不服从正态分布,可以有如下4种方法进行处理:(1)数据转换:对转换后呈正态分布的数据进行单因素方差分析。当各组因变量的分布形状相同时,正态转换才有可能成功。对于一些常见的分布,有特定的转换形式,但是对于转换后数据的结果解释可能比较复杂。(2)使用非参数检验:可以使用Kruskal-WallisH检验等非参数检验方法,但是要注意Kruskal-WallisH检验和单因素方差分析的无效假设和备择假设不太一致。(3)直接进行分析:由于单因素方差分析对于偏离正态分布比较稳健,尤其是在各组样本量相等或近似相等的情况下,而且非正态分布实质上并不影响犯I型错误的概率。因此可以直接进行检验,但是结果中仍需报告对正态分布的偏离。(4)检验结果的比较:将转换后和未转换的原始数据分别进行单因素方差分析,如果二者结论相同,则再对未转换的原始数据进行分析。(1)点击AnalyzeCompareMeansOne-WayANOVA:5、SPSS操作出现One-WayANOVA对话框:5.1单因素方差分析(ONEWAYprocedure)→事后两两比较(posthoctest)(2)把因变量coping_stress送入DependentList框中,自变量group送入Factor框中:(3)点击Options,出现One-WayANOVA:Options对话框:(4)在Statistics模块勾选Descriptive,Homogeneityofvariancetest和Welch,同时勾选Meansplot:(5)点击Continue,返回One-WayANOVA对话框。(6)点击PostHoc,出现One-WayANOVA:PostHocMultipleComparisons对话框:对话框根据方差齐性检验的假设是否满足,分为2个主要区域:(7)在EqualVariancesAssumed模块内勾选Tukey,在EqualVariancesNotAssumed模块内勾选Games-Howell:(8)可以在Significancelevel框中修改显著性水平的大小(系统默认为0.05,表示当P0.05时差异具有统计学意义,可以将其数值修改为0.01)。注:在EqualVariancesAssumed模块内SPSS提供了许多两两比较的方法。例如,LSD法为“最小显著差数法”,是在无校正的前提下,在不同组间进行多次两个独立样本t检验;Bonferroni法是比较流行的方法,同LSD法类似在多组间进行两个独立样本t检验,但是采用了Bonferroni法进行校正。(9)点击Continue,返回One-WayANOVA对话框。(10)点击OK,输出结果。出现Univariate对话框:(1)点击AnalyzeGeneralLinearModelUnivariate...5.2一般线性模型(GLMprocedure)求效应量(偏η2)(2)把因变量coping_stress送入DependentList框中,自变量group送入FixedFactor(s)框中(3)点击Options...,出现Univariate:Options对话框:(4)在Display模块内勾选Estimatesofeffectsize:(6)点击OK,输出结果。(5)点击Continue,返回Univariate对话框。(1)点击AnalyzeGeneralLinearModelUnivariate...5.3一般线性模型(GLMprocedure)→自定义组间比较(customcontrasts)如果只关心特定组别间的差异,你需要知道如何进行自定义比较(customcontrasts),以及如何对多重比较结果进行调整,这就要用到SPSS软件中的SyntaxEditor窗口编写相应程序语句。当满足方差齐性条件时,推荐采用GLM程序进行自定义组间比较。(2)把因变量coping_stress送入DependentList框中,自变量group送入FixedFactor(s)框中出现Univariate对话框:(3)点击Paste,出现IBMSPSSStatisticsSyntaxEditor窗口:(4)在/PRINT和/CRITERIA两行中间,输入/LMATRIX=group-1100本例中久坐组系数为-1,“低”体力活动组系数为1,其他组别均为0,则是要比较久坐组和“低”体力活动组的CWWS得分差异,看二者的平均CWWS得分差值是否为0(用“低”体力活动组得分减去久坐组得分,即系数为1的组别减去系数为-1的组别,以系数为-1的组别为参照组,系数赋值的正负与研究设计和研究假设有关)。注:自定义比较包括了简单比较(simplecontrasts)和复合比较(complexcontrasts)。简单比较为只比较自变量某两个组别间的差异,需要建立线性比较函数(linearcontrast,φ)。它包含一系列系数和每个组别对应的均数,系数取值只能为1,-1,0。我们把要比较的两组的系数分别赋值为1和-1,其他不比较的组别系数赋值为0。/LMATRIX=旨在告诉SPSS我们要做一个自定义假设;group表示将要进行比较的自变量组别;-1100表示要进行比较的系数,系数的顺序和SPSS里输入的组别顺序有关:这里从左到右(-1100)分别对应着久坐组、“低”、“中”和“高”体力活动组,表示将“低”体力活动组与久坐组进行比较。(5)用/LMATRIX指令增加另外2种比较:/LMATRIX=g