第一节-方差分析原理

amelia1111
1 ℃
2020-05-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一节方差分析原理一、方差分析基本思想方差分析（analysisofvariance，或缩写ANOVA）又称变异数分析，是一种应用非常广泛的统计方法。其主要功能是检验两个或多个样本平均数的差异是否有统计学意义，用以推断它们的总体均值是否相同。它是真正用来进行上述“多组比较”问题的正确方法，从这个意义上说，它可看成是t检验等“两组比较法”的推广。理解方差分析的原理，主要在于其基本思想，而不在于数学推导。以单因素完全随机化实验设计为例（这是最简单的多组实验设计）介绍方差分析的原理。注意下面列出的该种设计的数学模式，假设有k个处理，每个处理下有n个被试，一共有nk个被试。K个处理下的数据构成比较中的k个组或k个样本。处理T1T2…Tj…Tk各组数据X11X21…Xi1…Xn1X12X22…Xi2…Xn2………………X1jX2j…Xij…Xnj………………X1kX2k…Xik…Xnk不失一般地，其对应的图示如下：根据测量学中的真分数理论，观测值等于真值和误差之和；据此，对照上面的数据可得到下面的数学模型：其中：Xij指第j个处理下的第i个被试的实验数据；μ指总体均值；在图中样本数据中，即红色线表示的总平均；μj指第j个处理的均值；τj称为第j个处理的效应；通常，τj=μj–μ，也即各组均值偏离总平均的离差；εij为随机误差（idd表示误差独立同分布）；在该模型中，误差就是各组中数据偏离其组均值的离差。因为根据单因素完全随机化设计的特点，同组中的被试，其各方面条件都相同，接受的处理也相同，其观测值间的差异只能归结为随机误差。首先对检验的零假设进行变换：下面我们就需要构造一个统计量使得它在Ho下无未知量且有精确的分布，以进行假设检验。由于τ2j是每个处理的平均数与总平均之差，所以我们考虑从数据的离均差的平方入手来构造统计量：对每个观测数据：即：任意一个数据与总平均数的离差=该数与所在组平均数的离差+所在组的平均数与总平均数的离差。我们针对第j组中每个数据的上述分解式的平方求和得：再对所有组求和得：显然，上式左端的表达式就是将所有k个样本数据混在一起时所得总方差的分子部分，称总平方和，记为SSt(sumofsquare,total)；右端第一式是在各组内计算得到的各组方差的分子部分，由于它度量的实际上是所有数据与其所在组均值的离差平方和，故称之为组内平方和，记为SSw(withingroup)，根据上述的模型，它的含义也就是误差平方和；右端第二式度量的是各组的效应平方和，称组间平方和（之所以有n倍，是因为每组中的效应被重复累加了n次），记为SSb(betweengroup)。上式简记为：SSt=SSb+SSw。此公式是和上述单因素完全随机化设计的数学模型相对应的。接下来的问题实际上是利用F检验进行方差比检验，即比较组间变异（方差或均方）和组内变异的相对大小。因此，分别将上述平方和比各自的自由度得到组间方差（记为MSb）和组内方差（记为MSw或MSe）。方差分析假定各处理方差相等，则各处理样本的方差S21、S22，…，S2m都是处理总体方差σ2的无偏估计量。各处理方差合成后估计精度更高（下式）。同时，MSb也是σ2的无偏估计量。则有：直观地看，要检验的就是F值是否显著地大于1，若大于1，说明组间变异中尚存在随机误差之外的显著变异；否则说明组间变异和随机误差差不多，也即接受无差异零假设。从上面的推导过程看到，方差分析实际上是将实验数据的总变异分解成若干个不同来源的分量（对于单因素完全随机化实验设计来说是分解成组间差异所引起的变异和组内误差所引起的变异），即将总的离均差平方和分解成几个不同来源的平方和，然后比较我们研究的那些因素所引起的变异与误差变异的显著性。其核心一是根据具体实验设计确定变异源分解模型；二是构造方差比进行F检验。二、方差分析的基本条件进行方差分析时有一定的条件限制，数据必须满足以下几个基本假定：总体正态性。要求样本必须来自正态分布总体，而总体是否服从正态分布可以采用卡方检验中的拟合性检验进行判断（参见第八章有关内容）。不过在心理与教育研究领域中，大多数变量是可以假定其总体服从正态分布的，因此一般在进行方差分析时并不需要去检验总体分布的正态性；而且研究表明数据正态性对于方差分析结果的影响不是太大。方差齐性。在前面的推导过程中，将MSw作为总体组内方差的估计值，而计算MSw时相当于将各处理（组）方差合成，这种合成正如T检验一节所讲一样，显然要求一个前提就是各组的方差无显著的差异。方差齐性检验有许多方法，如教材介绍的哈特莱(Hartley)法、Levene氏方差齐性检验等。第二节两类单因数方差分析作为方差分析的基础，首先要了解实验设计的有关知识。方差分析法的复杂之处在于不同的实验设计，其方差分析过程可能是不同的。如上所述，不同的实验设计，方差分析过程的首要区别是因变量总变异的分解方式不同，所关心的效应种类不同；而在构造方差比计算F值时总是以被检验因素或效应的均方（如上面的组间均方）作分子，以误差均方作分母（单侧检验）。所有形式的方差分析都是如此。有几个可能的效应，就应当进行几次F检验，每次检验的F统计量中的误差均方可能不尽相同。一、实验设计基本概念1、自变量、因变量、无关变量、随机误差自变量(independentvariable)是研究者可以系统地改变或操纵的变量。自变量可以是被试自身的条件，如年龄、智力，也可以是外在环境的刺激，如学习材料、光线的强度、教学方法、错觉实验中的夹角，还可以是用来预测其它行为的行为——高中的学业成绩来预测大学的成绩。在方差分析中也称自变量为因素或因子(factor)，通常方差分析只能处理名义型的质量因子，如性别、教学方法等；若自变量为等距或等比类型的数量因子，如光线的强度、夹角等，通常可以在具体实验中将其人为地只取几个代表值，转化成质量因子。而对于完全连续型的数量因子则必须借助于协方差分析（analysisofcovariance，ANCOVA）。因变量(dependentvariable)是实验中加以精确测量以便决定自变量效应的变量，即由自变量引起的实验体的变化。比如成绩、遗忘量、错觉量，反应时等。无关变量(irrelevantvariable)是自变量以外的其它可能引起因变量变化的变量。随机误差(randomerror)在这里定义成测量或实验所得的分数与真分数之间的差异。如以同一智力测验对同一个体测量数次或对同一个体施以不同智力测验，所测结果不尽相同，在理论上该个体的真智力只有一个分数，而测得的却有数个分数，测得分数与真分数之间的差异，即为随机误差。上述四个概念之间的关系可以表示为：因变量=F(自变量，无关变量)+随机误差。这可看成是真分数理论的推广。2、因素的水平和实验处理因素的水平(level)指每一个特定取值，在实验中也就是各实验组。注意：因素的水平与一个实验中因素的个数之间的区别。不能把夹角的三个水平当成实验中的三个因素。实验处理(treatment)指实验中一个特定的、独特的实验条件，它一般是各个因素的所有水平的交叉组合。一个处理就代表一个总体，每个处理下收集的数据就是该总体的一个样本。下例是研究夹角与错觉量之间关系的实验，实验中考虑三个因素：夹角,性别,光线的强弱，一共有3×2×2=12个处理。夹角男女强弱强弱30o123445o567860o9101112在实验中若只有一个因素，则水平也就是处理。3、实验设计的分类可以简单地以自变量的多少分：单因素、二因素和多因素；也可以按照实验控制无关变量的多少分：①完全随机化实验设计通过随机分配被试给各个实验处理（每个处理下的被试数最好相等，至少有2名），以期实现各个处理下的被试在统计上无差异，它不能分解出无关变量对因变量的影响，只是在理论上使所有无关变量对各处理的影响相等。完全随机化实验设计中的“完全”指的是将被试分配给所有处理，“随机”指的是将所有被试随机分配。②随机化完全区组设计将被试按某一无关变量的不同水平分成若干个组，这种组就叫做区组，区组是相对于实验组而言的，各组内各被试在该无关变量上的大小相同。如要班主任不同对学生数学成绩的影响实验中，被试以前的数学成绩是一个无关变量，它会影响到实验的最终结果，因此我们可以把学生以前的数学成绩作为标准对学生进行分组。假如以前的数学成绩用四级评分来表示，则可以将被试分成四个组(最好各个组内的人数相等），然后再将每个组的被试按完全随机化实验设计那样随机地分配给各个处理。随机化完全区组设计中的“随机”指的每个区组内的被试随机地分配各个处理，“完全”指的是在每一个区组中的被试要分配给所有的处理，若没能分配给所有的处理，则称为不完全区组设计。随机化完全区组设计通常要求无关变量与实验中的因素无交互作用、互不影响。实际上一般的区组设计方差分析也无法分解出其与因素的交互作用。③拉丁方设计区组设计的推广，可以控制两个无关变量的的实验设计，被试在分给实验处理前要按照两个无关变量重新分组。此外还可按照被试接受处理的多少来分：①被试间实验设计(betweensubjectdesign)指每个被试只接受一个处理，即只在一个实验条件下做实验。前面所举的的例子都是被试间设计。注意，完全随机化设计必然是被试间设计，而教材上所举的区组设计的例子多半为被试内设计的特殊情况，实际上，区组设计就其本质特点而言不是被试内设计，而是强调在完全随机化设计基础上，按照另一个无关变量对原先的被试重新进行排序分组。在原先的处理组中，所有被试是不加区分的，现在则要按无关变量分组。因此它并不能像被试内设计一样节省被试。②被试内实验设计(withinsubjectdesign)是一种控制误差非常严格的实验设计，指每个被试接受所有的处理，即相当于以单个被试为区组，可以排除许多与个体差异有关的无关变量的影响，这样实验组之间的差异除了被试在接受各处理时产生的随机波动外，就只能归因于处理的不同了。被试内设计中也存在随机化，即对每个被试接受处理的顺序进行随机化。这种实验设计可最大限度地控制个体差异的影响，这是其相对于被试间设计的优点。但这种设计要求处理对被试没有长期影响，如学习和疲劳效应。被试内设计还有一个好处就是能最大限度节省被试（处理下重复或数据个数相同的情况下）。③混合设计(mixeddesign)在多因素设计中，可以安排某些因素作为被试间变量，另一些因素作为被试内变量，这就是混合设计。下表的设计中，每个被试接受了每种夹角下的实验，但是1-20号被试只接受强光线下的实验，21-40号被试只接受弱光线下的实验，他们都没有接受所有光线条件下的实验。光线强度被试编号夹角30o45o60o强1:20弱21:40那些每个被试接受了其下所有处理的因素就是被试内因素（夹角），每个被试只接受其下一种水平的因素即被试间因素（光线强度）。混合设计可以兼顾上述两种设计的优缺点，在使用的被试数量上也介于上面两种设计之间。二、单因素完全随机化实验设计方差分析的步骤上述基本原理中采用的就是单因素完全随机化的例子。这里对方差分析的步骤做一总结。假设自变量下有k个水平，也即有k个处理，每个水平下有n个被试，一共有nk个被试被随机地分配给k个处理。①平方和的分解和计算其中的SSt、SSb的计算第二项叫做校正项。②自由度的分解和计算③计算F统计量④根据显著性水平α，查单侧F分布表，得到临界值，进行统计决策（F统计量临界值则拒绝零假设）并对方差分析结果进行解释；⑤列出方差分析表，用一个表格来反映整个计算过程与结果，尤其是标出因素效应的F检验结果。实际上，第二步后的过程都可以在方差分析表中完成。【例1】某心理学家为了考察训练教程对儿童创造思维能力的影响，将20名被试随机分成四个组，每组5人，每组采用一种教程进行训练，一学期后每个被试的创造思维能力评分如下表，试检验训练教程的作用是否有显著的差异。问题解决模式教程820121410创造性思维教程3926314540工具丰富教程1721201720CoRT教程3223282529解：①平方和的分解和计算，采用表格计算法，首先计算出公式中