第11章-方差分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第十一章方差分析第一节方差分析的概述一、方差分析的由来t检验法(z检验法也是如此)适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在公共管理的研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:①检验过程烦琐。例如,一实验包含5个处理,采用t检验法要进行25C=10次两两平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。②无统一的实验误差,误差估计的精确性和检验的灵敏性低。对同一实验的多个处理进行比较时,应该有一个统一的实验误差的估计值。若用t检验法作两两比较,由于每次比较需计算一个21xxS,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,实验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计实验误差,误差自由度为2(6-1)=10;若利用整个实验的30个观测值估计实验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。③推断的可靠性低,检验的I型错误率大。即使利用资料所提供的全部信息估计了实验误差,若用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。方差分析(analysisofvariance)是由英国统计学家R.A.Fisher于1923年提出的。这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来2源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析,它在公共管理研究中应用十分广泛。二、方差分析的常用术语①实验指标(experimentalindex)为衡量实验结果的好坏或处理效应的高低,在实验中具体测定的性状或观测的项目称为实验指标。由于实验目的不同,选择的实验指标也不相同。②实验因素(experimentalfactor)实验中所研究的影响实验指标的因素叫实验因素。当实验中考察的因素只有一个时,称为单因素实验;若同时研究两个或两个以上的因素对实验指标的影响时,则称为两因素或多因素实验。实验因素常用大写字母A、B、C、…等表示。③因素水平(leveloffactor)实验因素所处的某种特定状态或数量等级称为因素水平,简称水平。如比较3种激励措施下组织绩效的高低,这3种激励措施就是3个水平。因素水平用代表该因素的字母加添足标1,2,…,来表示。如A1、A2、…,B1、B2、…,等。④实验处理(treatment)事先设计好的实施在实验单位上的具体项目叫实验处理,简称处理。在单因素实验中,实施在实验单位上的具体项目就是实验因素的某一水平。在多因素实验中,实施在实验单位上的具体项目是各因素的某一水平组合。例如进行3种金融政策和3种税收政策对企业自主创新能力影响的两因素实验,整个实验共有3×3=9个水平组合,实施在实验单位(实验企业)上的具体项目就是某金融政策与某种税收政策的结合。所以,在多因素实验时,实验因素的一个水平组合就是一个处理。⑤实验单位(experimentalunit)在实验中能接受不同实验处理的独立的实验载体叫实验单位,实验单位往往也是观测数据的单位。⑥重复(repetition)在实验中,将一个处理实施在两个或两个以上的实验单位上,称为处理有重复;一处理实施的实验单位数称为处理的重复数。三、方差分析的应用条件与其他统计分析方法一样,在应用方差分析时也有一定的条件限制。研究所获得的数据需要满足一些基本的条件,否则由它得出的结论将会产生错误。3①分布的正态性(normality)。方差分析与Z检验和t检验一样,也需要样本必须来自正态分布的总体。但是在公共管理研究领域中,大多数变量是可以假定其总体分布是满足正态分布的基本要求的,因此进行方差分析时并不需要去检验总体分布是否服从于正态分布。当有证据表明总体不服从于正态分布时,可以将数据作某种转换,经过转换以后的数据就可以接近正态分布了。②效应的可加性(additivity)。方差分析所依据的一个基本原理就是变异的可加性。确切地说,应该是变异的可分解性,总变异可以分解成几个不同来源的部分,这几个部分变异的来源在意义上必须明确,而且彼此要相互独立。该条件一般情况下也都是能够满足的。通常情况下,总变异可以分解为组间变异和组内变异两部分,组间变异是实验处理引起的那部分变异,而组内变异指实验误差及个体差异引起的变异。由于被试分组是随机分配的,个体差异及实验误差带有随机性质,因而组内变异与组间变异是相互独立的。③方差的齐性(homogeneityofvariance)。各实验条件(处理)下实验结果的总体方差相等,即方差齐性。考察实验结果是否满足第3个条件,可用Levenet和Bartlett来检验方差是否齐性检验。Levene方差齐性检验由H.Levene在1960年提出。M.B.Brown和A.B.Forsythe在1974年对Levene检验进行了扩展,使对原始数据的数据转换不但可以使用数据与算术平均数的绝对差,也可以使用数据与中位数和调整均数(trimmedmean)的绝对差。从而使得Levene检验的用途更加广泛。Levene检验主要用于检验两个或两个以上样本间的方差是否齐性。要求样本为随机样本且相互独立。国内常见的Bartlett多样本方差齐性检验主要用于正态分布的资料,对于非正态分布的数据,检验效果不理想。Levene检验既可以用于正态分布的资料,也可以用于非正态分布的资料或分布不明的资料,其检验效果比较理想。在SPSS中,是采用Levene的方差齐性检验。第二节单因素完全随机化设计的方差分析只安排一个实验处理因素(单因素),且该实验处理因素有a个水平(a>2),即a个实验处理组,将N个实验单位(experimentunits)采用随机方法分派到各个实验处理组当中。或者采用随机取样的方法,从a个实验处理组所对应的总体中分别抽取in个实验单位(Nnaii1)进行实验处理。这种实验设计叫做单因素完全随机化设计(Completelyrandomizeddesign)。其目的主要是比较a个实验处理组4间的实验效应有无显著的差异。各实验处理组的实验单位可以相同,也可以不同,相同时为平衡设计(balanceddesign),设计效率较高;不同时为非平衡设计(unbalanceddesign),效率较低。单因素完全随机化设计简单明了,应用十分广泛。一、单因素完全随机化设计方差分析的基本原理在实验中仅有一个实验因素,并分为k个不同的水平。在完全随机化的单因素实验设计中,为了考察因素A的k个水平对实验指标Y的影响(如k种激励措施对组织绩效的影响),设想在固定的条件下作实验。所有可能的实验结果组成一个总体iX,它是一个随机变量。可以把它分解为两部分:iiiX其中,纯属作用的结果,称为在条件下iX的真值(也称为在条件下iX的理论平均)。是实验误差(也称为随机误差),是服从正态分布的随机变量。如果在独立地进行实验过程中,除不同外,其余条件均不变,那么,,…,就应该是独立同分布的随机变量。即因为iiXE)(,,故),(2iiNX其中,和都是未知参数(i=1,2,…,k)。为了估计和检验上述参数,就要做重复实验。假定在水平下重复做m次实验,得到观测值imiiiXXXX,,,,321(为方便起见,不再与小写字母加以区别,也可以表示数值),这相当于从第i个正态总体(i=1,2,…,k)中,随机抽取一个容量为m的样本,则:mXXmjiji1(i=1,2,,…,k)表中,ijX表示在条件下第j次实验的结果,用公式表示就是ijiijX(i=1,2,…,kj=1,2,…,m)5这里值得注意的是:每次实验结果只能得到ijX,而上式中的和都不能直接观测到。为了便于比较和分析因素A的水平对指标影响的大小,通常把再分解为(i=1,2,…,k)其中,称为总体平均数,它是比较作用大小的一个基点,并且称为第i个水平的效应。它表示水平的真值比总体水平差多少。满足约束条件把上式代入前式中,得ijiijX(i=1,2,…,k)(j=1,2,…,m)于是单因素方差分析的数学模型可写成:riiijijijiα),σ~N(εεαμX1200单因素方差分析要解决的问题是:(1)分析观测值的偏差;(2)检验各水平效应有无显著差异。二、单因素完全随机化设计方差分析的基本过程单因素完全随机化设计方差分析的数据结构如表11-1所示:6表11-1单因素随机化设计方差分析的数据结构(1)建立假设:原假设012:sH;即所有实验处理水平的总体平均数是相等的,不存在处理效应。备择假设H1:其中至少有两个实验处理的总体平均数是不相等的,处理效应不为0。(2)将总方差的平方和的分解为组间平方和与组内平方和(3)构造F统计量2..112....1122....1111222....11112...1()[()()]()()()()iiiiiiinrijijnrijiiijnnrriijiijijnnrrijijijijnijSSTxxxxxxxxxxxxxxnSSAxx总离差平方和组间离差平方和组内离差平方和=SSA+SSESST=22...11rriiiixxnnSSESSTSSA/~(1,)1SSASSEFFrnrrnr7(4)给出方差分析表,并计算F统计量的值表11-2:方差分析表方差来源方差平方和自由度均方F统计量组间方差(效应)SSAr-1MSA=SSA/r-1F=MSA/MSE组内方差(误差)SSEn-rMSE=SSE/n-r总离差SSTn-1(5)在给定的显著性水平下查得F的临界值,并进行决策当F临界值时,接受原假设;当F临界值时,拒绝原假设(6)平均数的多重比较F值显著或极显著,否定了无效假设HO,表明实验的总变异主要来源于处理间的变异,实验中各处理平均数间存在显著或极显著差异,但并不意味着每两个处理平均数间的差异都显著或极显著,也不能具体说明哪些处理平均数间有显著或极显著差异,哪些差异不显著。因而,有必要进行两两处理平均数间的比较,以具体判断两两处理平均数间的差异显著性。统计上把多个平均数两两间的相互比较称为多重比较(multiplecomparisons)。多重比较的方法甚多,最常用的有最小显著差数法(LSD法)。最小显著差数法(LSD法,leastsignificantdifference)此法的基本作法是:在F检验显著的前提下,先计算出显著水平为α的最小显著差数LSD,然后将任意两个处理平均数的差数的绝对值..jixx与其比较。若..jixx>LSDa时,则.ix与.jx在α水平上差异显著;反之,则在α水平上差异不显著。三、单因素完全随机化设计方差分析的实例【例11-1】某公共管理研究者采用随机抽样方法研究某省东部、北部、中部、南部和西部五个不同地区10年间每周发生的交通事故次数,若从五个不同地区(视为五个不同总体)独立地各选取12个周发生的交通事故次数作为研究对象,五个不同地区12个周每周发生的交通事故次数如表11-3所示。请在α=1%的显著性水平下检验该省五个不同地区10年间每周发生的交通事故次数是否存在显著的差异。8表11-3:每周发生的交通事故次数地区东部北部中部西部南部合计交通事故次数8.009.0010.009.009.00

1 / 29
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功