第四章 方差分析与正交实验设计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

本章主要内容§4·1方差分析(略)§4·2正交试验的基本概念与正交表§4·3无交互作用的正交设计与数据分析§4·4有交互作用的正交设计与数据分析§4·5有重复试验的情况§4·6水平数不等的试验设计与数据分析§4·7筛选试验*§4·8多指标的数据分析*§4·9饱和设计第一节方差分析所谓方差分析,是通过比较因素的方差与试验误差的方差,来检验因素对试验指标的影响是否显著。其实质是假设多个总体方差相等的情况下,判断它们的均值是否相等。也就是将试验数据的总波动平方和分解成各因素和交互作用以及试验误差的波动平方和,并比较它们的方差,以判断因素影响的显著性。方差分析(AnalysisofVariance,简称ANOVA)能够解决多个均值是否相等的检验问题。节省时间是这种方法明显的优点,它的另一个好处是,由于进行分析时是将所有的样本资料结合在一起,因而增加了稳定性。例如,有30个样本,每一个样本包括10个观察单位。如果用T检验法,一次只能研究两个样本,20个观察单位,而使用方差分析则可以把300个观察单位结合在一起进行研究。所以说,方差分析是一种实用、有效的分析方法。方差分析是一种因素分析方法,广泛应用于优化设计、理化分析、绩效考核中。(一)方差分析的内容方差分析是对多个总体均值是否相等这一假设进行检验。下面通过一个例子说明方差分析的内容。[例4-1]某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。随机从五家超级市场上收集了前一期该种饮料的销售量,如表4--6所示。问饮料的颜色是否对销售量产生影响。表4—6该饮料在五家超市的销售情况这是一个方差分析问题。即对四种饮料销售量均值是否相等进行检验。由于饮料是同一厂家生产的,它们的营养含量、味道、价格、装潢等可能影响销售量的因素全部相同,如果检验结果为μ1、μ2、μ3、μ4不相等,如图4-5(a)所示,则意味着它们来自于不同的总体,表明饮料颜色对销售量产生影响。反之,如果检验结果为μ1、μ2、μ3、μ4不存在显著影响,则可以认为饮料的颜色对销售量没有影响,它们来自于相同的总体。见图4—5(b)。图4-5(a)不同总体的情况图4—5(b)相同总体的情况在方差分析中,常常用到一些术语。一个是因素,因素是一个独立的变量,也是方差分析研究的对象。在前面的例子中,饮料的颜色就是一个因素。因素中的内容称为水平。上例因素中的水平有四个,即饮料的四种不同颜色。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时针对多个因素进行,称为多因素分析。在多因素方差分析中,双因素方差分析是最常见的。在方差分析中,通常假定各个水平的观察数据是来自于服从正态分布总体中的随机样本,各个总体相互独立,且方差相同。实际应用中严格地满足这些假定,特别是对社会经济现象的分析,确实过于苛刻。但一般应近似地符合上述要求。(二)方差分析的原理从方差分析的目的看,是要检验各个水平的均值μ1、μ2、μ3、μ4是否相等,而实现这个目的的手段是通过方差的比较。观察值之间存在着差异,差异的产生来自于两个方面,一个方面是由因素中的不同水平造成的,例如饮料的不同颜色带来不同的销售量,对此我们可以称为系统性差异;另一个方面是由于抽选样本的随机性而产生的差异,例如,相同颜色的饮料在不同的商场销售量也不同。两个方面产生的差异可以用两个方差来计量,一个称为水平之间的方差,一个称为水平内部的方差。前者既包括系统性因素,也包括随机性因素。后者仅包括随机性因素。如果不同的水平对结果没有影响,如前例饮料的颜色对销售量不产生影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,两个方差的比值就会接近于1;反之,如果不同的水平对结果产生影响,在水平之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时,该方差就会大于水平内方差,两个方差的比值就会显著地大于1许多,当这个比值大到某个程度,或者说达到某临界点,就可以作出判断,说不同的水平之间存在着显著性差异。因此,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。(三)F分布水平间(也称组间)方差和水平内(也称组内)方差之比是一个统计量。数理统计证明,这个统计量服从F分布(FDistribution)。F分布有这样几个特征:①统计量F是大于零的正数。②F分布曲线为正偏态,它的尾端以横轴为渐进线趋于无穷。③F分布是一种连续的概率分布,不同的自由度组合有不同的F分布曲线,如图4-6所示:也就是将试验数据的总波动平方和分解成各因素和交互作用以及试验误差的波动平方和,并比较它们的方差,以判断因素影响的显著性。方差分析是一种因素分析方法,广泛应用于优化设计、理化分析、绩效考核中。其具体步骤如下:(1)统计模型;(2)平方和分解;(3)F比;(4)计算。4、最佳条件的选择与对应条件下指标均值的估计。(四)绘制效应图(五)验证实验图4-6不同自由度下F分布曲线由上图可以看出,随着分子和分母自由度的增加,F分布以对称的正态分布为极限。许多类型的假设检验需要利用F分布,方差分析是其中的重要一种。二、单因素方差分析(一)单因子试验例:茶是一种饮料,它含有叶酸(folacin),这是一种维他命B。如今要比较各种茶叶中的叶酸含量。现选定绿茶,这是一个因子,用A表示。又选定四个产地的绿茶,记为A1,A2,A3,A4,它是因子A的四个水平。为测定试验误差,需要重复。各水平重复数相等的设计称为平衡设计.各水平重复数不等的设计称为不平衡设计.如今我们选用不平衡设计,即A1,A2,A3,A4分别制作了7,5,6,6个样品,共有24个样品等待测试。这里一次测试就是一次试验。试验次序要随机化,为此把这24次试验按序编号。这里一次测试就是一次试验。试验次序要随机化,为此把这24次试验按序编号。因子A的水平试验编号1A12345672A891011123A1314151617184A192021222324•在1到24个试验号中一个接一个地随机抽取,得到如下序列:9,13,2,20,18,10,5,7,14,1,6,15,23,…把试验结果“对号入座”,填写试验结果。因子A的水平数据(毫克)样本均值1A7.96.26.68.68.910.19.68.272A5.77.59.86.18.47.503A6.47.17.94.55.04.05.824A6.87.55.05.36.17.46.35四个产地绿茶叶酸含量的打点图(dotplot)10987654A1A2A3A4四个产地绿茶叶酸含量的打点图(dotplot)图上○表示叶酸含量,–线表示样本均值。下述一些直观的印象是重要.图中每种绿茶的叶酸含量有高有低.从样本均值看,A1与A2的叶酸含量偏高一些.从样本极差看,A1,A2,A3的极差接近,A4的略小一点。(二)单因素方差分析的步骤由前面的内容和例子可知,不同水平下销售量x的概率分布服从正态分布,并且有相同方差。因此,水平的差异必然体现在水平均值的差异上。于是作为单因素的方差分析,其目标是检验水平均值μj是否相等。如果相等,我们说该因素(如前例中饮料的颜色)对x不产生影响;反之,就认为该因素对x存在影响。为便于叙述,也便于理解,可以将方差分析按其过程划为几步。1、计算水平均值不妨令表示第j种水平的样本均值,jxjniijjnxxj1式中,是第j种水平下的第i个观察值,nj表示第j种水平的观察值个数。结合前面表4-6中的数据,将计算结果列表4-7如下:下表中,计算总均值的一般表达式为式中,n=∑nj表4—7四种颜色饮料销量及均值2、计算离差平方和在单因素方差分析中,离差平方和有三个,它们分别是总离差平方和,误差项离差平方和以及水平项离差平方和。首先看总离差平方和,不妨用SST(SumofSquaresforTotal)代表,则:SST=它反映了离差平方和的总体情况。在表4一7中己知,=28.695,由上式,我们可以计算出:SST=(26.5-28.695)2+(28.7-28.695)2+…+(32.8-28.695)2=115.9295再看误差项离差平方和,用SSE(SumofSquaresforError)表示,其计算公式为:2xxijx对公式分析不难发现SSE反映的是水平内部,或组内观察值的离散状况。正如前面分析的,SSE实质上反映了随机因素带来的影响。在表4-7的例子中,对于水平1(即第一组),有类似地,可以对其他三个组进行计算:(31.2-29.56)2+…+(29.6-29.56)2=8.72(27.9-26.44)2+…+(26.5-26.44)2=13.22(30.8-31.46)2+…+(32.8-31.46)2=6.632从而得到:SSE=10.688+8.572+13.192+6.632=39.0842jijxx688.1032.272.2732.277.2832.277.2832.275.26222211xxiSSE=最后一个是水平项离差平方和。为了后面叙述方便,可以把单因素方差分析中的因素称为A。于是水平项离差平方可以用SSA(SumofSquaresforFactorA)表示。SSA的计算公式为SSA=用各组均值减去总均值的离差的平方,乘以各组观察值个数nj,然后加总,即可得到SSA。可以看出,它所表现的是组间差异。其中既包括随机因素,也包括系统因素。SST,SSE,SSA之间存在着一定的联系。这种联系表现在:SST=SSE+SSA22xxnxxjjj因为在各组同为正态分布,等方差条件下,等式右边最后一项为零,故有:xxxxxxxxxxxxxxjjijjjijjjijij22222222xxxxxxjjijij即SST=SSE+SSA在上面例子中,己计算出SST=115.9295,SSE=39.084,故:SSA=SST–SSE=115.9295-39.084=76.84553、计算平均平方用离差平方和除以自由度即可得到平均平方(MeanSquare)。离差平方的计算前面己经介绍,关键是如何确定各离差平方和的自由度。对SST来说,其自由度为n-1,因为它只有一个约束条件,对SSA来说,其自由度为r-1,这里r表示水平的个数。如前面例子中,有四个水平,即饮料的四种不同颜色,故r=4。SSA反映的是组间的差异,它也有一个约束条件,即要求:对SSE来说,其自由度为n-r,因为对每一种水平而言,其观察值个数为nj,该种水平下的自由度为nj,总共有r个水平,因此拥有的自由度个数为;r(nj-1)=n-r其实,与离差平方和一样,SST,SSA,SSE之间的自由度也存在着如上式中的关系,因为显然:n-1=(r-1)+(n-r)0xxij0xxnjj这样对于SSA,其平均平方MSA为:对于SSE,其平均平方MSE为:在上例中:1rSSAMSA1rSSEMSE4428.21200840.396152.25148455.76MSEMSA4、方差分析表MSEMSAF组内方差组间方差在上例中:486.104428.26152.25F为了将方差分析的主要过程表现的更清楚,通常把有关计算结果列成方差分析表,如表4—8所示。表4—8方差分析表使用计算机进行方差分析,其输出结果的构造与表4—8类似。5、均值的F检验在介绍方差分析的主要步骤以后,让我们回到问题的起点,对若干均值是否相等进行F检验。仍以前面饮料颜色对销售量影响为例,对所关心的问题提出原假设和替换假设:H0:μ1=μ2=μ3=μ4颜色对销售量没有影响H1:μ1、μ2、μ3、μ4不全相等颜色对销售量有影响由前已知,计算出的F值为F=10.4860若a=0.05查表知:Fa(r-1,n-r)=F0.05(3,16)=3.24括号中r-1,

1 / 150
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功