华南理工大学精品课程第六章方差分析与试验设计引例:饮料行业作为改革开放以来发展起来的新兴行业,是中国消费品中的发展热点和新增长点。饮料行业不断地发展和成熟,逐渐改变了以往规模小、产品结构单一、竞争无序的局面,饮料企业的规模和集约化程度不断提高,产品结构日趋合理。就目前中国饮料在品牌方面的发展而言,全国性品牌已有十几家,加多宝、鲜橙多、汇源、娃哈哈等已为人们所熟知。•假若某饮料公司研制出一种新型饮料,该饮料有无色透明、青绿色、茶色、淡黄色和粉色五种颜色,除颜色外,其它包装、产品广告、价格、味道、营养含量等因素全部相同。该公司为了了解这种不同颜色饮料的销售量状况,以便合理制订产品优势策略,针对性对有颜色差异的饮料进行市场推广。现从经营规模相仿的六家超市同时收集该种饮料在一个月内的销售情况。试分析这五种不同颜色饮料的销售量是否有显著差异。华南理工大学精品课程2华南理工大学精品课程3提出问题饮料的销售量会受到颜色的影响吗?Q1Q2Q3如何比较不同颜色饮料对销量的影响?Q4方差分析与试验设计有联系吗?Q5不同的销售区域对销量有影响吗?饮料颜色与销售区域会产生交互作用?华南理工大学精品课程4学习目标掌握方差分析的概念和基本思想掌握单因素方差分析的方法及应用理解多重比较的意义掌握双因素方差分析的方法及应用了解试验设计的基本原则和常用方法华南理工大学精品课程5学习内容方差分析的基本问题单因素方差分析单因素方差分析中的多重比较双因素方差分析试验设计华南理工大学精品课程6第一节方差分析引论6.16.26.36.4具体章节结构第二节单因素方差分析第三节双因素方差分析第四节试验设计华南理工大学精品课程7第一节方差分析引论一、方差分析问题的提出二、方差分析的基本概念三、方差分析的基本假定四、方差分析前提假定检验及破坏五、方差分析的基本思想和原理六、问题的一般提法华南理工大学精品课程8一、方差分析问题的提出超市无色透明青绿色茶色淡黄色粉色131322525282302923262933431262627432302728285293124272963228252630【例6-1】针对引例中要求分析五种不同颜色饮料的销售量是否有显著差异,现从地理位置、经营规模相仿的六家超市同时收集的该饮料一个月内的销售情况如下表:表6-1五种不同颜色饮料的销售量华南理工大学精品课程9一、方差分析问题的提出•分析五种不同颜色饮料的销售量是否有显著差异,即要判断“颜色”对“销售量”是否有显著影响。•作出这种判断最终被归结为检验这五个颜色饮料的销售量的均值是否相等。•若它们的均值全都相等,则意味着“饮料颜色”对饮料的销售数量是没有影响的;若它们的均值不全相等,则意味着“饮料颜色”对其销售数量是有影响的。华南理工大学精品课程10二、方差分析的基本概念•方差分析:简称ANOVA(AnalysisofVariance),该统计分析方法能一次性地检验多个总体均值是否存在显著差异。012:rH112:,,rH不全相等华南理工大学精品课程11二、方差分析的基本概念•试验指标:不同条件下所作的试验结果。如,要检验五种不同颜色饮料的销售量是否有显著差异,饮料的销售量是在不同颜色下的试验结果,称为试验指标。•因素或因子(Factor):试验中需要考察的、可以控制的条件。如,饮料的颜色是所要考察的对象,称为因素或因子。•水平或处理(Level):因素所处的不同状态。如,无色透明、青绿色、茶色、淡黄色和粉色是饮料颜色这一因子不同状态的具体表现,称为因子的水平。华南理工大学精品课程12二、方差分析的基本概念•观察值:每个因子水平下得到的样本数据。如,在超市中收集的每种颜色对应的饮料销售量的样本数据称为观测值。•自变量和因变量。如,研究饮料的颜色对销售量是否有影响,即饮料的颜色是自变量,它是一个分类型的变量;销售量就是因变量,是一个数值型变量;不同颜色饮料的销售量就是因变量的取值。华南理工大学精品课程13三、方差分析的基本假定•每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本,如,饮料的每种颜色的销售量必须服从正态分布。•各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的,如,五种不同颜色饮料的销售量的方差都相等。•观察值是独立的如,每种颜色饮料的销量与其它颜色的销量无关。华南理工大学精品课程14三、方差分析的基本假定•在上述假定条件下,判断饮料颜色对销售量是否有显著影响,实际上也就是检验具有同方差的五个正态总体的均值是否相等。•如果五个总体的均值相等,可以期望五个样本的均值也会很接近。即是五个样本的均值越接近,推断五个总体均值相等的证据也就越充分,样本均值越不同,推断总体均值不同的证据就越充分。华南理工大学精品课程15三、方差分析的基本假定图6-10H为真时x的抽样分布()fx1x2x5x4x3xx如果假设成立:•五种不同颜色饮料的销售量总体的均值都相等。•意味着每个样本都来自均值为、方差为的同一个正态总体。0125:H2华南理工大学精品课程16三、方差分析的基本假定如果假设不成立:•说明五个样本总体中至少有两个的均值是不同的。•假设只有样本3与其它样本是来自不同的总体,即有但。0125:H1312455x图6-20H为假时x的抽样分布()fx12x1x4x3x3x华南理工大学精品课程17四、方差分析前提假定检验及破坏•独立分布假定检验随机样本是来自无限容量的总体或有放回的有限容量的总体,观测值的独立性假定都能得到满足。•正态性假定检验用粗略的样本数据分布图来判断。•方差齐性假定检验Cochran检验、最大F比检验、Bartlett检验等。华南理工大学精品课程18四、方差分析前提假定检验及破坏•方差齐性假定检验---Bartlett检验(1)提出假设样本总体的方差是相同的不全相等至少有两个样本总体的方差不同(2)计算方差,构造统计量222012:rH222112:,,,rH2211()1iniijijisxxn2211(1)()riiriiinssnnnr华南理工大学精品课程19四、方差分析前提假定检验及破坏•方差齐性假定检验---Bartlett检验检验统计量B的观测值b为:其中:原假设成立,满足。判断方差是否相同的决策规则为:当时,则拒绝原假设,认为至少有两个处理组数据的方差是不相等的;否则,认为数据满足分析中方差齐性的要求。2.3026qbl221()log(1)logriiiqnrsns11111()3(1)1riilrnnr222012:rH2~(1)Br2(1)br0H华南理工大学精品课程20五、方差分析的基本思想和原理•样本数据波动有二个来源,一个是同一因素中的不同水平造成的,另一个是由于抽选样本的随机性而产生的波动。两个方面产生的波动可以用两个方差来计量,一个称为水平之间的方差,即组间方差;另一个称为水平内部的方差,即组内方差。前者包括系统性因素,也包括随机性因素,后者仅包括随机性因素。总变异组间变异组内变异华南理工大学精品课程21五、方差分析的基本思想和原理•组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯随机影响。如果不同水平对结果没有影响,则组间方差中仅仅有随机因素的差异,而没有系统性的差异,它与水平内部的组内方差就应该近似,两个方差比值接近于1。•反之,两个方差的比值就会显著地大于1,当这个比值大到某个程度,或者说达到某临界点,就可以判断出不同水平之间存在着显著性差异。•小概率原理仍然是方差分析的指导思想。华南理工大学精品课程22五、方差分析的基本思想和原理•因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就有可能越大;独立变量个数越少,方差就有可能越小。•为了消除独立变量个数对方差大小的影响,用方差除以独立变量个数,得到均方差(MeanSquare),作为不同来源方差比较的基础。引起方差的独立变量的个数,称为自由度。华南理工大学精品课程23五、方差分析的基本思想和原理·检验因子影响是否显著通常用如下F统计量:•F统计量越大,越说明组间方差是主要方差来源,因子的影响越显著。•F统计量越小,越说明随机方差是主要的方差来源,因子的影响越不显著。组内均方差组间均方差F华南理工大学精品课程24六、问题的一般提法•因素有r个水平,每个水平的均值分别用表示•要检验r个水平(总体)的均值是否相等,需要提出如下假设:H0:H1:不全相等1,,r12r12,,,r华南理工大学精品课程25第二节单因素方差分析一、数据结构二、分析步骤三、应用实例分析四、关系强度的测量五、用Excel进行方差分析六、方差分析中的多重比较华南理工大学精品课程26一、数据结构观测值因素1A2ArA111x21x1rx212x22x2rxin11nx22nxrrnx平均值ix1x2xrx总平均值x单因素方差分析数据结构1(1,2,,)inijjiixxirn1111()inrrijiirijiiixnxxnnnn其中:表6-2单因素方差分析试验数据的数据结构华南理工大学精品课程27二、分析步骤第1步:提出假设H0:12r自变量对因变量没有显著影响H1:1,2,,r不全相等自变量对因变量有显著影响华南理工大学精品课程28二、分析步骤•总离差平方和SST反映了离差平方和的总体情况•误差项离差平方和SSE反映的是水平内部,或组内观察值的离散状况第2步:构造检验统计量1)计算误差平方和211()inrijijSSTxx211()inrijiijSSExx华南理工大学精品课程29二、分析步骤•水平项离差平方和SSA反映的是组间差异•总离差平方和SST=SSE+SSA21()riiiSSAnxx华南理工大学精品课程30二、分析步骤SST是由所有观测值的波动引起的误差,但是,这里所有的n个变量并不独立,它们满足一个约束条件,真正独立的变量只有n-1个,自由度是n-1。SSA是因子在不同水平上的均值变化而产生的误差。但是,r个均值并不是独立的,它们满足一个约束条件,因此也丢失一个自由度,它的自由度是r-1。SSE是由所有的各因素观测值围绕对应水平均值波动产生的误差,它们满足的约束条件一共r个,失去了r个自由度,所以SSE的自由度是n-r。SST、SSA和SSE的自由度满足如下关系:n-1=(r-1)+(n-r)2)自由度的确定华南理工大学精品课程31二、分析步骤检验统计量是:•F值越大,越说明总的方差波动中,组间方差是主要部分,有利于拒绝原假设接受备选假设。•F值越小,越说明随机方差是主要的方差来源,有利于接受原假设,没有充分证据说明待检验的因素对总体波动有显著影响。~(1,)MSAFFrnrMSE其中:,1SSASSEMSAMSErnr华南理工大学精品课程32二、分析步骤F拒绝域接受域检验的拒绝域安排在右侧:第三步:统计决策图6-3统计量F的抽样分布华南理工大学精品课程33二、分析步骤将统计量的值F与给定的显著性水平的临界值F进行比较,作出对原假设H0的决策:根据给定的显著性水平,在F分布表中查找与第一自由度df1=r-1、第二自由度df2=n-r相应的临界值F。若FF,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响。若FF,则不能拒绝原假设H0,表明所检验的因素对观察值没有显著影响。华南理工大学精品课程34二、分析步骤根据上述步骤及计算的数据,列出方差分析表6-3。方差来源自由度平方和均方差F值F临界值P值组间1rSSAMSAMSAFMSE(1,)Frnr