第六章方差分析一、方差分析概述(一)问题的提出最优方案的设计如何获得最佳的产品销售量哪些因素是影响销售量的主要因素哪些因素的那种情况更利于提高销售量哪些因素的组合更利于提高销售量可以利用方差分析的方法来实现一、方差分析概述(二)方差分析目的:方差分析从分析数据的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素。相关概念:(1)观测变量:作为观测的对象(如:亩产量、推销量等)。(2)控制因素:人为可以控制的因素(如:施肥量、品种、推销策略、价格、包装方式等),在方差分析中称为控制因素。将控制变量的不同情况称为控制变量的不同水平。(3)随机因素:人为很难控制的因素(如:气候、推销人员的形象、抽样误差等),方差分析中主要指抽样误差。一、方差分析概述亩产量施肥量Xxx,xxx,xxx,xxxXxx,xxx,xxx,xxx10公斤Xxx,xxx,xxxXxx,xxx,xxx,xxx15公斤Xxx,xxx,xxx,xxxXxx,xxx20公斤控制因素观测变量三个水平一、方差分析概述三、核心问题从数据差异角度看:观测变量的数据差异=控制因素造成+随机因素造成当控制因素对实验结果有显著影响时,和随机因素共同作用必然使观测变量产生显著变动;反之,观测变量的变动较小,将归结为随机性造成的(这里指抽样误差造成的)。一、方差分析概述观察以下三组数据:50050050010公斤60060060015公斤70070070020公斤50150250310公斤60851052110公斤50350150215公斤51060152415公斤50250350120公斤60450153020公斤•方差分析正是要分析观测变量的变动主要是由控制因素造成的还是由随机因素造成的,以及控制变量的各个水平是如何对观测变量造成影响的。一、方差分析概述四、方差分析的类型单因素方差分析只考虑一个控制因素的影响多因素方差分析考虑两个以上的控制因素和它们的交互作用对观测变量的影响协方差分析在尽量排除其他因素的影响下,分析单个或多个控制因素对观测变量的影响。(引入协变量)二、单因素方差分析(一)目的检验某一个控制因素的改变是否会给观察变量带来显著影响。例如:应用面很广(科学试验,社会经济问题)考察不同肥料对某农作物亩产量是否有显著差异;考察不同温度下某化工产品的合格率;考察妇女生育率在不同地区是否有显著差异;考察不同学历是否对工资收入产生显著影响。二、单因素方差分析(二)基本思路(1)入手点:检验控制变量的不同水平下,各总体的分布是否存在显著差异,进而判断控制变量是否对观测变量产生了显著影响。(2)前提:不同水平下各总体服从方差相等的正态分布。(3)原假设H0:不同水平下,各总体均值无显著差异。即:不同水平下控制因素的影响不显著。二、单因素方差分析(二)基本思路(4)构造F统计量因为:总变差=组间差异+组内差异可证明:SST=SSA+SSE(设:k个水平,每个水平有ni个数据)考察平均的组间差异与平均的组内差异的比值,于是:kiiixxnSSA12)(kiinjjiijxxSSE12)(MSEMSAknSSEkSSAF)/()1/(kinjjijxxSST112)(~F(k-1,n-k)二、单因素方差分析(二)基本思路(5)结论:F值较大,F值的相伴概率p值小于或等于用户给定的显著性水平a,则拒绝H0,认为不同水平下各总体均值有显著差异;F值较小,F值的相伴概率p值大于用户给定的显著性水平a,则不能拒绝H0,可以认为不同水平下各总体均值无显著差异。二、单因素方差分析(三)数学模型设控制变量A有k个水平,每个水平均有ni个数据,在水平Ai下第j个数据xij可以分解为:xij=i+iji为水平Ai下的理论指标值,ij为误差,服从正态分布(0,σ2)kiiK11kiaii,...2,1,kiiijiijaax10且i为水平Ai对试验结果产生的影响,称为水平Ai的效应。如果A对观测变量没有影响,则各水平的效应全为0,否则不全为0。于是有:H0:α1=α2=α3=…=αk=0的无偏估计作为的无偏估计作为iixxx,ˆ二、单因素方差分析(四)基本操作步骤(1)菜单选项:analyze-comparemeans-one-wayANOVA(2)选择一个或多个变量作为观察变量到dependentlist框(3)选择一个变量作为控制变量到factor框(4)option中的statistics项:descriptive:输出观察变量不同水平下的描述统计量(5)案例6-1p143广告地区与销售额二、单因素方差分析—方差齐性检验前提的检验:各水平下方差齐性检验,即各水平下方差是否相等的检验。实现方法:H0:各水平下各总体方差无显著差异。option中的statistics:Homogeneity-of-variance,检验各水平下各总体方差是否齐性。案例6-2p149广告地区与销售额二、单因素方差分析—多重比较(一)目的如果各总体均值存在差异,F检验不能说明哪个水平造成了观察变量的显著差异。多重比较将对每个水平的均值逐对进行比较检验。(二)几种常用的多重比较方法p146LSD(LeastsignificantDifference)最小显著性差异法T(Tukey)方法二、单因素方差分析—多重比较(二)几种常用的多重比较方法LSD(LeastsignificantDifference)最小显著性差异法特点:利用了全部样本数据,而不仅是所比较的两组的数据,且认为各水平均是等方差的与其他方法相比,其检验敏感度最高在一定程度上克服了放大犯一类错误的问题为总样本数其中nkntnnMSExxtjiji)(~)11(为各水平下的样本数其中rkntrMSExxtji)(~2二、单因素方差分析—多重比较(二)几种常用的多重比较方法T(Tukey)法特点:利用了全部样本数据,而不仅是所比较的两组的数据,且认为各水平均是等方差的q分布平缓些,克服了扩大犯错的可能性,但不如LSD方法敏感适合各水平下样本数均相同的情况为各水平下的样本数其中rknkqrMSExxtji:),(~二、单因素方差分析—多重比较(三)实现方式posthoc选项(四)案例6-2p152广告地区与销售额二、单因素方差分析—趋势检验(一)目的将组间平方和分解成线性、二次、三次或更高次的多项式,检验观测变量是否随控制变量呈不同次幂变化。(二)实现方式Contrasts选项,polynomial框(三)案例6-2p155广告地区与销售额二、单因素方差分析—先验对比(一)目的先凭经验确定各水平均值之间的对比系数,然后判定这两组均值的线性组合是否存在显著差异。如:1/3(k1+k2+k3)=1/2(k4+k5)H0:两组均值的线性组合无显著差异。(二)实现方式Contrasts选项,在Coefficients框中输入每个水平均值的系数值和正负符号。注意:输入系数的顺序与控制变量水平值的升序一一对应系数的和为0(三)案例6-2p156广告地区与销售额三、多因素方差分析小城市中等城市大城市特大城市小型广告XX,XX,XX,XXXX,XX,XX,XXXX,XXXX,XXXX,XX中型广告XX,XX,XX,XXXX,XX,XX,XXXX,XX,XX,XXXX,XX大型广告XX,XXXX,XX,XX,XXXX,XX,XXXX,XX,XX,XX(一)目的测试若干个控制因素的不同水平的交叉变化是否给观察变量带来了显著影响。例如:三、多因素方差分析(二)基本思路认为观测变量的变动是由各控制变量独立作用、它们的交互作用、以及随机因素造成的。以两个控制变量的方差分析为例:SST=SSA+SSB+SSAB+SSE(maineffects)(N-way交互)(Residual)(explained)其中:SAB表示两个控制变量交互影响带来的变差三、多因素方差分析(二)基本思路SST=SSA+SSB+SSAB+SSEA有p个水平,B有q个水平,每组有r个样本piqjrkijkxxSST1112)(piAixxqrSSA12)(qjBjxxprSSB12)(piqjrkijijkxxSSE1112)(SSESSBSSASSTSSAB三、多因素方差分析(二)基本思路检验方法统计量(F检验)固定效应模型:)1(/)1/(rpqSSEpSSAFA)1(/)1/(rpqSSEqSSBFB)1(/)1)(1/(rpqSSEqpSSABFAB三、多因素方差分析(二)基本思路结论依次查看各F值的相伴概率p值。如果其相伴概率p值大于a,则不能拒绝H0,可以认为相应不同水平的控制变量或交互影响没有造成均值的显著差异;相反三、多因素方差分析(三)说明多因素方差分析中因素的划分固定效应因素:人为能够准确控制其各个不同的水平值;如:施肥量、品种、温度。----固定效应模型随机效应因素:人为无法对其水平值进行准确控制,只是能够直观观测到。如:城市规模、教育水平等。---随机效应模型---混合效应模型固定效应和随机效应通常较难区分三、多因素方差分析(三)说明交互作用,即:两个或多个控制变量各水平之间搭配时对观察变量的影响。交互作用的理解举例:饮食习惯、适量运动对减肥的作用;排球对的二传手和主攻手对赢球的作用交互作用的图形观察:A1A2A1A2B125B125B2710B273当A从A1变化到A2时,A对观测变量值的影响与B取什么观测变量值均增加且幅度相同,水平有关与B1或B2无关;同理B三、多因素方差分析(三)说明多因素方差分析的核心内容:检验在不同控制变量的不同交叉水平下,各交叉分组下样本数据所来自的总体均值,有无显著差异。进而判断多个因素是否对观测变量产生了显著影响,但等方差一般不再非常强调H0:各交叉水平下的总体均值均无显著差异。数学模型:以双因素为例H0:ai=0;bi=0;(ab)ij=0ijkijiiijkabbax)(三、多因素方差分析(四)基本操作步骤A.菜单选项:analyze-GeneralLinearmodel-UnivariateB.选择观察变量到dependent框C.选择固定效应因素fixfactor框D.选择随机效应因素randomfactor框E.模型的定义Model选项(饱和模型和非饱和模型)(五)案例6-3p162广告地区与销售额三、多因素方差分析(六)进一步分析:Contrast:单样本均值检验,检验值为:deviation:观测变量的均值Simple:第一(最后)个水平的观测变量均值Difference:前一水平的观测变量的均值Helmert:后一水平的观测变量的均值案例6-4p166广告地区与销售额四、协方差分析体重增量饲料初始体重xxx,xxx,xxxxxx,xxx1xxx,xxx,xxxxxx,xxxxxx,xxx,xxx,xxx,xxx2xxx,xxx,xxx,xxx,xxxxxx,xxx,xxxxxx,xxx,xxx3xxx,xxx,xxxxxx,xxx,xxxxxxx(一)目的将无法或很难控制的因素作为协变量,在排除协变量影响的条件下更精确地分析控制变量对观察变量的影响。例如:四、协方差分析(二)基本思路观测变量总变差:协变量、控制变量、交互作用、随机因素H0:协变量对观测变量没有显著影响;在剔除协变量影响的条件下,各交叉分组下的总体均值无显著差异。单因素协方差分析的数学模型ijijiijzy四、协方差分析(二)基本思路对协变量的要求协变量是数值型的;协变量与观测变量的线性关系在各水平均成立,且斜率大致相同协方差分析是界于方差分析和回归分析之间的一种分析方法定距型变量、品质变量四、协方差分析(二)基本思