数据分析(方法与案例)作者贾俊平统计学8-2统计学STATISTICS(第四版)2020-2-18警惕过多地假设检验。你对数据越苛求,数据会越多地向你供认,但在威逼下得到的供词,在科学询查的法庭上是不容许的。——StephenM.Stigler统计名言第8章方差分析与实验设计8.1方差分析的基本原理8.2单因素方差分析8.3双因素方差分析8.4实验设计初步8-4统计学STATISTICS(第四版)2020-2-18学习目标方差分析的基本思想和原理单因素方差分析多重比较只考虑主效应的双因素方差分析考虑交互效应的双因素方差分析实验设计方法与数据分析8-5统计学STATISTICS(第四版)2020-2-18不同运动队的平均成绩之间是否有显著差异?奥运会女子团体射箭比赛,每个队有3名运动员。进入最后决赛的运动队需要进行4组射击,每个队员进行两次射击。这样,每个组共射出6箭,4组共射出24箭在2008年8月10日进行的第29届北京奥运会女子团体射箭比赛中,获得前3名的运动队最后决赛的成绩如下表所示8-6统计学STATISTICS(第四版)2020-2-18不同运动队的平均成绩之间是否有显著差异?每个队伍的24箭成绩可以看作是该队伍射箭成绩的一个随机样本。获得金牌、银牌和铜牌的队伍之间的射箭成绩是否有显著差异呢?如果采用第6章介绍的假设检验方法,用分布做两两的比较,则需要做次比较。这样做不仅繁琐,而且每次检验犯第Ι类错误的概率都是,作多次检验会使犯第Ι类错误的概率相应地增加,检验完成时,犯第Ι类错误的概率会大于。同时,随着检验的次数的增加,偶然因素导致差别的可能性也会增加采用方差分析方法很容易解决这样的问题,它是同时考虑所有的样本数据,一次检验即可判断多个总体的均值是否相同,这不仅排除了犯错误的累积概率,也提高了检验的效率方差分析方法就很容易解决这样的问题,它是同时考虑所有的样本数据,一次检验即可判断多个总体的均值是否相同,这不仅排除了犯错误的累积概率,也提高了检验的效率8.1方差分析的基本原理8.1.1什么是方差分析?8.1.2误差分解8.1.3方差分析的基本假定第8章方差分析与实验设计8.1.1什么是方差分析?8.1方差分析的基本原理8-9统计学STATISTICS(第四版)2020-2-18什么是方差分析(ANOVA)?(analysisofvariance)1.方差分析的基本原理是在20世纪20年代由英国统计学家RonaldA.Fisher在进行实验设计时为解释实验数据而首先引入的2.分析各分类自变量对数值因变量影响的一种统计方法3.研究分类型自变量对数值型因变量的影响一个或多个分类型自变量两个或多个(k个)处理水平或分类一个数值型因变量4.有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量8-10统计学STATISTICS(第四版)2020-2-18什么是方差分析?(例题分析)【例8-1】确定超市的位置和竞争者的数量对销售额是否有显著影响,获得的年销售额数据(单位:万元)如下表因素水平或处理样本数据8-11统计学STATISTICS(第四版)2020-2-18什么是方差分析?(例题分析)1.分析“超市位置”和“竞争者数量”对销售额的影响2.如果只分析超市位置或只分析竞争者数量一个因素对销售额的影响,则称为单因素方差分析(one-wayanalysisofvariance)3.如果只分析超市位置和竞争者数量两个因素对销售额的单独影响,但不考虑它们对销售额的交互效应(interaction),则称为只考虑主效应(maineffect)的双因素方差分析,或称为无重复双因素分析(two-factorwithoutreplication)4.如果除了考虑超市位置和竞争者数量两个因素对销售额的单独影响外,还考虑二者对销售额的交互效应,则称为考虑交互效应的双因素方差分析,或称为可重复双因素分析(two-factorwithreplication)8.1.2误差分解8.1方差分析的基本原理8-13统计学STATISTICS(第四版)2020-2-18方差分析的基本原理(误差分解)1.总误差(totalerror)反映全部观测数据的误差所抽取的全部36家超市的销售额之间差异2.处理误差(treatmenterror)—组间误差(between-grouperror)由于不同处理造成的误差,它反映了处理(超市位置)对观测数据(销售额)的影响,因此称为处理效应(treatmenteffect)3.随机误差(randomerror)—组内误差(within-grouperror)由于随机因素造成的误差,也简称为误差(error)8-14统计学STATISTICS(第四版)2020-2-18方差分析的基本原理(误差分解)1.数据的误差用平方和(sumofsquares)表示,记为SS2.总平方和(sumofsquaresfortotal),记为SST反映全部数据总误差大小的平方和抽取的全部36家超市销售额之间的误差平方和3.处理平方和(treatmentsumofsquares),记为SSA反映处理误差大小的平方和也称为组间平方和(between-groupsumofsquares)4.误差平方和(sumofsquaresoferror),记为SSE反映随机误差大小的平方和称为误差平方和也称为组内平方和(within-groupsumofsquares)8-15统计学STATISTICS(第四版)2020-2-18方差分析的基本原理(误差分解)误差平方和的分解及其关系总误差总平方和(SST)处理误差随机误差处理平方和(SSA)误差平方和(SSE)==++8-16统计学STATISTICS(第四版)2020-2-18方差分析的基本原理(误差分析)1.方差分析的基本原理就是要分析数据的总误差中有没有处理误差。如果处理(超市的不同位置)对观测数据(销售额)没有显著影响,意味着没有处理误差。这时,每种处理所对应的总体均值(i)应该相等2.如果存在处理误差,每种处理所对应的总体均值(i)至少有一对不相等3.就例8—1而言,在只考虑超市位置一个因素的情况下,方差分析也就是要检验下面的假设H0:123H1:1,2,3不全相等8.1.3方差分析的基本假定8.1方差分析的基本原理8-18统计学STATISTICS(第四版)2020-2-18方差分析的基本假定1.正态性(normality)。每个总体都应服从正态分布,即对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本在例8—1中,要求每个位置超市的销售额必须服从正态分布检验总体是否服从正态分布的方法有很多,包括对样本数据作直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以进行非参数检验等2.方差齐性(homogeneityvariance)。各个总体的方差必须相同,对于分类变量的个水平,有12=22=…=k2在例8—1中,要求不同位置超市的销售额的方差都相同3.独立性(independence)。每个样本数据是来自因素各水平的独立样本(该假定不满足对结果影响较大)在例8—1中,3个样本数据是来自不同位置超市的3个独立样本8.2单因素方差分析8.2.1数学模型8.2.2效应检验8.2.3多重比较第8章方差分析与实验设计8.2.1数学模型8.2单因素方差分析8-21统计学STATISTICS(第四版)2020-2-18单因素方差分析(数学模型)设因素A有I种处理(比如超市位置有“居民区”、“商业区”、“写字楼”3种处理),单因素方差分析可用下面的线性模型来表示ijiijy8-22统计学STATISTICS(第四版)2020-2-18单因素方差分析(数学模型)设全部观测数据的总均值为,第i个处理效应用第i个处理均值与总均值的差(i-)表示,记为i,即i=i-。这样,第i个处理均值被分解成i=i+,方差分析模型可以表达为ijiijy8-23统计学STATISTICS(第四版)2020-2-18单因素方差分析(数学模型)8.2.2效应检验8.2单因素方差分析8-25统计学STATISTICS(第四版)2020-2-18提出假设1.一般提法H0:i=0(i=1,2,…,I)•没有处理效应H1:i至少有一个不等于0•有处理效应2.注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等8-26统计学STATISTICS(第四版)2020-2-18构造检验的统计量F单因素方差分析的方差分析表8-27统计学STATISTICS(第四版)2020-2-18作出决策(F分布与拒绝域)如果均值相等,F=MSA/MSE1F分布F(k-1,n-k)0拒绝H0不拒绝H0F8-28统计学STATISTICS(第四版)2020-2-18单因素方差分析(例题分析)【例8-2】检验超市位置对销售额是否有显著影响(=0.05)8-29统计学STATISTICS(第四版)2020-2-18单因素方差分析(例题分析)模型:假设:ijiijy,4,3,2,1;3,2,1ji8-30统计学STATISTICS(第四版)2020-2-18单因素方差分析(方差分析假定的判断)箱线图分析写字楼商业区居民区600500400300200100好像不一样?8-31统计学STATISTICS(第四版)2020-2-18单因素方差分析(方差分析假定的判断)概率图分析8-32统计学STATISTICS(第四版)2020-2-18用Excel进行方差分析第1步:选择“工具”下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【单因素方差分析】,然后选择【确定】第4步:当对话框出现时在【输入区域】方框内键入数据单元格区域在【】方框内键入0.05(可根据需要确定)在【输出选项】中选择输出区域方差分析8-33统计学STATISTICS(第四版)2020-2-18单因素方差分析(例题分析)拒绝H08-34统计学STATISTICS(第四版)2020-2-18用SPSS进行方差分析和多重比较第1步:选择【Analyze】,并选择【GeneralLinearModel-Univaiate】进入主对话框第2步:将因变量(销售额)选入【DependentVariable】,将自变量(超市位置)选入【FixedFactor(s)】第3步(需要均值图时)点击【Plots】,将“超市位置”选入【HorizontalAxis】,在【Plots】下点击【Add】,点击【Continue】回到主对话框•(需要多重比较时)点击【Post-Hoc】,将“超市位置”选入【Post-HocTestfor】,在【EqualVariancesAssumed】下选择一种方法,如LSD,点击【Continue】回到主对话框8-35统计学STATISTICS(第四版)2020-2-18用SPSS进行方差分析和多重比较•(需要相关统计量时)点击【Options】,在【Display】下选中【Descriptive】,点击【Continue】回到主对话框•(需要方差齐性检验时)点击【Options】,在【Display】下选中【Homogeneitytests】,点击【Continue】回到主对话框•(需要对模型的参数进行估计时)点击【Options】,在【Display】下选中【Parameterestimates】,点击【Continue】回到主对话框•(需要预测值时)点击【Save】,并在【PredictedValues】下选中【Unstandardized】,点击【Continue】回到主对话框;点击【OK】(注:选择【Analyze-CompareMeans】,并选择【One-Way-ANOVA】也可以进行单因素方差分析,但得到的结果不如上