方差分析一、问题的提出同一原材料加工产品质量产地各组产品的质量是否有显著差异?随机原则一个班级的学生,某门课程的成绩专业分组各组学生的成绩是否有显著差异???差异随机误差系统误差随机原则加以比较若存在显著性差异,则说明该因素的影响是显著的•例某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超级市场上收集了前一时期该饮料的销售情况,见下表,试分析饮料的颜色是否对销售量产生影响。该饮料在五家超市的销售情况超市无色粉色橘黄色绿色1234526.528.725.129.127.231.228.330.827.929.627.925.128.524.226.530.829.632.431.732.8二、方差分析的基本概念1、因素:因素又称因子,指所要检验的对象。是在实验中或在抽样时发生的“量”,通常用A、B、C……表示。–要分析饮料的颜色对销售量是否有影响,颜色是要检验的因素或因子1)单因素方差分析在实验中变化的因素只有一个。本例中只涉及一个因素,因此称为单因素方差分析2)多因素方差分析在实验中变化的因素不只有一个。2、水平因子在实验中的不同状态或因素的具体表现称为水平。上例中A1、A2、A3、A4四种颜色就是因素的水平3、交互影响如果因子间存在相互作用,称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。4、观察值–在每个因素水平下得到的样本值–上例中每种颜色饮料的销售量就是观察值5、总体–因素的每一个水平可以看作是一个总体–上例中A1、A2、A3、A4四种颜色可以看作是四个总体6、样本数据–上面的数据可以看作是从这四个总体中抽取的样本数据数据结构观察值(j)因素(A)i水平A1水平A2…水平Ar12::nx11x12…x1rx21x22…x2r::::::::xn1xn2…xnr三、方差分析的基本思想(一)比较两类误差以检验均值是否相等(二)比较的基础是方差比(三)如果系统(处理)误差显著地不同于随机误差,则均值就是不相等的;反之,均值就是相等的(四)误差是由各部分的误差占总误差的比例来测度的(一)两类误差1、随机误差–在因素的同一水平(同一个总体)下,样本的各观察值之间的差异–比如,同一种颜色的饮料在不同超市上的销售量是不同的–不同超市销售量的差异可以看成是随机因素的影响,或者说是由于抽样的随机性所造成的,称为随机误差2、系统误差–在因素的不同水平(不同总体)下,各观察值之间的差异–比如,同一家超市,不同颜色饮料的销售量也是不同的–这种差异可能是由于抽样的随机性所造成的,也可能是由于颜色本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差(二)两类方差1、组内方差–因素的同一水平(同一个总体)下样本数据的方差–比如,无色饮料A1在5家超市销售数量的方差–组内方差只包含随机误差2、组间方差–因素的不同水平(不同总体)下各样本之间的方差–比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差–组间方差既包括随机误差,也包括系统误差(三)方差的比较如果不同颜色(水平)对销售量(结果)没有影响,那么在组间方差中只包含有随机误差,而没有系统误差。这时,组间方差与组内方差就应该很接近,两个方差的比值就会接近1。如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差就会大于组内方差,组间方差与组内方差的比值就会大于1。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异。(四)基本假定1、每个总体都应服从正态分布–对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本–比如,每种颜色饮料的销售量必须服从正态分布2、各个总体的方差必须相同–对于各组观察数据,是从具有相同方差的总体中抽取的–比如,四种颜色饮料的销售量的方差都相同3、观察值是独立的–比如,每个超市的销售量都与其他超市的销售量独立三、方差分析的原理(一)方差的分解离差平方和可分解为组间方差与组内方差。离差平方和=组间方差+组内方差(二)检验统计量检验因子影响是否显著的统计量是一个F统计量:组内均方差组间均方差FF统计量越大,越说明组间方差是主要的方差来源,因子影响是显著的;F统计量越小,越说明随机方差是主要的方差来源,因子的影响不显著。四、单因素方差分析H0:各水平的均值相等H1:各水平均值不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和:SST=SSA+SSE自由度:nr-1=(r-1)+(nr-r)均方差:MST=MSA+MSE检验量=组间均方差/组内均方差即:F=MSA/MSE(r1,rr)nF检验规则五、单因素方差分析的步骤(一)提出假设H0:各水平的均值相等H1:各水平均值不全相等(二)构造检验统计量为检验H0是否成立,需确定检验的统计量F统计量MSAFMSE组间均方差组内均方差(三)统计决策•将统计量的值F与给定的显著性水平的临界值F进行比较,作出接受或拒绝原假设H0的决策•1、根据给定的显著性水平,在F分布表中查找与第一自由度=r-1、第二自由度=nr-r相应的临界值F–若FF,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响–若FF,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响2、单因素方差分析表方差来源平方和SS自由度df均方MSF值组间(因素影响)组内(误差)总和SSASSESSTr-1nr-rnr-1MSAMSEMSA/MSE例为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的样本,其中零售业抽取7家,旅游业抽取了6家,航空公司抽取5家、家电制造业抽取了5家,然后记录了一年中消费者对总共23家服务企业投诉的次数,结果如表所示。试分析这四个行业的服务质量是否有显著差异?(=0.05)消费者对四个行业的投诉次数观察值(j)行业(A)零售业旅游业航空公司家电制造业12345675755464554534762496054565551494855477068636960解:提出假设H0:u1=u2=u3=u4(四个行业的服务质量无显著差异)H1:u1,u2,u3,u4不全相等(有显著差异)Excel输出的结果如下差异源SS自由度MSFP-值临界值组间845.21743281.739114.787413.31E-053.127354组内3621919.05263总和1207.21722结论:拒绝H0,四个行业的服务质量有显著差异学员成绩表1234职员家庭6.27.89.18.9工人家庭5.45.86.97.5农民家庭5.16.35.97.5方差分析:单因素方差分析SUMMARY组计数求和平均方差职员家庭43281.766667工人家庭425.66.40.94农民家庭424.86.21方差分析差异源SSdfMSFP-valueFcrit组间7.78666723.8933333.1510790.0917714.256492组内11.1291.235556总计18.9066711因为:F=3.154.26或P(0.092)(0.05)所以接受原假设,认为不同的家庭背景对学员成绩没有显著影响。