1第九章方差分析和回归分析关键词:单因素试验一元线性回归回归诊断2方差分析(Analysisofvariance,简称:ANOVA),是由英国统计学家费歇尔(Fisher)在20世纪20年代提出的,可用于推断两个或两个以上总体均值是否有差异的显著性检验.3§1单因素方差分析例:为了比较三种不同类型日光灯管的寿命(小时),现将从每种类型日光灯管中抽取8个,总共24个日光灯管进行老化试验,根据下面经老化试验后测算得出的各个日光灯管的寿命(小时),试判断三种不同类型日光灯管的寿命是不是有存在差异.4日光灯管的寿命(小时)类型寿命(小时)类型I52906210574050005930612060805310类型II58405500598062506470599054705840类型.III71306660634064707580656072906730引起日光灯管寿命不同的原因有二个方面:其一,由于日光灯类型不同,而引起寿命不同.其二,同一种类型日光灯管,由于其它随机因素的影响,也使其寿命不同.5在方差分析中,通常把研究对象的特征值,即所考察的试验结果(例如日光灯管的寿命)称为试验指标.对试验指标产生影响的原因称为因素,“日光灯管类型”即为因素.因素中各个不同状态称为水平,如日光灯管三个不同的类型,即为三个水平.6单因素方差分析仅考虑有一个因素A对试验指标的影响.假如因素A有r个水平,分别在第i水平下进行了多次独立观测,所得到的试验指标的数据122221122111212122212:,:,:,rrrrrnnnrANANANXXXXXXXXX72~(0,),1,2,,1,2,,ijjijijijjXNinjr各独立,每个总体相互独立.因此,可写成如下的数学模型:8方差分析的目的就是要比较因素A的r个水平下试验指标理论均值的差异,问题可归结为比较这r个总体的均值差异.9012112:...:,,...,rrHH不全相等。检验假设111——rrjjjjjnnnn记总平均,其中,1,2,...,jjjAjr——水平的效应1122...0rrnnn此时有1021122(0,),1,2,,1,2,,...0ijjijijijjrrXinjrnnn模型为:各独立,假设等价于012112:0:,,,rrHH不全为零。11为给出上面的检验,主要采用的方法是平方和分解。即假设数据总的差异用总离差平方和分解为二个部分:一部分是由于因素A引起的差异,即效应平方和;另一部分则由随机误差所引起的差异,即误差平方和。TSASES12211jnrTijjiSXX定义:总偏差平方和22211rrAjjjjjjSnXXnXnX效应平方和22211rrAjjjjjjSnXXnXnX效应平方和211jnrEijjjiSXX误差平方和131TAESSS性质:221111jjnnrrTijijjjjijiSXXXXXX证明:221111112jjjnnnrrrijjjijjjjijijiXXXXXXXXAESS11110jjnnrrijjjjijjjijiXXXXXXXX1422121rTjjjESnn性质:2211rAjjjESnr2EESnr152221111jjnnrrTijijjijiESEXXEXnX证明:2211()()jnrijjiEXnEX1111()()1()jnrijjirjjjEXEXnnn222211[()][]jnrjjinn2221111jjnnrrTijijjijiESEXXEXnX证明:2221111jjnnssTijijjijiESEXXEXnX证明:1622222112rrjjjjjjnnnnn2211rjjjnn211()jnrEijjjiESEXX221(1)()rjjnnr17221()()1rATEjjjESESSnr18202(2)~(1)AAESHrSS当为真时,;且有,与相互独立。0(1)~(1,).()AESrHFFrnrSnr从而,当为真时,定理9.1.122(1)~()ESnr;19AS1AASMSrAEMSMSESEESMSnrTS方差来源平方和自由度均方F比因素Ar-1误差n-r总和n-1单因素试验方差分析表20,,TAESSS计算的简便公式:111,1,2,,,jjnnrjijijijiTXjrTX记22221111jjnnrrTijijjijiTSXnXXn222211rrjAjjjjjTTSnXnXnnETASSS21例1设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05)22药物类型治愈所需天数x15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,623这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。0123451125::,,...,HH解:检验假设不全相等。2421234513145125,6,30,1047,,.30,,.31,.37,...16965.42jnrijjirnnnnnnTXTTTTT21234513145125,6,30,1047,,.30,,.31,.37,...16965.42jnrijjirnnnnnnTXTTTTT21234513145125,6,30,1047,,.30,,.31,.37,...16965.42jnsijjisnnnnnnTXTTTTT21234513145125,6,30,1047,,.30,,.31,.37,...16965.42jnsijjisnnnnnnTXTTTTT250.050(4,25)2.76FH。拒绝,认为疗效有显著差异。方差来源平方和自由度均方F比因素A36.46749.1173.90误差58.500252.334总和94.9672926未知参数的估计22ˆˆ1;(2)ˆˆ(3)(4)EjjjjjjSXnrXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk当拒绝时,进一步比较和的差异,可以作的区间估计。27211(),()jkjkjkjkEXXDXXnn因为2ˆjkEXXMS且与相互独立。2()()()()()~()(11)(11)jkjkjkjkEjkEjkXXXXSnrtnrnnMSnn故()1jk得的水平为的置信区间2()(11)jkEjkXXtnrMSnn28213123521,,(1,2,3,4,5)0.95jjj例求例中未知参数的点估计,并求,,的置信度为的置信区间。22ˆˆ2.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXnr解:的估计;的估计;的估计分布为:;的估计分布为:0.025(25)2.0595,(11)0.8819EjktMSnn查表得291312350.95(1.3504,4.983)(0.6837,4.3163)(3.6497,0.0171),,的置信度为的置信区间分别为:,,131235说明与,与,与的差异都显著。30在Excel上实现方差分析先加载''数据分析这个模块,方法如下:在excel工作表中点击主菜单中“工具”点击下拉式菜单中“加载宏”就会出现一个“加载宏”的框.在“分析工具库”前的框内打勾点击“确定”.这时候再点击下拉式菜单会新出现“数据分析”.然后就可以进行统计分析了.31以下面的例子来说明用Excel进行方差分析的方法:保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示.试判断在四个不同地区索赔额有无显著的差异?32保险索赔记录地区索赔额(万元)A11.601.611.651.681.701.701.78A21.501.641.401.701.75A31.641.551.601.621.641.601.741.80A41.511.521.531.571.641.6033在Excel工作表中输入上面的数据点击主菜单中“工具”点击下拉式菜单中“数据分析”就会出现一个“数据分析”的框.点击菜单中“方差分析:单因素方差分析”点击“确定”,出现“方差分析:单因素方差分析”框.34在“输入区域”中标定你已经输入的数据的位置根据你输入数据分组情况(是按行分或按列分)确定分组.选定方差分析中F检验的显著水平选定输出结果的位置点击“确定”.在你指定的区域中出现如下方差分析表:35方差来源平方和自由度均方F比P-valueFcrit组间0.049230.01642.16590.12083.0491组内0.1666220.0076总计0.215825方差分析表36根据Excel给出的方差分析表,假设H0的判别有二种方法:根据前面所讲的F检验查出),1(rnrF的值,给出拒绝域),1(rnrFFW,然后根据由观测值计算得出的F的值,判断F的值是不是落在拒绝域内,给出拒绝或接受假设0H的结论.Excel计算结果的方差分析表中在Fcrit这列下面给出了),1(rnrF这个值。37在这个例子中,16.3)18,3(05.0F,因此拒绝域为16.3FW.由观测值计算得1658.2F,所以没有落在拒绝域内,因此接受假设0H,即各地区索赔额无显著差异.38另一方法是看P_值是否小于等于,若_P,则拒绝原假设,否则,接受原假设。在这个例子中,_0.12080.05P,因此接受假设0H,即各地区索赔额无显著差异.39方差分析的前提进行方差分析必须具备三个基本的条件:(1)独立性.数据是来自r个独立总体的简单随机样本.(2)正态性.r个独立总体均为正态总体.(3)方差齐性.r个正态总体的方差是相同的,即满足假设222222012112:,:,,rrHH不全相等40方差分析和其它统计推断一样,样本的独立性对方差分析是非常重要的,在实际应用中会经常遇到非随机样本的情况,这时使用方差分析得出的结论不可靠.因此,在安排试验或采集数据的过程中,一定要注意样本的独立性问题.41在实际中,没有一个总体真正