1/36课程设计报告课程名称应用回归分析实验学期2010年至2011年第二学期所在学院理学院年级专业班级学生姓名学号自评成绩教师评成绩学生姓名学号自评成绩教师评成绩学生姓名学号自评成绩教师评成绩学生姓名学号自评成绩教师评成绩学生姓名学号自评成绩教师评成绩指导教师2/36目录1.前言……......………………………………………………………...………………………………………….....32.问题简述....………………………………………………………...………………………………………….....33.多元线性回归…….………………………………………………...…………………………………………..44.违背基本假设情况…….………………………………………...……………………………………………74.1多元加权最小二乘估计……...………………………………………………………………………74.2自相关性问题及其处理……...………………………………………………………………………85.自变量选择与逐步回归……...…………………………………………………………………………..125.1所有子集回归……...……………………………………………………………………………………125.1.1最优Ra2法……......……………………………………………………………………………..125.1.2最优Cp法……......……………………………………………………………………………….125.2逐步回归……......………………………………………………………………………………………..135.2.1前进法……...……………………………………………………………………………………..135.2.2后退法……...……………………………………………………………………………………..145.2.3逐步回归法……...……………………………………………………………………………..176.多重共线性的情形及其处理…...……………………………………………………………………..186.1多重共线性的诊断……...……………………………………………………………………………186.1.1方差扩大因子法……...……………………………………………………………………….186.1.2特征根判定法……...…………………………………………………………………………..196.2消除多重共线性……...…………………………………………………………………………………196.3主成分回归……...……………………………………………………………………………………..237.岭回归……...……………………………………………………………………………………………………..248.含定性变量的回归模型……...…………………………………………………………………………..288.1自变量中含有定性变量的回归模型的应用……...………………………………………288.2Logistic回归模型……...………………………………………………………………………………..348.3Probit回归模型……...…………………………………………………………………………………359.总结……...…………………………………………………………………………………………………………363/361.前言本文以“汽车耗油量消耗因素”的数据为载体,在SPSS软件环境下,验证及梳理了《应用回归分析》中的数据分析方法和实验原理。本文主要利用了多元线性回归、最小二乘法估计、逐步回归、多重共线性诊断及消除、岭回归分析、定性变量回归等一系列的方法对数据进行处理,通过在实践中学习、学习中相互促进讨论,达到加深学生对《应用回归分析》的理解,提高学生对相关统计软件的应用能力的效果。2.问题简述为研究决定汽车的汽油消耗的因素,收集了30种型号的汽车数据。其中包括每辆汽车的汽油消耗量(Y),以英里/加仑为单位,以及另外11个反映物理、机械特征的变量,如下表中数据的来源是1975年的MotorTrend杂志,变量的定义在表1中给出。表1变量定义变量定义Y英里/加仑X1排气量(立方英寸)X2马力X3扭矩(英尺.磅)X4压缩比X5后轴动力比X6化油器(筒形)X7变速档数X8整体长度(英寸)X9宽度(英寸)X10重量(磅)X11传动类型(1=自动,0=手动)4/363.多元线性回归通过软件运行的增广相关矩阵,如表2:表2增广相关矩阵由相关系数矩阵可以看出,因变量Y(耗油量)与自变量X1(排气量),X2(马力),X3(扭矩),X6(化油器),X8(整体长度),X9(宽度),X10(重量),X11(传动类型)呈现负相关,与X4(压缩比),X5(后轴动力比),X7(变速档数)呈现正相关。这与实际情况相符。回归分析结果:表3最小二乘回归分析结果5/36通过回归分析表,我们可以知道回归方程高度显著。但同时发现没有一个数据对因变量Y有显著性影响,故使用后退法逐一剔除变量。首先剔除X11,用Y与其余10个自变量作回归,输出结果:表4剔除x11回归分析表剔除X11后,其余自变量的显著性都发生了不同程度的变化,但仍然没有自变量通过检验,故继续剔除变量,剔除X6,输出结果:表5剔除x6回归分析表剔除X4:表6剔除x6回归分析表6/36可以发现,此时已有自变量能通过检验,再一次剔除其余变量,最终方程中保留X8,X10,输出结果:表7最终回归分析表得回归方程为:Y=16.185+0.213X8−0.01X10再根据公式:{Xij∗=Xij−Xj̅√LjjYi∗=Yi−Y̅√LYYβ̂j∗=√Ljj√LYYβ̂j对数据进行处理,回归输出结果:表8标准化回归分析表可得出标准化回归方程:Y∗=0.714X8∗−1.535X10∗7/364.违背基本假设情况4.1多元加权最小二乘估计首先得到等级相关系数:表9等级相关系数得等级相关系数re8=−0.161,re10=−0.209,因而选X8构造权函数,输出结果:表10加权最小二乘分差分析8/36根据以上结果,在m=-2时,对数拟然函数达到极大,因而幂指数m的最优取值为m=-2。加权最小二乘的R2=0.745,F值=39.383;而普通最小二乘的R2=0.771,F值=45.525。所以,普通最小二乘法的拟合效果优于加权最小二乘法。最小二乘法回归方程:Y=15.556+0.201X8−0.009X104.2自相关性问题及其处理相关性检验:根据输出结果,DW=1.894,略小于2,故可认为存在相关性。1)用迭代法消除自相关。根据公式:ρ̂=1−12DW=0.053故有:yt′=yt−0.053yt−1xt′=xt−0.053xt−1得到数据组:表11迭代法数据组根据以上数据计算作最小二乘,输出结果:9/36表12迭代法回归分析根据输出结果,DW=1.871,相关性依然没有被消除。2)一阶差分法计算差分:∆yt=yt−yt−1,∆xt=xt−xt−1差分结果:表13一阶差分法数据组根据以上数据计算作最小二乘,输出结果:表13一阶差分法回归结果由输出结果可以看到,一阶差分仍然没有消除自相关性。10/363)精确最大似然法表14精确最大似然法回归结果4)科克伦奥克特法表15科克伦奥克特法回归结果11/365)普莱斯温斯登法表16普莱斯温斯登法回归结果根据上面输出的一系列结果,我们认为普莱斯温斯登法消除差分结果效果最佳。12/365.自变量选择与逐步回归5.1所有子集回归5.1.1最优Ra2法通过SAS输出结果:由输出结果可知,最优子集为x5,x8,x10,Ra2=0.7804。5.1.2最优Cp法通过SAS输出结果:由输出结果可知,最优子集为x5,x8,x10,Cp=−0.5769。13/365.2逐步回归5.2.1前进法取显著性水平为:表17前进法输出结果14/36由上面的结果可以得出,前进法引入了最优的回归模型是复决定系数调整的复决定系数为,而全模型的复决定系数,调整的复决定系数为。5.2.2后退法:取显著性水平表18后退法输出结果15/3616/36由上面的结果可以得出,模型1是全模型,从模型2到模型9依次剔除变量,故最优的回归模型是复决定系数,调整的复决定系数为,而全模型的复决定系数,调整的复决定系数为。17/365.2.3逐步回归法:取显著性水平为:表19逐步回归法输出结果18/36由上面的结果可以得出,逐步回归法的最优回归子集为模型2,回归方程是逐步回归的选元过程为第一步引入;第二步引入。复决定系数,调整的复决定系数为,而全模型的复决定系数,调整的复决定系数为。6.多重共线性的情形及其处理6.1多重共线性的诊断6.1.1方差扩大因子法表20方差扩大因子法方差分析从输出结果1看到,x1,x2,x3,x7,x8,x10的方差扩大因子均大于10,分别为VIF1=129,VIF2=43.996,VIF3=161.185,VIF7=11.748,VIF8=20.507,VIF10=85.570,说明回归方程存在着严重的多重共线性。19/366.1.2特征根判定法表21方差扩大因子法方差分析特征根分析:从输出结果2可以看到,矩阵X'X有多个特征根接近于零,说明X有多个多重共线性关系。条件数:从条件数看到,最大的条件数k12=239.640,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。从VarianceProportions方差比例表可以看到,第11行x4,x8,x10同时较大,为0.68,0.50,0.45,说明x4,x8,x10存在多重共线性。6.2消除多重共线性从表20看到,回归系数没能通过显著性检验,应先作自变量的选元,舍去一些变量。依次把P值最大的自变量剔除,再建立回归方程。表22消除多重共线性回归分析根据表22,依次剔除变量x11,x6,x4,x7,x1,x9,x2,x3。20/36然后得:剩下变量x5,x8,x10。表23多重共线性显著性检验表x5的系数的P值为0.510.05,没能通过显著性检验,剔除。剩下x8,x10.21/36在只剩下变量x8,x10的情况下,回归方程与回归系数均通过了显著性检验,但是x8,x10的方差扩大因子VIF8=VIF10=11.48010,条件数k3=67.41610,说明x8与x10仍存在较强的多重共线性。下面分别建立y对x8,x10的一元线性回归。得y对x8的回归方程1:ŷ=63.138−0.224x8决定系数R²=0.56622/36得y对x10的回归方程2:ŷ=40.618−0.006x10决定系数R²=0.727所以回归方程2比回归方程1拟合得更好。最终的回归模型为ŷ=40.618−0.006x10标准化回归方程为ŷ∗=−0.853x10∗23/366.3主成分回归表24输出结果根据表24,结果中有11个主成分的特征值(Eigenvalues),最大的是λ1=7.705,最小的是λ11=0.003。方差百分比反映主成分所能解释数据变异的比例,也就是包含原数据的信息比例。第一个主成分Factor1的方差百分比=70.049%,含有原始11个变量70%的信息量;前4个主成分累计含有原始11个变量近95%的信息量。因此取四个主成分已经足够了。现在用y对前4个主成分Factor1,Factor2,Factor3,Factor4做普通最小二乘回归,得主成分回归的回归方程:ŷ=20.043−5.439Factor1+0.062Factor2−0.299Factor3+0.241Factor4不过以上回归方程的自变量是用四个主成分Factor1,Factor2,Factor3和Factor4表示的,应该转换回到用原始自变量表示的回归方程。分别用四个主成分Factor1,Factor2,Factor3和Factor4做因变量,以11个原始自变量为自变量做线性回归,所得的回归系数就是所需要的线性组合的系数。这个回归中残差为0,这是因为主成分就是