第三章逐步回归与自变量筛选方法一、问题的提出1.多元线性回归需对系数作检验,无意义的变量需剔除,由于变量间相关性,其他变量的显著性发生改变2.从应用和分析目的角度,精选自变量——模型拟合要优、变量节俭问题:如何选择自变量进入模型?1.分析目的;2.建立模型的统计准则是什么?3.结合专业和实际问题考虑二、自变量筛选的标准与原则1.残差平方和、残差均方准则当残差平方和(SSE)最小时,决定系数(R2)达到最大。n为样本含量,R2为包含m个自变量的回归方程的决定系数。R2是随着变量数的增加而增大,而不受变量数的影响,2ˆSS()YY残21SSRSS残总SSMSnm1残差残差=2adjn11(1-R)1nm1MSRMS残总adjRadjRpmn2nm1PSSCSS()剩剩()统计量=(p+1)2.CP统计量n为样本含量,p表示进入模型的自变量个数,m表示所有自变量个数,表示从全部m个自变量的回归模型中得到的残差均方。在模型变量个数减少的过程中第一次值接近p+1时,模型最佳。如果自变量中没有包含对Y有主要作用的变量,则不宜用方法选择自变量。3.AIC准则由Akaike在极大似然基础上提出的,Akaike信息量准则AIC=n㏑(ssp)-2(p+1)ssp表示选入模型p个变量的剩余平方和。AIC越小越好。mSSnm1()剩pCpC模型中变量数调整R2Cp变量13.71X115.83X218.99X322.69X1X224.70X1X324.81X2X334.00X1X2X34.预测平方和准则(press统计量,预测精度)Press=∑di2di2=Yi-X‘IX‘i表示剔除了所要预测的第i观测值以后所剩余观测值所做估计。5.逐步回归(统计显著性准则)统计显著性准则:把有统计学意义的变量选入模型,得到的回归模型不一定是最佳预测模型。三.逐步回归分析(stepwiseregression)1.概述简单地对回归系数作检验,比较复杂;用前述的几个指标是在所有子集回归中选最优回归模型,而逐步回归是每一步引入或剔除一个变量(其标准是F检验),直到引不进又剔不出为止,建立一个包含所有对因变量有影响的自变量。不是最优回归i()i()二、逐步回归法方法:向前法(forward)、向后法(backward)、逐步法(stepwise)每一步只引入或剔除一个自变量准则,是基于对偏回归平方和的F检验1;1;)1(21)(pnpnSSSSSSFjj残回回(1)向前法(forward),回归方程中的自变量是一个个进入的,最有统计学意义的变量最先进入,依此类推。即只进不出。Y对每一个自变量作线性回归,计算各自变量的偏回归平方和,选取偏回归平方和最大者作F检验,有意义(P小)则引入…。局限性:即后续变量的引入可能会使进入方程的自变量变得不重要。(2)向后法(backward),先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。即只出不进。偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大)。重复上述过程。剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。(3)逐步法(stepwise),逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。逐步的把有统计学意义的变量选入模型,也逐步剔除原先无统计学意义的变量。即有进有出。该方法本质上是前进法。3.计算方法与步骤首先确定引入与剔除变量的F统计量标准,检验水准a定为0.05~0.30,值越小表示选取自变量的标准越严。注意:引入变量的检验水准要小于或等于剔除变量的检验水准。四.注意事项1.选择恰当的a和F值(选择不同的a多做几次,看哪个更合要求)。2.当自变量之间有高度相关时,很难建立模型。3.可以考察变量之间的交互作用。4.有从专业上认为必须引入01122jjˆ...()ijybbxbxbxCxx五.回归系数反常分析㈠回归系数的反常现象1.回归系数的正负符号与客观实际不一致。2.专业认为有统计学意义,但结果无统计学意义。回归系数正常,但标准误很大,无统计学意义。3.稍微改变a,引入的变量差别较大,回归方程不稳定。4.重要变量进不了模型。㈡主要原因1.自变量的多重共线性2.设计时某些重要的变量没有考虑进来。3.样本量太小4.变量的测量误差大有异常值。5.变量取值范围太窄。六.SAS程序DataA;Inputx1-x3y;Cards;….Procreg;Modely=x1-x3/selection=stepwise(forwardbackward)slesls;Run;Procreg;Modely=x1-x3/cpadjrsq;Run;Procstepwise;Modely=x1-x3/stepwise(forwardbackward)slesls;Run;作业:课本P322例20-3要求:1.用R2和R2adj建模型2.用Cp统计量建模型3.用逐步回归建模型4.对以上模型用press做出评价