sas多元回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1多变量线性模型观测方程Yi=b0+b1xi1+...+bpxip+ei,i=1,...,nei:相互独立、正态分布、同方差、零均值最小二乘估计:niippiixxY12110min.)...(bbb归为b0,b1,...,bp的一个线性方程组2多变量线性模型多变量线性模型可同时研究Y与多个独立变量x1,x2,..,xp间的关系对多变量模型进行解释和选择最优要比单变量的模型复杂在试验结果的解释、分析、预测等方面,多变量线性模型是一个有力的工具。一些变量间的非线性关系也可归为多变量线性模型(例多项式关系)3多变量线性模型4平方和分解bˆˆXY:p预测值SSSSyyyyyySSErrorModel)ˆ()ˆ()(Total222YXXXXIY))((Error1SSSSSSRpnSSsTotalModel)1/(ErrorMSEˆ2225PRESS()()YYii2bˆˆXY:预测值pMSE))((PredictErrStdPredict)ErrStd(ˆ2/xXXx1ty均值置信限:MSE))(1()ˆ(ˆ)ˆ(ˆˆ2/xXXx1yyVyyVty预测值置信限:6多变量线性模型的检验在多变量回归分析输出的回归参数的t-检验里,都是假定其它相依变量进入回归的前提下检验该变量进入的显著性。若模型中有两个变量有相关,在这一检验中两者的显著性都可被隐蔽起来。所以,这一检验结果必须小心分析。删除变量时,必须逐个删除。并在删除每个变量后,注意观测其它变量的p-值的变化。7F检验89回归系数的显著性检验在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,因此我们总想从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程。所以就需要对每个自变量进行显著性检验。101112拟合优度13在两个变量的简单相关系数中,相关系数有正负之分,而复相关系数表示的是因变量y与全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号来确定,因而复相关系数都取正号。14标准化回归系数标准化回归系数是比较自变量对y影响程度相对重要性的一种较为理想的方法,有了标准化回归系数后,变量的相对重要性就容易进行比较了。但是,我们仍提醒人们对回归系数的解释须采取谨慎的态度,这是因为当自变量相关时会影响标准化回归系数的大小。样本相关阵偏判定系数在多元线性回归分析中,当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。在讲偏相关系数之前,首先引入偏判定系数。1.两个自变量的偏判定系数偏相关系数偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。偏相关系数与回归系数显著性检验的t值是等价的。26变量(模型)选择在回归方程中,若遗漏了应加入的变量,将使所有的回归系数估计量产生偏差;若加入了不该加入的变量,将加大所有的回归系数估计量的方差。回归分析中变量的选择是要在独立变量中找出合适的子集,用以描述模型和进行预测。常用选元准则1.自由度调整复相关系数达到最大。)1(11122RpnnRadj2.赤池信息量AIC达到最小。3.Cp统计量达到最小。pxAICL2),ˆln(2pnSSESSEmnCmpp2)1(因为这个实际问题所涉及的自变量本来就较少,只有3个,所以从几个准则看到全模型是“最优”的。这种情况在自变量只有少数几个时是常见的,但当涉及的自变量数目较多时,很少见到全模型是最优的。我们讲的最优是相对而言,在实际问题的选模中,应综合考虑,或根据实际问题的研究目的从不同最优角度来考虑。问题的提出当可供选择的自变量不太多时,用前边讲过的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,我们提出了一些较为简便、实用、快速的选择“最优”方程的方法。32变量选择准则(逐步回归)逐步回归方式挑选有关的选项:FORWARD:逐个加入BACKWARD:全部加入后逐个剔除STEPWISE:边进边出33变量选择准则(逐步回归)MAXR:开始加入使R2增加最大的变量以后每一步选择模型内外变量进行对换,选择R2增加最大的对换选择加入一个使R2增加最大的新变量MINR:开始加入使R2增加最小的变量以后每一步选择模型内外变量进行对换,选择R2增加最小的对换选择加入一个使R2增加最小的新变量34变量选择准则(全部回归)RSQUARE:RSQ对不同个数自变量分别选择最大的模型ADJRSQ:Adj-RSQADJRSQ选最大的模型112[()()/()]njRnpCP:MSEMSEMSE选最先满足的模型CpCpNpppp()()/fullfullHock建议:预测估计CpCpppp()(),21full1、前进法。前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。2、后退法。后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。3、逐步回归。基本思想是“有进有出”。将变量一个一个引入,每引入一个变量后对入选的变量进行逐个检验,当原引入的变量变得不再显著时,要将其剔除。关于多重共线性问题共线性(collinearity,multicollinearity)问题是指独立变量间存在线性关系。多重共线性产生的背景解释变量之间完全不相关的情形是非常少见的,尤其是研究某个经济问题时,涉及的自变量较多,我们很难找到一组自变量,它们之间互不相关,而且它们又都对因变量有显著影响。这样的一组自变量甚至是找不到的。客观地说,某一经济现象,涉及到多个影响因素时,这多个影响因素之间大都有一定的相关性。当它们之间的相关性较弱时,我们一般就认为符合多元线性回归模型设计矩阵的要求;当这一组变量间有较强的相关性时,我们就认为是一种违背多元线性回归模型基本假设的情形。多重共线性对回归模型的影响变量间的线性关系会隐蔽变量的显著性也会增加参数估计的方差产生不稳定的模型只有拟合多元回归才会发生这一问题共线性的诊断可使用方差膨胀因子、条件指数和方差比例40回归诊断共线性诊断-VIF方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量r2rTOL111VIFrR独立时系数方差系数方差Rr2是Xr关于模型中其它独立变量回归的R2一般采用VIF10表明存在共线性问题INSIGHT在拟合回归时自动生成VIFProcREG的Model语句加选项VIF41回归诊断共线性诊断-条件指数和方差比例条件指数(conditionindex)和方差比例(varianceproportion)联合使用可确认存在线性关系的变量组条件指数(hi=(lmax/li)1/2)在10-30间为弱相关在30-100间为中度相关大于100表明有强相关大的条件指数伴随方差比例0.5可确认有共线性的独立变量子集直观判定法1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化,我们就认为回归方2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验时,可初步判断存在着严重的多重共线性。3.有些自变量的回归系数所带正负号与定性分析结果违背时,我们认为存在多重共线性问题。4.自变量的相关矩阵中,自变量间的相关系数较大时,我们认为可能会出现多重共线性问题。5.一些重要的自变量的回归系数的标准误差较大时,我们认为可能存在多重共线性。消除多重共线性的方法1.删除一些不重要的解释变量2.增加样本容量3.回归系数的有偏估计4.岭回归的方法5.主成分回归【例】考察进口总额IMPORT与三个自变量国内生产总值GDP、储蓄SAVE和总消费CONSUME之间的关系。现收集了某国1990年到2000年共11年数据,列于下表。试确定进口总额与国内生产总值、储蓄和总消费之间的数量关系。YEAR19901991199219931994199519961997199819992000IMPORT15.916.419.019.118.820.422.726.528.127.626.3GDP149.3161.2171.5175.5180.8190.7202.1212.4226.1231.9239.0SAVE4.24.13.13.11.12.22.15.65.05.10.7CONSUME108.1114.8123.2126.9132.1137.7146.0154.1162.3164.3167.6

1 / 44
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功