第四章样本数据的统计分析回归分析3-2多元回归分析中的变量筛选在多元线性回归分析中,模型中应引入多少解释变量时需要重点研究的。如果引入的变量较少,回归方程将无法很好地解释说明被解释变量的变化。但并非引入的变量越多越好。因为变量间可能存在多重共线性的问题。多元回归分析中的变量筛选在多元回归分析中,需要采取一些策略对变量引入回归方程加以控制和筛选。主要有三种策略:向前筛选策略(Forward)向后筛选策略(Backward)逐步筛选策略(Stepwise)多元回归分析中的变量筛选向前筛选策略(Forward)解释变量不断进入回归方程的过程。首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验。然后,在剩余的变量中寻找与解释变量偏相关系数最高且通过检验的变量进入方程,并对新建立的回归方程进行各种检验;该过程一直重复,直至没有可进入方程的变量为止。多元回归分析中的变量筛选向后筛选策略(Backward)向后筛选策略是变量不断剔除出回归方程的过程。首先,所有变量全部进入方程,并进行各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,重建模型进行各项检验,直至所有变量的回归系数检验都显著。多元回归分析中的变量筛选逐步筛选策略(Stepwise)向前筛选和向后筛选的综合。向前筛选策略是变量不断进入回归方程的过程。随着变量的引入,由于解释变量之间存在一定程度的多重共线性,使某些已经进入方程的解释变量的回归系数不再显著。逐步筛选法在向前策略的基础上,结合向后筛选策略,在引入变量的每个阶段都提供了再剔除不显著变量的机会。多元回归分析中的变量筛选多元回归分析(逐步回归法)*基本思想:在考虑Y对已知的一群变量(x1,x2,…,xk)回归时,从变量xi(i=1…k)中选出对已解释变差(回归项)的贡献最大的变量,进入回归方程。多元回归分析中的变量筛选对已解释变差的贡献大小的判别依据,就是包含了偏解释变差的F统计量fj.按照统计量Fj的值fj的大小顺序依次进入方程;但所有进入方程的自变量的F统计量fj对应的显著性概率都应满足pα(即要求其对应系数bj显著异于0)多元回归分析中的变量筛选统计量Fj~F(1,n-k)(Fj的统计公式略)n------样本个数k------自变量个数若Fj观察值的显著性概率pα,接受H0,即bj与0无显著差异,xj不应成为自变量。pα,bj与0有显著差异,xj应成为自变量。多元回归分析中的变量筛选Ex3研究某城市散户股民在“证券市场的投资总额”是否可以用“证券市场外的收入”,“受教育程度”,“入市年份”和“股民年龄”来说明。多元回归分析中的变量筛选数据:CH6CH9CH10证券投资额与依据Step-1:AnalyzeregressionlinearStep-2:“证券市场的投资总额”Dependent“证券市场外的收入”“受教育程度”“入市年份”“股民年龄”Independent多元回归分析中的变量筛选Step-3:选择变量进入的方法Method•Enter:所有变量全部强行进入模型•Forward:逐步增加变量•Backward:先把所有的自变量全部放入方程,然后逐步减少自变量。多元回归分析中的变量筛选•Stepwise:Forward和Backward方法结合的方法,即“一边进,一边出”方法。•Remove:在已有回归方程的基础上,根据设定的条件,删除变量多元回归分析中的变量筛选Step-4:Option选项,选默认进入模型的变量的F统计量的概率为5%,选默认从回归方程中剔除变量的系数的F统计量的概率为10%多元回归分析中的变量筛选Step-5:LinearRegressionStatistics的输出设定Estimates:系统的缺省设置,系统输出回归系数b,b的标准差,标准回归系数Beta,b的t值及双尾检验的p值。多元回归分析中的变量筛选Step-5:LinearRegressionStatistics的输出设定Modelfit:系统的缺省设置,系统输出(在逐步回归的过程中)引入模型的变量,从模型中删除的变量,复相关系数R,判定系数R2,校正的R2,估计的标准误差,ANOVA方差分析表。多元回归分析中的变量筛选Step-6:结果及分析报告引入/剔除变量表显示变量的引入和剔除并显示引入和剔除的标准。该表反映出变量的引入顺序为“证券市场以外年收入”,“入市年份”“年龄”“受教育程度”。没有变量被剔除。多元回归分析中的变量筛选回归方程的拟合优度检验该表显示各模型的拟合情况。反映了每个模型的复相关系数,判定系数,调整判定系数和估计值的标准误差。多元回归分析中的变量筛选回归方程的显著性检验随着逐步归回的过程,SumofSquares的值不断增大,由334.4-498.04,表明随着逐步回归中模型的改进,已解释变差越来越大。反映总体回归效果的F统计值对应的概率值均小于0.01,说明每个模型的总体回归效果都是显著的。多元回归分析中的变量筛选回归系数和显著性检验表从每个模型的解释变量的t检验情况来看,几乎所有的变量的系数都在1%的水平之上,说明对应系数显著异于0.模型4的“受教育程度”的显著性概率1%,但仍小于2%,表明在0.02的显著性水平下,其对应系数b显著异于0.所有这些变量都可以作为解释变量存在与模型中,解释投资总额的变化。多元回归分析中的变量筛选令Y---投入证券市场总资金X1-----证券市场以外收入X2----入市年份X3----年龄X4-----受教育程度模型1:Y=3.494+0.377X1模型2:Y=4.493+0.374X1-0.198X2模型3:Y=3.331+0.383X1-0.166X2+0.291X3模型4:Y=2.493+0.371X1-0.18X2+0.325X3+0.273X4变量的多重共线性问题多重共线性指解释变量之间存在线性相关的现象。解释变量间高度的多重共线性会给回归方程带来许多影响。偏回归系数估计困难偏回归系数的估计方差随解释变量相关性的增大而增大偏回归系数估计值不稳定性增强…变量的多重共线性问题测度解释变量间多重共线性的方法容忍度Tolerance当Xi与其他所有自变量Xt,Xs…的相关系数Ri接近1,自变量具有明显的多重共线性。定义容忍度:Toli=1-Ri2.Toli越小,共线性越强。变量的多重共线性问题方差膨胀因子VIFVIF=1/ToliVIF大于等于1。解释变量间的多重共线性越弱,VIF越接近1。反之,共线性越强,VIF越大。变量的多重共线性问题特征根Eigenvalue和方差比VarianceProportions从解释变量的相关系数矩阵出发,计算相关系数矩阵的特征根。解释变量标准化后的方差为1.如果每个特征根都能够刻画该变量方差的一部分,那么所有特征根将刻画该变量方差的全部。变量的多重共线性问题如果某个特征根既能够刻画某解释变量方差的较大部分比例(0.7以上),同时又可以刻画另一个解释变量变差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。变量的多重共线性问题条件指数ConditionIndex在特征根基础上定义的能够反映解释变量间多重共线性的指标。Ki=𝒎𝒊第i个条件指标ki为最大特征根𝒎与第i个特征根比的平方根。显然如果ki越大,则说明解释变量间的信息重叠较多,多重共线性较严重。一般情况下100认为很严重,10~100之间则认为多重共线性较强。变量的多重共线性问题利用软件输出的相关统计量如果输出的F统计量很大,R趋于1,但同时,许多偏回归系数对应的t统计值小(其显著性概率大于),估计系数的标准差大,则表明存在多重共线性。变量的多重共线性问题多重共线性问题的处理逐步删除不重要的(t相对小)解释变量,可直接用逐步回归法完成。改变模型结构恰当处理滞后变量增大样本容量…变量的多重共线性问题Ex:用SPSS处理多重共线性被解释变量是某国的服装消费。备选的解释变量有:该国可支配收入,该国居民的金融资产,该国的服装价格指数,该国的一般价格指数。用多元回归分析服装消费与支配收入,金融资产及服装价格指数及一般价格指数的线性关系。变量的多重共线性问题Data:“CH10共线反向逐步服装需求”Command:AnalyzeRegressionLinear选择反向逐步回归方法变量的多重共线性问题结果分析:上表为逐步回归模型的总体效果参数。逐步回归进行了2次,每个模型的R及R2,都很大,总体回归效果是相当好的。变量的多重共线性问题逐步回归系数表第一次回归计算,所有变量进入模型。四个自变量对应的t统计值的概率值分别为0.015,0.772.0.078,0.072.除了“可支配收入”的t统计量的对应p5%,其余均大于0.05,表明相应的系数与0无显著差异,而总体回归效果却显示出良好,说明解释变量之间存在多重共线性。变量的多重共线性问题第二次回归计算剔除了“金融资产”变量。除了常数项外,t检验结果都很好,说明消除了多重共线性。因为Constant的对应概率为0.0980.05,本问题采用标准化回归系数StandardizedCoefficients线性回归的残差分析残差是指由回归方程计算所得的预测值与样本值之间的差距,即𝒆𝒊=𝒚𝒊−𝒚𝒊=𝒚𝒊−𝒂+𝒃𝒙𝒊如果回归方程能够较好地反映被解释变量的特征和变化率,则残差中不应该包含明显的规律性和趋势性。线性回归的残差分析基于这一点,残差分析的内容包括残差是否服从均值为0的正态分布残差是否为等方差的正态分布残差序列是否独立数值方法和图形直观分析方法都是分析过程有效的分析工具线性回归的残差分析残差均值为0的正态性分析当解释变量x取某个特定的值时,对应残差必然有正有负,但总体上应服从以0为均值的正态分布。可利用残差图进行分析。0ex残差图是一种散点图。若残差的均值为0,残差图中的点应在纵坐标为0的中心的带状区域内随机散落。正态性分析可通过绘制标准化残差的累计概率图进行分析。线性回归的残差分析残差的独立性分析残差序列的独立性是回归模型要求的。残差序列与残差序列的前期和后期数值之间不存在相关关系,即不存在自相关。自相关会带来很多问题,如普通的最小二乘估计不是最优,回归系数显著性检验的t值偏高,从而容易拒绝H0,使某些不该保留在方程中的变量保留了下来,而使得模型的预测偏差较大。线性回归的残差分析残差的独立性分析的三种方式1)绘制残差序列的序列图0et0et残差序列图以样本期(或时间)为横坐标,残差为纵坐标。帮助观察发现自相关性,右图残差随时间的推移呈现由规律的变化,表明残差序列存在一定的正或负自相关。线性回归的残差分析2)计算残差的自相关系数自相关系数是一种测度序列自相关强弱的工具,其数学定义为=𝒆𝒕𝒆𝒕−𝟏𝒏𝒕=𝟐𝒆𝒕𝟐𝒏𝒕=𝟐𝒆𝒕−𝟏𝟐𝒏𝒕=𝟐自相关系数的取值范围为-1到1之间。接近1表明序列存在正自相关;接近-1为存在负自相关。线性回归的残差分析3)Durbin-Watson检验DW检验推断小样本序列是否存在自相关的统计检验方法。统计量为DW(公式略)DW取值在04之间。即DW=0时,完全正自相关DW=(0,2),残差序列存在正自相关DW=2时,残差序列独立,没有自相关DW=(2,4),残差序列存在负自相关DW=4时,完全负相关线性回归的残差分析如果残差序列存在自相关,说明回归方程没能充分说明被解释变量的变化规律,还留有一些规律性没有被解释,也就是认为方程中遗漏了一些较为重要的解释变量;或者回归模型选择不合适,不应选用线性模型等等原因。线性回归的残差分析异方差分析回归分析要求,残差的方差应相等。若随着解释变量或被解释变量取值的变化而变化,则为出现了异方差现象。出现异方差将导致最小二乘估计不再是最小方差的无偏估计,回归系数显著性检验的t值偏高,进而容易拒绝H0假设,使不该留在方程中的变量保留下来,并最终使模型的预测偏差较大