1本章要点多重共线性的含义多重共线性产生的原因多重共线性的后果判断多重共线性的方法及其修正方法虚拟变量的设置原则虚拟变量模型的应用邹氏检验的做法及缺陷虚拟变量法检验结构稳定性的优点2多重共线性的概念多重共线性(multicollinearity)一词最早由挪威经济学家弗瑞希(R.Frisch)于1934年提出。其原义是指回归模型中的一些或全部解释变量中存在的一种完全(perfect)或准确(exact)的线性关系。而现在所说的多重共线性,除指上述提到的完全多重共线性(perfectmulticollinearity),也包括近似多重共线性(nearmulticollinearity)。3为对上述两概念加以区别,我们以一组解释变量为例如果存在一组不完全为零的常数满足,即任一变量都可以由其它变量的线性组合推出,则这组变量满足完全多重共线性。若变量组,满足如下关系式,其中u表示随机误差项,即某一变量不仅取决于其它变量的线性组合,也取决于随机误差项,此时变量组之间存在非严格但近似的线性关系,解释变量之间高度相关,也即变量组存在近似多重共线性关系。12n...、、1122nnX+X+...+X=012nXXX、、...12nXXX、、...1122nnX+X+...+X+u=04多重共线性产生的原因多重共线性问题在金融数据中是普遍存在的,不仅存在于时间序列数据中,也存在于横截面数据中。具体而言,多重共线性产生的原因主要有以下几点:(1)数据收集及计算方法。(2)模型或从中取样的总体受到限制。(3)模型设定偏误。此外,在观测值个数较少,以至于小于解释变量个数时,也会产生多重共线性;时间序列数据中,若同时使用解释变量的当期值和滞后值,由于当期值和滞后值之间往往高度相关,也容易产生多重共线性。5多重共线性的后果多重共线性不会改变最小二乘估计的无偏性,但在解释变量之间存在严重的多重共线性而被忽略时,会对模型的估计、检验与预测产生严重的不良后果。以某一离差形式(即)表示的二元线性回归模型为例若存在完全多重共线性,假设存在关系常数。则的估计值同理也是无法确定的,即不能求得参数估计值。ttXXx1122iiiiyxxv12iixx0122212122222212222222221212220ˆ()()()0iiiiiiiiiiiiiiiiiiiyxxxxyxyxxyxxxxxxxx2ˆ6而对于参数估计值的方差,有同理,的方差也是无限大的。因此,当存在完全多重共线性时,我们将不能求得参数估计值,参数估计值的方差无限大。当存在近似多重共线性时,尽管可以求得参数估计值,但它们是不稳定的,同时参数估计值的方差将变大,变大的程度取决于多重共线性的严重程度。2222221222222222121222ˆvar()()()()viviiiiiiixxxxxxxx2ˆ7在实际金融数据中,完全多重共线性只是一种极端情况,各种解释变量之间存在的往往是近似多重共线性,因此通常所说多重共线性造成的后果是指近似多重共线性造成的后果,具体而言,它将造成如下的后果:(1)回归方程参数估计值将变得不精确,因为较大的方差将会导致置信区间变宽。(2)由于参数估计值的标准差变大,t值将缩小,使得t检验有可能得出错误的结论。(3)将无法区分单个变量对被解释变量的影响作用。8多重共线性的检验如前所述,多重共线性普遍存在于金融、经济数据中,因此对多重共线性的检验并不是要确定其是否存在,而是要确定多重共线性的程度。由于多重共线性是对被假定为非随机变量的解释变量的情况而言的,所以它是一种样本而非总体特征,这决定了我们只能以某些经验法则(rulesofthumb)来检验模型的多重共线性。对多重共线性的检验主要包括以下内容:(1)检验多重共线性问题是否严重(2)多重共线性的存在范围,即确定多重共线性是由哪些主要变量引起的。(3)多重共线性的表现形式,即找出与主要变量有共线性的解释变量。9检验多重共线性问题是否严重若回归模型的值高(如0.8),或F检验值显著,但单个解释变量系数估计值却不显著;或从金融理论知某个解释变量对因变量有重要影响,但其估计值却不显著,则可以认为存在严重的多重共线性问题。若两个解释变量之间的相关系数高,比如说大于0.8,则可以认为存在严重的多重共线性。2R2R10判断多重共线性的存在范围要确定多重共线性是由哪些主要变量引起的,可以采用辅助回归法(auxiliaryregressionmethod)。所谓辅助回归是指某一解释变量对其余解释变量的回归,区别于因变量对所有解释变量回归的主回归(mainregression)。辅助回归法构造的检验统计量定义如下:服从自由度为k-1与n-k的F分布其中(i=1,2,…k)为第i个解释变量关于其余解释变量的辅助回归的拟和优度,k为解释变量的个数,n代表样本容量。22iiiR/(k1)F=(1R)/(nk)2iRXi11检验多重共线性的表现形式当确定多重共线性是由哪些主要变量引起后,若要找出与主要变量有共线性的解释变量,即确定多重共线性的表现形式,可采用偏相关系数法。解释变量与偏相关系数即是在其它的解释变量固定的情况下它们之间的相关系数。偏相关系数法构造的检验统计量定义如下:,服从自由度为n-k-1的t分布其中n为样本容量,k为解释变量的个数,为与的偏相关系数。若显著不为零,则认为、是引起多重共线性的原因,否则不是。2ijiijtnk11ijXijXitXijXXijX12多重共线性的修正如前所述,多重共线性在金融数据中是普遍存在的,是否对多重共线性采取修正措施取决于多重共线性的严重程度。若多重共线性程度较轻微,并不严重影响系数估计值(符号正确,t值显著),则可以忽略多重共线性问题。若多重共线性对重要因素的系数估计值有严重的影响,则必须进行补救。采取何种补救措施,则取决于多重共线性因素的重要性、其它数据来源的可用性、所估计模型的目的以及其它需要考虑的事项。以下将介绍几种补救措施。13多重共线性的修正一、删除不必要的变量如果在产生多重共线性的因素中有相对不重要的变量,则可试着将其删除,这是解决多重共线性最简单的方法,但删除变量也可能会导致新问题的产生:(1)被删除变量对因变量的影响将被其它解释变量和随机误差项所吸收,这可能一方面解决了一部分变量的多重共线性问题,但另一方面却又同时增强了另一部分变量的多重共线性问题,而且,还可能使随机误差项的自相关程度增强。(2)删除某个变量可能会导致模型设定误差(specificationerror)。所谓模型设定误差,指的是在建立回归模型的过程中,因为错误设定模型结构而产生的误差。错误的删除解释变量将会导致最小二乘估计值是有偏的。14二、改变解释变量的形式。1、差分法对于时间序列数据而言,若原始变量存在严重的多重共线性,则可以考虑对变量取差分形式,可在一定程度上降低多重共线性的程度。例如对于模型,可把变量变换为差分形式:2、指数增长率方法例如研究三种指数关系时,可用如下模型:t011t22ttY=+X+X+ut011t22ttY=+X+X+u123ppp、、1t122t33ttp=+p+p+viti,t-1itititi,t-1i,t-1i,t-1(p-p)pp=log()log(p)-log(p)pp153、以比率代替高度相关的变量若模型中存在高度相关的变量,在不违反金融理论的前提下,可以求得两者之间的比率,并以此比率代替相应变量出现在模型中。例如对于模型,若与之间高度相关,且模型的目的是用于预测,则可令,则可在一定程度上消除多重共线性此外,当模型中有较多解释变量的滞后值,并存在严重多重共线性时,可以考虑用被解释变量的滞后值代替解释变量的滞后值;以人均形式的变量代替总体变量在某些状况下也可以在一定程度上降低多重共线性的程度。t011t22t33ttY=+X+X+X+u2tX3tX2tt3tXR=Xt011t2ttY=+X+R+v16多重共线性的修正三、补充新数据。由于多重共线性是一样本特征,故有可能在关于同样变量的另一样本中共线性没有第一个样本那么严重。Christ(1966)认为:解释变量之间的相关程度与样本容量成反比,即样本容量越小,相关程度越高;样本容量越大,相关程度越小。因此,收集更多观测值,增加样本容量,就可以避免或减轻多重共线性的危害。17多重共线性的修正四、利用先验信息法。这里的先验信息,包括从金融理论以及实际统计资料所获得的解释变量或所估计参数之间的关系。若发生多重共线性的那些解释变量之间的关系可由先验信息得到,则在所研究的模型中利用这种关系,便可以减轻多重共线性的程度。18金融数据的多重共线性处理:示例理论上,股票代表着对公司未来现金流的所有权,因此,公司未来的收益以及利息是股票价格的决定因素。而宏观经济形势能够影响到公司未来的收益,进而对股票价格产生影响。同时宏观经济形势也能够通过其它的一些渠道直接对股票价格产生影响。我们将以整个股票市场为研究对象,来考虑影响股票价格指数的宏观经济因素以及它们的影响程度。我们将采取从一般到特别的建模方式,即首先将模型中包含尽可能多的变量,然后通过各种检验逐步剔出对因变量没有解释能力的变量。19对影响股票价格指数宏观经济因素的实证分析我们选择上证综指(以Y表示)作为股票价格指数的代表。对于影响股票价格指数的宏观经济因素,初步选定如下的十个宏观变量:居民消费物价指数、商品零售物价指数、企业商品价格指数、工业增加值、固定资产投资、社会消费品零售总额、股市成交量、外汇市场交易量、汇率、货币供应量m1、进出口额。分别以至代表。其中前三个价格指数从不同侧面反映了我国的市场环境,而则从不同侧面反映了整体经济状况,反映了我国金融环境的影响,股市成交量从一个侧面反映了股市状况。我们采用的数据是从2000.1-2004.9月的月度数据,对于价格指数变量以及汇率,我们以原变量形式进入模型,而对于其它变量,我们取其对数形势进入模型。1X11X20在对数据调整后,我们建立如下的模型:利用普通最小二乘法回归方程,得到如下的结果:去掉不显著的变量,对模型重新回归得到:t011t22t33t44t55t66t77tlogY=+X+X+X+logX+logX+logX+logX88t99t1010t1111tt+logX+X+logX+logX+ut1t2t3t4t5t6tlogY=619.880.062X+0.006X+0.053X+0.078logX+0.067logX-0.357logX7t8t9t10t11t+0.061logX-0.001logX-72.596X-0.789logX-0.186logXt1t3t6t7t9t10tlogY=739.370.055X+0.05X-0.257logX+0.056logX-86.951X-0.91logX21在10%的显著性水平下,变量系数估计值的t值都是显著的,模型的=0.78,=0.75,总体上看模型是不错的。尽管估计值的t值是显著的,我们仍来检验该模型解释变量之间是否存在多重共线性,因为若两个变量之间存在高度相关并且符号相反,他们的作用就会相互抵消,从而有可能两个变量都是显著的。首先,根据和t值,我们无法发现多重共线性,因此我们将利用变量之间的相关系数来判断。2R2R2R22在Eviews软件中,要获得检验解释变量两两之间的相关系数矩阵是很容易的,我们只需在命令窗口中键入“COR”命令以及相应的解释变量。图4-1相关系数矩阵23分别删除、再进行回归得到的结果如下:图4-2删除后的回归结果1X3X1X24图4-3删除后的回归结果3X25分别删除X6、X10后得到的结果如下:图4-4删除