第九章面板数据模型第一节面板数据和面板数据模型混合数据(pooleddata)是将横截面数据和时间序列数据结合在一起的数据。我们在第一章中曾介绍,横截面数据模型使用同一时点不同个体(entity)的观测值,数据可来自不同地区、公司、人员或其它个体;时间序列数据则是跨越不同时期的同一地区、同一公司、同一个人或其它同一个体的数据。横截面时间序列混合数据则包含不同横截面个体不同时期的数据,或者说,混合数据包含既跨越时间又跨越空间的数据。如果混合数据包含的观测值来自同一批地区、公司、人员或其它横截面个体的不同时期数据,则此类混合数据称为面板数据(paneldata)。面板数据通常比非面板混合数据更有用,这是因为面板数据中的地区、公司、人员等横截面个体在各时期中一直保持不变,这使得我们更易于对随着时间的推移所发生的变动进行比较。我们将基于面板数据的回归模型称为面板数据模型(paneldatamodel)。面板数据模型正在得到日益广泛的应用,文献也很多。限于篇幅,我们在这里只能做一个入门性的介绍。需要深入研究的读者,请参阅有关参考文献。Baltagi,B.H.(2005),EconometricAnalysisofPaneldata,ThirdEdition,JohnWiley&Sons,LtdHsiaoC.(2003),AnalysisofPanelData,2ndEdition,CambridgeUniversityPress影印版由北京大学出版社出版,2005本章中,我们将用一个贯穿始终的例子来说明估计面板数据模型的各种方法。我们的数据来自以下4个产业:产业1:钢铁;产业2:橡胶、塑料;产业3:石制品、陶瓷制品和玻璃制品;产业4:纺织模型中用到的变量是:Yit=i产业第t年出口额,单位:百万美元,不变价EMPit=i产业第t年就业人数,单位:千人OTMit=i产业第t年平均每周加班小时数我们收集了上述4个产业这3个变量1980-2000各年的数据。事实上,对于这3个变量中的每一个,都有84个观测值(4个产业乘以21年)。由于在每个时期(每一年)都是这4个产业,因此这些混合数据是面板数据,如表9-1所示。我们可以通过分别运行4个回归来分析这些数据,每个产业一个回归:101121123425223673833491041144(9.1)(9.2)(9.3)(9.4)ttttttttttttttttYEMPOTMuYEMPOTMuYEMPOTMuYEMPOTMu使用表9-1的数据估计(9.1)-(9.4),由于每个产业有21年的数据,因此每个回归中观测值个数都是21。这种分别对4个产业进行回归的缺点在于可能错失包含在混合数据集中的那种一个产业影响另一个产业的信息。换句话说,一个产业的数据中可能包含有对于估计其它某个产业的回归系数有价值的信息,而这种分别估计每个产业方程的做法无法利用这些信息,这意味着估计值不够准确。如果我们能够将4个产业的数据结合在一起,我们的样本规模就会增大,从而可以使用所有可获得的信息估计系数。因此,我们需要讨论那些允许我们使用混合数据的全部信息的估计技术,将跨时间跨空间的数据结合在一起,而不是分别进行时间序列和横截面数据的回归。要做到这一点,最简单的方法是,假定截距和斜率对于所有产业和所有时期都是一样的,进行下面的回归:0121,2,3,4(9.5)1980,1981,......2000ititititYEMPOTMuit这里每个变量的观测值个数都是84。我们用表9-1中全部数据估计此方程,结果如下:22ˆ14,040.1086.743168.47:(4.34)(39.87)(4.33)0.952,675,700,466itititYEMPOTMtRe这种方法的致命缺陷是,估计出来的系数只有在我们前面关于截距和斜率对于所有产业和所有时期都是同样的值的假设成立的情况下才有用,实际情况当然不是如此,比如说,很难想象每个时期中每个产业的就业人数与其出口额之间的关系都相同,增加1000名工人对不同产业出口额的影响应当是不同的。因此,采用模型(9.5)是不合适的,我们下面讨论可用于面板数据模型的其它估计方法。*第二节表面不相关回归泽尔纳(Zellner)提出的表面不相关回归(Seeminglyunrelatedregression,SUR)是一种可供选择的分析面板数据的方法。表面不相关回归是一组似乎不相关但实际上相关的回归方程。表面不相关回归方程看上去不相关是因为它们类似于方程(9.1)-(9.4)。在前面说到可以分别对它们运行四个回归时,我们事实上有一个冒失而错误的假设:各产业互不相干,因而我们可以分别估计每一个回归方程。回到方程(9.1)-(9.4):101121123425223673833491041144(9.1)(9.2)(9.3)(9.4)ttttttttttttttttYEMPOTMuYEMPOTMuYEMPOTMuYEMPOTMu在表面不相关回归中,认可各个回归之间实际上确实有关联。表面不相关回归容许各个回归方程的扰动项之间存在跨方程相关,如上面四个方程中的诸u在任何一个时期中不必相互独立,即不同方程的扰动项之间可以存在同期相关。这样,SUR估计程序就可以使用扰动项的相关来改善估计值。各个回归之间任何的相关都是有价值的信息,它可能是告诉我们某时期中发生了某些不止影响一个产业的变化或事件,这一变化并没有被任何一个自变量捕捉到,而只能反映在扰动项中。SUR程序用此信息来改善系数估计值。事实上,GLS法被应用来利用这种扰动项中跨横截面个体的相关。具体来说,在SUR模型中,各个方程的扰动项在时间上是独立的,但在横截面个体间相关,即,(,)0,ijitjstscovuuts大多数计量经济分析软件都有运行SUR的命令,表面不相关回归步骤如下:1.用OLS法分别估计每个方程,计算和保存回归中得到的残差;2.用这些残差来估计扰动项方差和不同回归方程扰动项之间的协方差;3.上一步估计的扰动项方差和协方差被用于执行广义最小二乘法,得到各方程系数的估计值。表面不相关回归得到的估计值是一致估计值。用SUR方法和表9-1中的数据估计方程(9.1)-(9.4),结果如下:11122ˆ5367.2427.45477.13:(3.76)(5.97)(1.62)0.6618,664,338ttttYEMPOTMtRe22222ˆ51,963.17142.871704.48:(17.33)(24.43)(1.77)0.9943,356,773ttttYEMPOTMtRe333228ˆ4479.7769.052976.12:(0.40)(3.80)(3.81)0.641.8510ttttYEMPOTMtRe44422ˆ3596.0052.053140.84:(0.74)(11.18)(5.77)0.83531,122,367ttttYEMPOTMtRe初看上去,这些结果似乎是分别回归的结果,但它们不是。跨产业扰动项协方差的估计值被SUR程序用来改善估计值,如前面所说的那样,这是为什么说表面不相关回归实际上是由相关的回归组成。在我们的例子中,SUR结果与四个方程的OLS结果差不多。然而,在很多情况下,表面不相关回归显著改善用最小二乘法得到得估计值。第三节固定影响模型固定影响模型(Fixedeffectsmodel)将横截面个体之间的差异解释为截距不同,而斜率系数相同。它处理地区、公司、人员或其它横截面个体之间差异的思路是允许截距变动,不同的横截面个体(如我们例子中的不同产业)的截距是不同的,但每个产业的截距在各个时期则保持不变。在固定影响模型的假定下,面板数据中所有横截面数据和时间序列数据都可用于同一个回归。固定影响模型类似于上一节中所有数据简单结合在一起的混合模型(9.5)式,不同的是,这里横截面中每一个体有它自己的截距:012itiitititYEMPOTMu固定影响模型通过使用虚拟变量的方法来解决截距变动问题。对于我们的例子,有4个产业部门,我们应当设3个虚拟变量,因为设3个就可以区分4个产业的截距,并且,如果设4个虚拟变量的话,我们会掉进所谓“虚拟变量陷阱”,而造成完全的多重共线性。在固定影响模型中,我们有另一种避开虚拟变量陷阱的方法,就是在模型中去掉常数项,然后为每个产业设一个虚拟变量:D1=1观测值来自产业1;0其它产业D2=1观测值来自产业2;0其它产业D3=1观测值来自产业3;0其它产业D4=1观测值来自产业4;0其它产业0可写出本章例子的固定影响模型如下:4个产业的截距项分别为产业1:β3产业2:β4产业3:β5产业4:β6回归结果如下:1231425364(9.6)ititititYEMPOTMDDDDu从结果中看到R2很高,对于固定影响模型来说,通常如此。这是因为各截距项虚拟变量捕捉了横截面个体之间的差异。固定影响模型的高R2会造成一种虚假的表象,但实际并不象R2的值所展示的那么好。回归结果中没有给出各虚拟变量系数的t值或标准误差,这是因为EViews软件不报告固定影响模型中虚拟变量的t值或标准误差。123422ˆ92.94645.1117760.74:(17.15)(9.11)18691.6426686.2929050.360.99790,590,705itititYEMPOTMDtDDDRe我们可以利用回归结果来检验4个产业的截距是否相同,原假设和备择假设是:检验的具体做法与我们在第四章中介绍的涉及多个系数的联合假设检验类似,即首先进行约束回归和无约束回归,然后用得到的两个残差平方和计算F检验量,进行检验。034563456::,,,aHH不全相等本例中约束回归就是回归(9.5)式:(9.5)式中只有一个截距项,这与本例原假设(各产业截距相等)是一样的。而无约束回归就是固定影响模型(9.6)式:因为它允许不同产业的截距取不同值。012(9.5)ititititYEMPOTMu1231425364(9.6)ititititYEMPOTMDDDDu约束回归和无约束回归的残差平方和可从(9.5)式和(9.6)式的回归结果中查出,分别为2,675,700,466和790,590,705。约束的数目为3而不是4,这是因为在原假设中,任何一个虚拟变量的系数,如,可取任意值,但其它3个则必须取和相同的值,这表明有3个约束。无约束回归的残差平方和的自由度并非n-k-1,而是n-k,这是因为无约束回归模型中没有常数项。本例中F检验量计算如下:33()//()(2,675,700,466790,590,705)/3790,590,705/(846)(2,675,700,466790,590,705)/3790,590,705/7861.995RRSSRSSgFRSSnk查表,5%显著性水平下,F(3,78)=2.77,因为F=61.99Fc=2.77,故拒绝原假设H0。结论:4个产业的截距不全相等。由于使用虚拟变量,固定影响模型(9.6)式亦称为最小二乘虚拟变量模型(LSDV模型)。使用虚拟变量估计固定影响模型的做法只有在面板数据中截面个体的数目较少时才是可行的。当个体的数目很大时,由于需要加入大量虚拟变量而造成消耗的自由度过多,此方法就行不通了。为了解决这个问题,通常采用对模型进行代数变换的方法,消掉模型中的截距项,从而避免使用大量虚拟变量造成的计算问题。具体做法说明如下:设固定影响模型为011221,2,...1,2,...itiitititYXXuintT对于个体i的数据,应有011221,2,...(9.7)itiitititYXXutT