第十四章面板数据模型面板数据(paneldata)从数据的角度看,我们前面所使用的数据有时间序列数据,或者是横截面数据,而将时间序列数据和横截面数据混合,就构成所谓面板数据,面板数据有时间维和空间维如随机抽样100位同学作为样本,研究学生的收入(X)和消费(Y)的关系,调查每一位同学大学4年X和Y的数据,即有Yi,t和Xi,t,故有i=1,2,…100,t=1,2,3,4.由此构成面板数据Y1,1X1,1Y2,1X2,1┈Y100,1X100,1Y1,2X1,2Y2,2X2,2┈Y100,2X100,2┆┆┆┆┈┆┆Y1,4X1,4Y2,4X2,4┈Y100,4X100,4若记录某一个学生的收入、消费即为时间序列数据Yt=b0+b1Xt+utt=1,2,3,4若记录100个学生在大二学年的收入与消费即为横截面数据Yi=b0+b1Xi+uii=1,2,…100应用面板数据模型的动机解决省略变量(omittedvariable)问题记y和x=(x1,…,xK)是可观察的随机变量,c是不可观察的随机变量假设c和xj一起进入线性回归模型,但我们感兴趣的是想知道xj对的y影响E(y|x,c)=b0+xb+c如果Cov(xj,c)≠0,把c放入误差项将引起b的非一致估计如果有面板数据,可以采取新的补救方法假定我们在两个不同时期观察到y和x的值,即yt,xtfort=1,2。假定被省略的变量c不随时间而变化,反映了个体的特征因此,我们有yt=b0+xtb+c+utt=1,2对模型进行差分可得⊿yt=⊿xtb+⊿ut在一定的假设条件下应用OLS即可得到b的一致估计结果面板数据的优势(Baltagi)将i取作不同的个人、厂商、省市以至于不同的国家(称为不同的个体),这些不同的个体具有异质性,如不同的消费倾向或偏好等,面板数据将这些不同个体的时间序列数据组合在一起,通过对不同个体设定相应的变量,从而使基于面板数据模型可以用于研究这些不同个体的异质性.面板数据是“更富有信息、更具有变异性、但几乎没有共线性”的数据,且“具有更高的自由度和更有效面板模型通过对重复横截面数据的研究,更适用于分析变化的动态性,如失业的动态变化、劳动力的流动,职业的变换等面板模型能用于侦察和度量时间序列模型和横截面模型所不能观测到的某些效应,如不同省或地区的最低工资标准的效应面板模型可以用于研究更为复杂的行为模型,如不同企业的规模和技术进步。若用所有企业加总的时间序列或某个时点的横截面数据不可能考察不同企业技术变化的行为使用面板数据还可以避免源于加总的误差或使其最小不可观察效应模型不可观察效应模型可表述为(截面i):yi,t=xi,tb+ci+ui,t,t=1,2,...,T其中ci称为潜在变量(latentvariable)、不可观察异质性(unobservedheterogeneity)、个体效应(individualeffect)、个体异质性(individualheterogeneity)。ui,t被称为异质误差项(idiosyncraticerrors)例子(Wooldridge,2002)估计就业培训对工资收入影响:log(wagei,t)=qt+zi,tg+d1progi,t+ci+ui,tqt被称为时变截距,zi,t是一系列影响工资的可观察变量观测数据为两期,当t=1时,没有人参加就业培训,progi,1=0;当t=2时,一部分参加就业培训个体效应ci通常是被省略的能力变量,显然ci与progi,t相关混合最小二乘估计(pooledOLS)对于模型yi,t=xi,tb+ci+ui,t,t=1,2,...,T记vi,t=ci+ui,t为模型合成误差项,则有yi,t=xi,tb+vi,t我们可以用PooledOLS(把截面数据混合)一致估计b,只要满足条件(a)E(xi,tui,t)=0(b)E(xi,tci)=0(t=1,2,…T)但是合成误差存在序列相关,应用稳健方差随机效应(Randomeffects)对于不可观察效应模型yi,t=xi,tb+ci+ui,t,t=1,2,...,T随机效应假定1(比PooledOLS更严格)(a)E(ui,t|xi,ci)=0;t=1,...,T(b)E(ci|xi)=E(ci)=0其中xi=(xi,1,...,xi,T)随机效应估计同样地,我们再次记vi,t=ci+ui,tOLS将获得一致估计,但是合成误差存在序列相关假定E(ui,t2)=su2(t=1,…T)E(ui,tui,s)=0t≠s我们有var(vi,t)=su2+sc2,cov(vi,tvi,s)=s2c其相关系数为corr(vi,tvi,s)=s2c/(su2+sc2)相关系数特点:无论间隔时间多长,相关系数相同记vi=cijT+ui,jT是T×1维由1构成的向量定义vi的方差协方差矩阵为,iivvE随机效应假定2(满秩)KXXErankii1222222222222uccccuccccuciivvEssssssssssss随机效应假定3(a)(b)TiiiIxuu2,uicEs22ciixcEs在上述假定下,我们可得到b的随机效应估计NiiiNiiiREyXXX11111ˆˆˆb以单方程为例,上述加权估计即为iitikitkkiitiitcuuxxxxyyTbbbsss...11111021222若=1,为固定效应估计若=0,为PooledOLS估计因此,不可观察效应的方差越大,接近固定效应;反之接近PooledOLS固定效应(Fixedeffects)对于不可观察效应模型yi,t=xi,tb+ci+ui,t,t=1,2,...,T随机效应是假定ci与xi,t不相关,从而将其放入误差项,并用GLS进行估计若ci与xi,t相关,应用固定效应模型固定效应模型的估计思想是消除不可观察变量ci组内(固定效应)变换[within(fixedeffects)transformation]对第i方程对时间t求平均,得到横截面模型iiiiucxyb与初始模型做差itiitiitiuuxxyy,,,b令ititiyyy,,ititixxx,,ititiuuu,,(**)(*)固定效应假定2KXXErankErankiiTt1ti,ti,xx该假定排除了xi,t中不含时不变变量对模型(**)做PooledOLS回归即可得到b估计值,称为组内估计量,或者是固定效应估计量组间估计(betweenestimator)对模型(*)进行OLS估计,即得到组间估计量,仅利用了横截面观测值信息组间估计是非一致估计,因为0iicEx虚拟变量回归(LSDV)先前我们将未观察到效应ci作为随机变量,并给出合理解释;传统方法是将ci作为固定效应的待估参数若ci为待估参数,就是说个体效应随着截面(个体)发生变化,我们可以定义虚拟变量来表示截面之间的变化对每个横截面定义虚拟变量dni=1ifn=i,dni=0ifn≠i作PooledOLS回归,dni前面的系数即为截面i的个体效应这种方法得到的估计量与固定效应估计结果完全相同固定效应估计也称为最小二乘虚拟变量估计固定效应vs随机效应若时间序列观测值T相对N(横截单元的个数)较大,N较小,这两类模型的参数估计可能差别很小,因此,选择取决于计算方便,由于固定效应模型计算方便,所以一般选择固定效应模型当N大T小,两种模型的参数估计具有显著差别,当个体被认为不是从总体中随机抽取的,固定效应就是合适模型,否则,随机效应模型应是合适模型一般经验若个体效应ci与某个回归变量相关,则随机效应模型的估计是有偏的,而固定效应模型是无偏的,所以在这种情况下用固定效应模型是合适的若N大而T相对小,且随机效应模型的假定成立(个体被认为是从总体中抽取的样本),随机效应模型的参数估计比固定效应模型更有效选择固定效应或随机效应的关键是个体效应ci是否与解释变量xi,t相关H0:随机效应假定成立H1:随机效应假定不成立UnderH0:RE一致并有效;FE一致估计UnderH1:RE非一致;FE一致估计Hausman(1978)基于估计量差构造统计量豪斯曼检验(Hausmantest)21~ˆˆˆvarˆvarˆˆMREFEREFEREFEAAddddddH=应用举例未观察效应模型为log(renti,t)=b0+d0y90t+b1log(popi,t)+b2log(avginci,t)+b3pctstui,t+ai+ui,trent:平均租金y90:虚拟变量,y90=1ifyear==90pop:城市人口avginc:人均收入pctstu:学生人口百分比Wooldridge(2006)Data:RENTAL.RAW混合最小二乘估计(PooledOLS)固定效应估计随机效应估计豪斯曼检验最小二乘虚拟变量回归(LSDV)