面板数据模型的分析第一节面板数据模型简介第二节固定效应模型及其估计方法第三节随机效应模型及其估计方法第四节模型设定的检验第五节面板数据模型应用实例第一节面板数据模型简介一、面板数据和模型概述时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata)。面板数据是同时在时间和截面空间上取得的二维数据。简单地讲,面板数据因同时含有时间序列数据和截面数据,所以其统计性质既带有时间序列的性质,又包含一定的横截面特点。因而,以往采用的计量模型和估计方法就需要有所调整。例1表1中展示的数据就是一个面板数据的例子。表1华东地区各省市GDP历史数据单位:亿元19951996199719981999上海2462.572902.203360.213688.204034.96江苏5155.256004.216680.347199.957697.82浙江3524.794146.064638.244987.505364.89安徽2003.662339.252669.952805.452908.59福建2191.272583.833000.363286.563550.24江西1244.041517.261715.181851.981962.98山东4996.875960.426650.027162.207662.10数据来源:中国统计年鉴1996-2000。其他类似的例子还有:历次人口普查中有关不同年龄段的受教育状况;同行业不同公司在不同时间节点上的产值等。这里,不同的年龄段和公司代表不同的截面,而不同时间节点数据反映了数据的时间序列性。研究和分析面板数据的模型被称为面板数据模型(paneldatamodel)。它的变量取值都带有时间序列和横截面的两重性。一般的线性模型只单独处理横截面数据或时间序列数据,而不能同时分析和对比它们。面板数据模型,相对于一般的线性回归模型,其长处在于它既考虑到了横截面数据存在的共性,又能分析模型中横截面因素的个体特殊效应。当然,我们也可以将横截面数据简单地堆积起来用回归模型来处理,但这样做就丧失了分析个体特殊效应的机会。面板数据通常分为两类:•由个体调查数据得到的面板数据通常被称为微观面板(micropanels)。•微观面板数据的特点是个体数N较大(通常是几百或几千个),而时期数T较短(最少是2年,最长不超过10年或20年)。•由一段时期内不同国家的数据得到的面板数据通常被称为宏观面板(macropanels)。•这类数据一般具有适度规模的个体N(从7到100或200不等,如七国集团,OECD,欧盟,发达国家或发展中国家),时期数T一般在20年到60年之间。•对于宏观面板,当时间序列较长时需要考虑数据的非平稳问题,如单位根、结构突变以及协整等;而微观面板不需要处理非平稳问题,特别是每个家庭或个体的时期数T较短时。面板数据的优点(1)可以控制个体异质性可以克服未观测到的异质性(unobservedheterogeneity)这种遗漏变量问题。这个异质性是指在面板数据样本期间内取值恒定的某些遗漏变量。(2)面板数据模型容易避免多重共线性问题•面板数据具有更多的信息;•面板数据具有更大的变异;•面板数据的变量间更弱的共线性;•面板数据模型具有更大的自由度以及更高的效率。(3)与纯横截面数据或时间序列数据相比,面板数据模型允许构建并检验更复杂的行为模型。二、一般面板数据模型介绍•用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。•混合(pool)估计模型。•如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。二、一般面板数据模型介绍符号介绍:ity——因变量在横截面i和时间t上的数值;jitx——第j个解释变量在横截面i和时间t上的数值;假设:有K个解释变量,即Kj,,2,1;有N个横截面,即Ni,,2,1;时间指标Tt,,2,1。记第i个横截面的数据为iTiiiyyyy21;KiTiTiTKiiiKiiiixxxxxxxxxX212221212111;iTiii21其中对应的i是横截面i和时间t时随机误差项。再记Nyyyy21;NXXXX21;N21;K21这样,y是一个1TN的向量;X是一个KTN的矩阵;而μ是一个1TN的向量。针对这样的数据,有以下以矩阵形式表达的面板数据模型:Xy(1)方程(1)代表一个最基本的面板数据模型。基于对系数β和随机误差项μ的不同假设,从这个基本模型可以衍生出各种不同的面板数据模型。最简单的模型就是忽略数据中每个横截面个体所可能有的特殊效应,如假设),0(~2iid,而简单地将模型视为横截面数据堆积的模型。但是由于面板数据中含有横截面数据,有时需要考虑个体可能存在的特殊效应及对模型估计方法的影响。例如在不同个体误差项存在不同分布的情况下,OLS估计量虽然是一致的,但不再是有效估计量,因此往往需要采用GLS。一般为了分析每个个体的特殊效应,对随机误差项it的设定是itiit(2)其中i代表个体的特殊效应,它反映了不同个体之间的差别。最常见的两种面板数据模型是建立在i的不同假设基础之上。一种假设假定i是固定的常数,这种模型被称为固定效应模型(fixedeffectmodel),另一种假设假定i不是固定的,而是随机的,这种模型被称为随机效应模型(randomeffectmodel)。几点说明•未观测到的异质性可能不会随着样本的变化而变化,也可能随着样本的变化而发生随机的变化。•不同截距的数据生成过程就是这未观测到的差别不随样本而变化的数据生成过程。•误差成份(errorcomponents)数据生成过程就是这未观测到的差别随样本而随机变化的数据生成过程。•在不同截距的数据生成过程中,各自不同的截距都是参数。误差成份模型有两种情况,一是随机的个体效应与解释变量无关,一种是随机的个体效应与解释变量相关。•所谓双因素效应模型,就是在模型中既考虑了不可观测非时变的(个体)异质效应,又考虑了不可观测时变(个体)同质效应的模型。•类似地,双因素效应模型也有固定效应和随机效应之分,如果设定个体效应αi和时间效应λt是确定的,就是双因素固定效应模型;如果设定个体效应αi和时间效应λt是随机的,就是双因素随机效应模型。在实际应用时,模型的正确设定必须进行相关的统计检验。第二节固定效应模型及其估计方法一、固定效应模型的形式在固定效应模型中假定itiit其中i是对每一个个体是固定的常数,代表个体的特殊效应,也反映了个体间的差异。ititiitxy整个固定效应模型可以用矩阵形式表示为:NNNNxxxiiiyyy21212121000000其中i为1T的单位向量。进一步定义:iiidddDN00000021id为1TN向量,是一个虚拟变量(dummyvariable)。模型可以再写为:xDy其中D是一个有虚拟变量组成的矩阵。因此固定效应模型也被称为最小二乘虚拟变量模型(leastsquaresdummyvariable(LSDV)model),或简单称为虚拟变量模型。二、固定效应模型的估计和检验固定效应模型中有N个虚拟变量系数和K个解释变量系数需要估计,因此总共有N+K个参数需要估计。当N不是很大时,可直接采用普通最小二乘法进行估计。但是当N很大时,直接使用OLS方法的计算量就变得非常大,甚至有可能超过计算机的存储容量。一个解决问题的办法就是分成两步来对面板数据模型进行回归分析。由这种方法导出的估计量常被称为组内估计量(withingroupestimator),有时也记为wˆ。第一步,剔除虚拟变量在模型中的影响,然后再对参数β进行估计。剔除虚拟变量D影响的办法就是利用下列矩阵对所有变量进行“过滤”。设DDDDPD1)(,其中D的定义与方程前所述。设DDPIM,用DM转变模型xDy。显然0DMD,则有DDDMXMyM用OLS得到β的估计:yMXXMXDDw1)(ˆ组内估计量与对下列方程的OLS估计量是等同的。)(iitiitXXyy+随机误差项其中,iy和iX代表各自变量个体的均值。上式中,OLS估计量主要利用的是个体变量对其均值偏离的信息,随机误差项也仅反映对其个体均值的偏离波动,这是该估计量被称为组内估计量的原因。第二步,估计参数α。由于已经得到了β的估计值,所以α的估计就变得比较简单。)ˆ()(ˆ1wXYDDDˆ其实就是用自变量和解释变量的个体均值和wˆ按下列模型计算出的误差项:wiiiXyˆˆ估计量wˆ和ˆ的方差估计:122ˆ)(ˆXPXsDwiiXXTswiˆ22ˆˆˆ其中2s是对误差项方差的估计量:KNNTxysitwitiit22)ˆˆ(注意:在对误差项方差的估计量中,分母(NT-N-K)反映了整个模型的自由度。有了这些方差的估计量,就可以用传统的t-统计量对估计系数的显著性进行检验。同时,还可以运用下列F-统计量对jiji,的原假设进行检验:)/()1()1/()(),1(222KNNTRNRRKNNTNFURU其中2UR代表无约束回归模型2R,而2RR为有约束回归模型的2R,约束条件即为原假设。相对于组内估计量,另外还有一种估计量称为组间估计量(betweengroupestimator)。定义为:yPXXPXDDB1)(ˆ它其实是下列模型的OLS估计量:iiixy因而可以被看作利用不同的个体均值信息所作出的估计。组间估计量一般而言是一致估计量,但不是有效的。因为它只是利用了个体均值的信息。组内估计量在这个意义上与组间估计量是相对的,因为组内估计量利用的正是被组间估计量所“抛弃”的部分信息。固定效应模型的优点:能够确定地反映个体之间的差距及其简单的估计方法;固定效应模型的缺点:存在模型自由度比较小(因为有N个截距系数)和存在对个体差异的限制性假设(即个体间差异为固定的)。第三节随机效应模型及其估计方法一、随机效应模型的形式类似固定效应模型,随机效应模型也假定:itiit但与固定效应模型不同的是,随机效应模型假定i与it同为随机变量随机效应模型可以表达如下:iiiiiXy(18)其中iy和i均为1T向量;iX是KT矩阵;i是一个随机变量,代表个体的随机效应。由于模型的误差项为二种随机误差之和,所以也称该模型为误差构成模型(errorcomponentmodel)。还假定:(1)i和itx不相关;(2)0)()(iitEE;(3)tjiEjit,,,0)(;(4)stjiEjsit或,0)(;(5)jiEji,0)((6)tiEit,),(22;(7)iEi),(22。给定这些假设,随机效应面板数据模型也可同样写为:y=Xβ+μ其中)(iIn,α的向量形式与以前相同。是Kronecker乘法符号。例2Kronecker乘法: