1面板数据模型与应用1.面板数据定义paneldata的中译:面板数据、桌面数据、平行数据、纵列数据、时间序列截面数据、混合数据(pooldata)、固定调查对象数据。面板数据定义(1)面板数据定义为相同截面上的个体在不同时点的重复观测数据。(2)称为纵向(longitudinal)变量序列(个体)的多次测量。面板数据从横截面(crosssection)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinalsection)看每个个体都是一个时间序列。2图1N=7,T=50的面板数据示意图3面板数据用双下标变量表示。例如yit,i=1,2,…,N;t=1,2,…,Ti对应面板数据中不同个体。N表示面板数据中含有N个个体。t对应面板数据中不同时点。T表示时间序列的最大长度。若固定t不变,yi.,(i=1,2,…,N)是横截面上的N个随机变量;若固定i不变,y.t,(t=1,2,…,T)是纵剖面上的一个时间序列(个体)。2.面板数据模型面板数据模型是利用面板数据构建的模型。面板数据系一组个体在一段时间内的观测值形成的数据集,这里“个体”可以是个人、家庭、企业、行业、地区4或国家(Baltagi,2008)。1966年,Balestra&Nerlove发表了第一篇利用面板数据模型研究天然气需求估计的论文,此后,面板数据模型这一新的计量分析方法在理论和应用上得到迅速发展,已形成现代计量经济学的一个相对独立的分支。面板数据模型由于同时使用了截面数据(cross-sectionaldata)和时间序列数据(timeseriesdata),因而可以控制个体的异质性,识别、测量单纯使用这两种数据无法估计的效应;并且具有包含更多的信息、更大的变异和自由度、变量间的共线性也更弱的特性,可得到更精确的参数估计(Hsiao,2003、2008)。面板数据涉及个体(N)和时间(T)两个维度,有微观面板(micropanels)和宏观面板(macropanels)之分。5微观面板源于截面数据的计量分析,是针对个体的调查数据,其特点是个体数N较大(通常是几百或几千个),而时期数T较小(最少为2年,最长不超过20年),主要应用于劳动经济学以及需求分析、成本分析和生产函数分析等。宏观面板一般具有适度规模的个体N(从7到100或200不等,如G7,OECD、欧盟、发达国家或发展中国家),时期数T一般在20至60之间,甚至更大。这类数据可以刻画一些制度或政策的外生变化,常用于识别政策效应研究中的关注参数。宏观和微观面板要求使用不同的计量建模方法。微观面板通常研究T固定而N较大时(简称“大N小T”)的渐近性质,而宏观面板则是同时考虑T和N都较大时(简称“大N大T”)的渐近性质,此时可以分为对角极限、序贯极限和联合极限三种情形来讨论。6对于宏观面板,当T较大时需要考虑数据的非平稳(如单位根和协整)与结构变化等特征;微观面板由于时间短,一般不需要处理非平稳问题。在处理宏观面板时,还必须考虑个体之间的相关性,即截面相关,而在微观面板中,如果个体是随机抽样产生,则个体之间不大可能存在相关性,不需要考虑此类问题(Baltagi,2008)。假设有N个个体T期的观测值ity和kitX,1,,iN,1,,tT,1,,kK;ity是在itX、itZ和一组固定参数的条件下,概率分布,,itititFyXZ产生的随机结果,其中itZ是不可观测的影响因素。(如何理解?)面板数据建模的目的是利用全部的样本信息来对进行推断。假定感兴趣的影响因素是itX,通常的做法是通过在时间和个体上的变化,7即it来反映不可观测的异质性;因此,给定itX,ity的条件密度为,itititfyX。此时如果不对it进行任何约束,该模型就只有描述性作用,不能进行任何的统计推断(如何理解?)。常用的施加在it上的约束条件是将it分解为,it,其中不随时间和个体变动,称为结构参数(structuralparameters),it称为冗余参数(incidentalparameters),迄今,面板数据的文献主要集中在控制了it后如何对进行推断。进一步,如果不对it施加约束也不能对做出推断,因为it将会耗尽所有的样本信息。一般的处理思路是:假定可观测变量itX的影响不随时间和个体变化,由描8述;冗余参数it代表了itX以外随个体和时间变化的异质性影响,这种影响可以分解为个体效应iu、时间效应t以及随个体和时间变化的效应it。个体效应iu和时间效应t可以设定为随机变量,也可以设定为固定的参数,分别形成了随机效应(randomeffects)模型和固定效应(fixedeffects)模型。所要研究的问题:1.模型的设定2.模型估计3.模型的检验4.模型的应用问题:是否可将前面计量经济学所教授的内容直接应用于面板数据计量经济学模型。9答案是否定的。尽管基本的思路有相似之处,但面板数据模型有其自身的特点。特点:1.模型的设定:FE(FixedEffect)、RE(RandomEffect)Pool等等;2.估计Within估计,FGLS估计等等3.检验异方差性检验、Hausman检验等等;如何理解估计、推断、检验、设定等方面的问题?经典的面板数据模型可以分为静态模型和动态模型。静态面板数据模型设定的一般形式为:10,1,,;1,,itititityXuiNtT(1)其中,it与itX不相关。若iu和t为固定的常数,模型(1)称为固定效应模型;为了避免dummy陷阱,设定10Niiu,10Ttt,通常采用组内(within-group)(WithinVSBetween)方法来估计,并通过F检验或Wald检验考察固定效应是否存在(为什么要检验?检验什么?如何检验?)。若iu和t为随机变量,模型(1)称为随机效应模型。此时除了假定it与itX不相关,还需进一步假定iu和t与itX不相关。对于随机效应模型,可以采用FGLS的方法来估计。11上述两种效应的设定各有特点。固定效应模型允许个体效应(时间效应)与解释变量itX相关,但待估参数个数随着样本容量的增大而增大,即存在冗余参数问题,且模型中不能包含非时变的变量。(会出现什么问题?)随机效应模型中,待估参数个数不随样本容量的变化而变化,当随机的个体效应(时间效应)与itX不相关时能够得到更有效的估计量,模型中可以包括不随时间变化的变量;其缺点在于若随机的个体效应(时间效应)与itX相关时,FGLS估计量是不一致的。通过Hausman检验,即原假设下两个一致统计量是否有显著差异可以判断采用何种设定更合适。(操作细节?)很多经济关系具有动态性,可以通过在模型中加入被解释变量的滞后作为解释变量来刻画:12,1,1,,;1,,itititiityyXuiNtT(2)其中,个体效应iu可以是固定或随机的;若iu为随机的,则假定iu与it不相关。式(2)称为动态面板数据模型,其在时间上的记忆性来自两个方面:一是,1ity作为解释变量所引起的自相关;二是由个体效应所引起的自相关。无论将iu设定为固定效应还是随机效应,即使it是..iid,模型(2)也会产生内生性问题,对应的估计量均是不一致的。为什么?为了解决这一问题,早期的研究采取方法有:一是对模型(2)进行一阶差分,然后进行IV估计或GMM估计(Anderson&Hsiao,1981)。Arellano&Bond(1991)扩展了一般的GMM估计,建议使用变量水平值的13所有滞后项作为差分变量的工具变量以提高估计的有效性,这一方法称为差分GMM估计;差分GMM估计的一个缺点是差分会导致模型扰动项出现序列相关。为此,Arellano&Bover(1995)建议通过正交离差(orthogonaldeviation)的变换来消除个体效应的影响。差分GMM估计的另一个缺陷是估计量在有限样本下存在较大的偏差,当自回归系数接近1时尤为严重;Blundell和Bond(1998)的研究表明,差分GMM估计的这一不良表现源于使用变量水平值的滞后项作为差分变量的工具变量所导致的弱工具变量问题(Staiger&Stock,1997),因而提出系统GMM估计的方法,建议在进行差分GMM估计的同时使用另一组矩条件来估计参数,即使用变量差分值的滞后项作为水平变量的工具变量。Blundell&Bond(1998)的推导与模拟表明,系统GMM估计14能有效克服弱工具变量的问题,极大地改进了估计量的有限样本表现,在降低偏差的同时提高了估计的精度。早期的面板数据模型均假定截面之间是相互独立的。但是,忽略个体之间的截面相关将会影响估计量的有效性甚至导致估计量的不一致(Pesaran,2006)。近年来,面板数据模型的一个重要发展方向是考虑截面相关的面板数据模型的估计与推断。与时序数据中度量序列相关不同,截面相关并没有一个直接的度量方式。因此,为了刻画模型的截面相关,必须对模型施加很强的假定。常用的两种度量截面相关的方法是空间的方法(spatialapproach)和因子的方法(factorapproach)。空间的方法是通过空间加权矩阵建立起个体之间的相依性,往往用于刻画由于经济活动的相互依赖、相互影响而呈现的相关,如源于地理位置相近,文化、15历史的相似,或由于存在贸易往来、劳动力流动、产业结构关联等。由空间方法刻画的截面相关反映不同个体之间存在一般的相关性,即截面相关阵的特征根有界,是一种截面弱相关。理论上空间加权矩阵可以出现在模型中的任何位置(因变量、自变量和扰动项),因自变量的空间相关不会产生新的估计问题,所以相关研究集中在因变量和扰动项的空间相关,对应的模型分别称为空间滞后模型和空间误差模型。这两类模型一般采用工具变量估计(广义矩估计)或极大似然估计。因子的方法描述的是由凌驾于整个区域市场的经济波动或行政力量冲击造成的结果,表现为一种共同冲击,即不同个体之间的相关性是由某个共同的因子引起,因此截面相关阵存在O(n)阶的发散特征根,属于截面强相关。因子模型的一般形式为:161,,;1,,itititititityXiNtTFv(3)其中,1,,ttrtFff是r维的随机因子,1,,iiri是r维的非随机因子载荷系数。itv代表异质的冲击,与tF相互独立,且在截面之间相互独立。Bai(2009)对式(3)所刻画的因子模型的估计和推断做了详细的讨论。Pesaran&Tosetti(2011)考虑了如下更一般的模型来同时刻画截面强相关与截面弱相关:ititiitititydXf(4)其中,td是1n的可观测的共同效应(commoneffects),itX是1k的个体特质的解释变量,tf是1m的不可观测的共同因子,用于刻画截面强相关,it假定存在空间相关,用于刻画截面弱相关。Pesaran&Tosetti(2011)指出,对于该模17型,可以采用Pesaran(2006)提出的CCEP方法来得到参数的一致估计。除了上述讨论的几类面板数据模型外,文献中还有很多其它类型的面板数据模型,如微观计量模型中的离散因变量模型(包括静态和动态)、受限因变量模型(包括截断和归并)在面板数据下的扩展,以及非线性面板数据模型(阈值面板数据模型、平滑转移的面板数据模型等)、多方程面板数据模型等等(Hsiao,2003;Baltagi,2008)。这些模型也是未来面板数据模型理论和应用研究的重要发展方向。下面以例子来加以说明如何理解上述描述:例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)数据见5panel02.wf1。数据是7年的,每一年都有15个数据,共105组(个)观测值。18人均消费和收入两个面板数据都是平衡(balance)面板数据