1第第第第9章章章章面板数据模型面板数据模型面板数据模型面板数据模型与应用与应用与应用与应用1.面板数据定义2.面板数据模型分类3.面板数据模型估计方法4.面板数据模型的检验与设定5.面板数据建模案例分析6.面板数据的单位根检验7.面板数据模型的协整检验8.EViwes应用9.面板数据研究新进展(动态面板数据模型、非均衡面板数据模型、离散面板数据模型、面板数据非平稳性、面板数据的协积)1.面板数据定义时间序列数据或截面数据都是一维数据。时间序列数据是变量按时间得到的数据;截面数据是变量在固定时点的一组数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(paneldata)也称作时间序列与截面混合数据(pooledtimeseriesandcrosssectiondata)。面板数据是截面上个体在不同时点的重复观测数据。panel原指对一组固定调查对象的多次观测,近年来paneldata已经成为专业术语。面板数据示意图见图1。面板数据从横截面(crosssection)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinalsection)看每个个体都是一个时间序列。图21978-2005中国各省级地区消费性支出占可支配收入比例走势图(价格平减过)面板数据分两种特征:(1)个体数少,时间长。(2)个体数多,时间短。面板数据主要指后一种情形。面板数据用双下标变量表示。例如2yit,i=1,2,…,N;t=1,2,…,Ti对应面板数据中不同个体。N表示面板数据中含有N个个体。t对应面板数据中不同时点。T表示时间序列的最大长度。若固定t不变,yi.,(i=1,2,…,N)是横截面上的N个随机变量;若固定i不变,y.t,(t=1,2,…,T)是纵剖面上的一个时间序列(个体)。利用面板数据建立模型的好处是:(1)由于观测值的增多,可以增加估计量的抽样精度。(2)对于固定效应模型能得到参数的一致估计量,甚至有效估计量。(3)面板数据建模比单截面数据建模可以获得更多的动态信息。例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据yit,i=1,2,…,N;t=1,2,…,T,如果每个个体在相同的时期内都有观测值记录,则称此面板数据为平衡面板数据(balancedpaneldata)。若面板数据中的个体在相同时期内缺失若干个观测值,则称此面板数据为非平衡面板数据(unbalancedpaneldata)。案例1(file:5panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭固定价格的人均消费(CP)和人均收入(IP)数据见file:panel02。数据是7年的,每一年都有15个数据,共105组观测值。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。199619992002安徽河北江苏内蒙古山西020004000600080001000012000安徽北京福建河北黑龙江吉林江苏江西辽宁内蒙古山东上海山西天津浙江图315个省级地区的人均消费序列(个体)(file:5panel02)1996199820002002安徽福建黑龙江江苏辽宁山东山西浙江02000400060008000100001200014000安徽北京福建河北黑龙江吉林江苏江西辽宁内蒙古山东上海山西天津浙江图415个省级地区的人均收入序列(个体)(file:5panel02)3安徽河北江苏内蒙古山西19961998200020020200040006000800010000120001996199719981999200020012002图57个人均消费横截面数据(含15个地区)(每条连线表示同一年度15个地区的消费值)安徽河北江苏内蒙古山西199619992002020004000600080001000012000140001996199719981999200020012002图67个人均收入横截面数据(含15个地区)(每条连线表示同一年度15个地区的收入值)用CP表示消费,IP表示收入。AH,BJ,FJ,HB,HLJ,JL,JS,JX,LN,NMG,SD,SH,SX,TJ,ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。2000300040005000600070008000900010000110002000400060008000100001200014000IPCROSSCP1996CP1997CP1998CP1999CP2000CP2001CP2002IP7.88.08.28.48.68.89.09.29.48.08.28.48.68.89.09.29.49.6LOG(IPCROSS)LOG(CP1996)LOG(CP1997)LOG(CP1998)LOG(CP1999)LOG(CP2000)LOG(CP2001)LOG(CP2002)图6对数的人均消费对收入的面板数据散点图图7对数的人均消费对收入的面板数据散点图42000300040005000600070008000900010000110002000400060008000100001200014000CP_IAHCP_IBJCP_IFJCP_IHBCP_IHLJCP_IJLCP_IJSCP_IJXCP_ILNCP_INMGCP_ISDCP_ISHCP_ISXCP_ITJCP_IZJIP_I为了观察得更清楚,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。6年之后15个地区的消费和收入都有了相应的提高。2000300040005000600070008000900010000110002000400060008000100001200014000cp_bjcp_nmgIP_I2000300040005000600070008000900010000110002000400060008000100001200014000CP_1996CP_2002IP_T图8北京和内蒙古1996-2002年消费对收入散点图图91996和2002年15个地区的消费对收入散点图2.面板数据模型分类用面板数据建立的模型通常有3种,即混合模型、固定效应模型和随机效应模型。2.1混合模型(Pooledmodel)。如果一个面板数据模型定义为,yit=α+Xit'β+εit,i=1,2,…,N;t=1,2,…,T(1)其中yit为被回归变量(标量),α表示截距项,Xit为k×1阶回归变量列向量(包括k个回归量),β为k×1阶回归系数列向量,εit为误差项(标量)。则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数α和β都相同。如果模型是正确设定的,解释变量与误差项不相关,即Cov(Xit,εit)=0。那么无论是N→∞,还是T→∞,模型参数的混合最小二乘估计量(PooledOLS)都是一致估计量。以案例1(file:5panel02)为例得到的混合模型估计结果如下:5图9EViwes6混合模型的估计结果LnCPit=0.0187+0.9694LnIPit+εit(0.2)(79.2)R2=0.984,SSE=0.1702,DW=0.62可以加AR(1)项克服自相关,LnCPit=0.0922+0.9595LnIPit+0.7383AR(1)+εit(0.3)(26.1)(9.0)R2=0.984,SSE=0.0801,DW=2.02.2固定效应模型(fixedeffectsregressionmodel)。固定效应模型分为3种类型,即个体固定效应模型、时点固定效应模型和个体时点双固定效应模型。下面分别介绍。2.2.1个体固定效应模型(entityfixedeffectsmodel)如果一个面板数据模型定义为,yit=αi+Xit'β+εit,i=1,2,…,N;t=1,2,…,T(3)其中αi是随机变量,表示对于i个个体有i个不同的截距项,且其变化与Xit有关系;Xit为k×1阶回归变量列向量(包括k个回归量),β为k×1阶回归系数列向量,对于不同个体回归系数相同,yit为被回归变量(标量),εit为误差项(标量),则称此模型为个体固定效应模型。个体固定效应模型(3)的强假定条件是,E(εit│αi,Xit)=0,i=1,2,…,Nαi作为随机变量描述不同个体建立的模型间的差异。因为αi是不可观测的,且与可观测的解释变量Xit的变化相联系,所以称(3)式为个体固定效应模型。个体固定效应模型也可以表示为yit=α1D1+α2D2+…+αNDN+Xit'β+εit,t=1,2,…,T(4)其中Di==其他,,个个体如果属于第,,0...,,2,1,1Nii个体固定效应模型(3)还可以用多方程表示为6y1t=α1+X1t'β+ε1t,i=1(对于第1个个体或时间序列),t=1,2,…,Ty2t=α2+X2t'β+ε2t,i=2(对于第2个个体或时间序列),t=1,2,…,T…yNt=αN+XNt'β+εNt,i=N(对于第N个个体或时间序列),t=1,2,…,T注意:(1)在EViews输出结果中αi是以一个不变的常数部分和随个体变化的部分相加而成。(2)在EViews5.0以上版本个体固定效应对话框中的回归因子选项中填不填c输出结果都会有固定常数项。对于个体固定效应模型,个体效应αi未知,E(αiXit)随Xit而变化,但不知怎样与Xit变化,所以E(yitXit)不可识别。对于短期面板数据,个体固定效应模型是正确设定的,β的混合OLS估计量不具有一致性。相应解释见3.1小节。但是对个体固定效应模型可以识别边际效应。β=∂E(yitαi,Xit)/∂Xit个体固定效应模型的估计方法有多种,首先设法除去αi的影响,从而保证β估计量的一致性。(详见第3节,面板数据模型估计方法。)下面解释设定个体固定效应模型的原因。假定有面板数据模型yit=β0+β1xit+β2zi+εit,i=1,2,…,N;t=1,2,…,T(5)其中β0为常数,不随时间、截面变化;zi表示随个体变化,但不随时间变化的难以观测的变量。以案例1为例,省家庭平均人口数就是这样的一个变量。对于短期面板来说,这是一个基本不随时间变化的量,但是对于不同的省份,这个变量的值是不同的。上述模型可以被解释为含有N个截距,即每个个体都对应一个不同截距的模型。令αi=β0+β2zi,于是(5)式变为yit=αi+β1xit+εit,i=1,2,…,N;t=1,2,…,T(6)这正是个体固定效应模型形式。对于每个个体回归函数的斜率相同(都是β1),截距αi却因个体不同而变化。可见个体固定效应模型中的截距项αi中包括了那些随个体变化,但不随时间变化的难以观测的变量的影响。αi是一个随机变量。因为zi是不随时间变化的量,所以当对个体固定效应模型中的变量进行差分时,可以剔除那些随个体变化,但不随时间变化的难以观测变量的影响,即剔出αi的影响。以案例