面板数据模型1.面板数据模型概述1.1面板数据的含义面板数据(paneldata)也称也称平行数据,或时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata),是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看是一个时间序列。面板数据用双下标变量表示。例如yiti=1,2,…,N;t=1,2,…,TN表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi.(i=1,2,…,N)是横截面上的N个随机变量;若固定i不变,y.t(t=1,2,…,T)是纵剖面上的一个时间序列(个体),如图11.1.1所示。图1.1面板数据示意图例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。对于面板数据yit,i=1,2,…,N;t=1,2,…,T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balancedpaneldata)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalancedpaneldata)。例1.11996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费和人均收入(不变价格)数据见表1.1和表1.2。数据是7年的,每一年都有15个数据,共105组观测值。表1.11996-2002年中国15个省级地区的居民家庭人均消费数据(不变价格)表1.21996-2002年中国15个省级地区的居民家庭人均收入数据(不变价格)人均消费和收入的面板数据从纵剖面观察分别见图1.2和图1.3。从横截面观察分别见图1.4和图1.5。用CP表示消费,IP表示收入。AH,BJ,FJ,HB,HLJ,JL,JS,JX,LN,NMG,SD,SH,SX,TJ,ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。2000300040005000600070008000900010000110001996199719981999200020012002CPAHCPBJCPFJCPHBCPHLJCPJLCPJSCPJXCPLNCPNMGCPSDCPSHCPSXCPTJCPZJ图1.215个省市人均消费序列(纵剖面)图1.315个省市人均收入序列20004000600080001000012000140001996199719981999200020012002IPAHIPBJIPFJIPHBIPHLJIPJLIPJSIPJXIPLNIPNMGIPSDIPSHIPSXIPTJIPZJ图1.415个省市人均消费散点图(每条连线表示同一年度15个地区的消费值)图1.515个省市人均收入散点图(7个横截面叠加)(每条连线表示同一年度15个地区的收入值)15个地区7年人均消费对收入的面板数据散点图见图1.6和图1.7。图1.6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图1.7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。2000300040005000600070008000900010000110000400080001200016000IP(1996-2002)CPAHCPBJCPFJCPHBCPHLJCPJLCPJSCPJXCPLNCPNMGCPSDCPSHCPSXCPTJCPZJ图1.6用15个时间序列表示的人均消费对收入的面板数据图1.7用7个截面表示的人均消费对收入的面板数据(7个截面叠加)图1.8给出北京和内蒙古1996-2002年消费对收入散点图。图1.9给出15个省级地区1996和2002年的消费对收入散点图。图1.8北京和内蒙古1996-2002年消费对收入时序图图1.91996和2002年地区消费对收入散点图1.2面板数据模型的基本类型设yit为被解释变量在横截面i和时间t上的数值,xjit为第j个解释变量在横截面i和时间t上的数值,uit为横截面i和时间t上的随机误差项;bji为第i截面上的第j个解释变量的模型参数;ai为常数项或截距项,代表第i横截面(第i个体的影响);解释变量数为j=l,2,…,k;截面数为i=1,2,…,N;时间长度为t=1,2,…,T。其中,N表示个体截面成员的个数,T表示每个截面成员的观测时期总数,k表示解释变量的个数。则单方程面板数据模型一般形式可写成:对于平衡的面板数据,即在每一个截面单元上具有相同个数的观测值,模型样本观测数据的总数等于NT。当N=1且T很大时,就是所熟悉的时间序列数据;当T=1而N很大时,就只有截面数据。面板数据模型划分为3种类型:这种情形意味着模型在横截面上无个体影响、无结构变化,可将模型简单地视为是横截面数据堆积的模型。这种模型与一般的回归模型无本质区别,只要随机扰动项服从经典基本假设条件,就可以采用OLS法进行估计(共有k+1个参数需要估计),该模型也被称为联合回归模型(pooledregressionmodel)。(2)变截距模型:ai≠aj,bi=bj=b这种情形意味着模型在横截面上存在个体影响,不存在结构性的变化,即解释变量的结构参数在不同横截面上是相同的,不同的只是截距项,个体影响可以用截距项ai(i=1,2,…,N)的差别来说明,故通常把它称为变截距模型。(1)无个体影响的不变系数模型:ai=aj=a,bi=bj=b(3)变系数模型:ai≠aj,bi≠bj这种情形意味着模型在横截面上存在个体影响,又存在结构变化,即在允许个体影响由变化的截距项ai(i=1,2,…,N)来说明的同时还允许系数向量bi(i=1,2,…,N)依个体成员的不同而变化,用以说明个体成员之间的结构变化。我们称该模型为变系数模型。1.3面板数据模型的优点1.利用面板数据模型可以解决样本容量不足的问题2.有助于正确地分析经济变量之间的关系3.可以估计某些难以度量的因素对被解释变量的影响建立面板数据模型首先要检验被解释变量yit的参数ai和bi是否对所有个体样本点和时间都是常数,即检验样本数据究竟属于上述3种情况的哪一种面板数据模型形式,从而避免模型设定的偏差,改进参数估计的有效性。主要检验如下两个假设:如果接受假设H2,则可以认为样本数据符合不变截距、不变系数模型。如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合变截距、不变系数模型;反之,则认为样本数据符合变系数模型。2.模型形式设定检验下面介绍假设检验的F统计量的计算方法。首先计算变截距、变系数模型(11.1.6)的残差平方和S1。如果记变截距模型该模型允许个体成员上存在个体影响,并用截距项的差别来说明。模型的回归方程形式如下:2.1固定影响变截距模型1.最小二乘虚拟变量模型(LSDV)及其参数估计其中例2.1利用1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费和人均收入数据(见表1.1和表1.2),试研究这些地区的居民家庭消费行为。(1)建立合成数据库(pool)对象或混合数据库对象;(2)定义序列名并输入数据;(3)估计无个体影响的不变系数模型;(4)估计变截距模型。(1)建立合成数据库(pool)对象在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选NewObject功能,从而打开NewObject(新对象)选择窗(见图2.1)。图2.1Pool对象定义对话框在TypeofObject选择区选择Pool(混合数据库),在NameofObject选择区命名CS(初始显示为Untitled),点击OK,从而打开Pool对象说明窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。如图2.2所示。图2.2Pool对象说明窗口(2)定义序列名并输入数据在新建立的Pool(混合数据)窗口的工具栏中点击Sheet键,从而打开SeriesList(列出序列名)窗口,定义时间序列变量CP?和IP?,如图2.3。点击OK键,从而打开Pool(混合数据库)窗口,输入数据,输入完成后的情形见图2.4。图2.3序列列表对话框图2.4序列的堆栈形式数据表(3)估计无个体影响的不变系数模型模型形式为其中:a为15个省市的平均自发消费倾向,b为边际消费倾向。在Pool窗口的工具栏中点击Estimate键,打开PooledEstimation(混合估计)窗口如图2.5。图2.5合成数据模型定义对话框在对话框左上部的DependentVariable选择窗填入被解释变量CP?;在中部的Commoncoefficients(系数相同)选择窗填入解释变量IP?;Crosssectionspecificcoefficients(截面系数不同)选择窗保持空白;Intercept选项代表截距的处理方式。None代表模型不包含截距,Common指所有截面单元具有相同截距,Fixedeffects与Randomeffects分别表示截距变动的固定效应和随机效应。本例选择窗点击Common。对话框Weighting(权数)选项是模型的估计方法。本例选择不加权,点击Noweighting。完成合成数据模型定义对话框后,点击OK键,得输出结果如表2.1。表2.1无个体影响的不变系数模型估计结果表2.1结果表明,回归系数显著不为0,调整后的样本决定系数达0.98,说明模型的拟合优度较高。从结果看,平均消费倾向为0.76,表明15个省级地区的人均消费支出平均占收入的76%。(4)变截距模型模型形式为其中:ai为15个省市的自发消费倾向,用来反映省市间的消费结构差异,b为边际消费倾向。EViews估计方法:在EViews的PooledEstimation对话框中Intercept选项中选Fixedeffects。其余选项同上。得输出结果如表2.2。表2.2变截距模型估计结果表2.2中给出了变截距模型估计结果,表中的系数0.697561为边际消费倾向,后面三项是估计标准误、检验统计量值和相伴概率。表中下半部是各地区截距估计值。输出结果的方程形式是安徽:CP_AH=479.3076014+0.6975614547*IP_AH北京:CP_BJ=1053.179629+0.6975614547*IP_BJ福建:CP_FJ=467.9678362+0.6975614547*IP_FJ河北:CP_HB=361.3764747+0.6975614547*IP_HB黑龙江:CP_HLJ=345.9120278+0.6975614547*IP_HLJ吉林:CP_JL=540.1174754+0.6975614547*IP_JL江苏:CP_JS=480.417445+0.6975614547*IP_JS江西:CP_JX=195.9175812+0.6975614547*IP_JX辽宁:CP_LN=622.0405359+0.6975614547*IP_LN内蒙古:CP_NMG=306.0650134+0.6975614547*IP_NMG山东:CP_SD=381.4986769+0.6975614547*IP_SD上海:CP_SH=782.5988793+0.6975614547*IP_SH陕西:CP_SX=440.7243659+0.6975614547*IP_SX天津:CP_TJ=562.8424811+0.6975614547*IP_TJ浙江:CP_ZJ=714.233227+0.6975614547*IP_ZJ表2.2结果表明,回归系数显著不为0,调整后的样本决定系数达0.99,说明模型的拟合优度较高。从估计结果可以看出,对于本例中的15个