1第八章面板数据模型•在进行经济分析时经常会遇到时间序列和横截面两者相结合的数据。•例如,在企业投资需求分析中,我们会遇到多个企业的若干指标的月度或季度时间序列;在城镇居民消费分析中,我们会遇到不同省市地区的反映居民消费和居民收入的年度时间序列。•本章将前述的企业或地区等统称为个体,这种具有三维(个体、指标、时间)信息的数据结构称为时间序列/截面数据,有的书中也称为平行数据或面板数据(paneldata)。我们称这些数据为联合利用时间序列/截面数据(Pooledtimeseries,crosssection)。2EViews对面板数据模型的估计是通过含有Pool对象的工作文件和具有面板结构的工作文件来实现的。处理时间序列/截面数据的EViews对象称为Pool。通过Pool对象可以实现对各种变截距、变系数时间序列模型的估计,但Pool对象侧重分析“窄而长”的数据,即截面成员较少,而时期较长的侧重时间序列分析的数据。对于截面成员较多,时期较少的“宽而短”的侧重截面分析的数据,一般通过具有面板结构的工作文件(Panelworkfile)进行分析。利用面板结构的工作文件可以实现变截距时间序列/截面数据模型以及动态时间序列/截面数据模型的估计。第一节Pool对象3一、含有Pool对象的工作文件Pool对象在EViews中扮演着两种角色。首先,Pool对象中包含了一系列的标识名。这些标识名描述了工作文件中的时间序列/截面数据的数据结构。在这个角色中,Pool对象在管理和处理时间序列/截面数据上的功能与组对象有些相似。其次,利用Pool对象中的过程可以实现对各种时间序列/截面数据模型的估计及对估计结果的检验和处理。在这个角色中,Pool对象与方程对象有些相似4Pool对象的核心是建立表示截面成员的名称表。为明显起见,名称要相对较短。例如,国家作为截面成员时,可以使用USA代表美国,CAN代表加拿大,UK代表英国。定义了Pool的截面成员名称就等于告诉了EViews,模型的数据结构。在上面的例子中,EViews会自动把这个Pool理解成对每个国家使用单独的时间序列。必须注意,Pool对象本身不包含序列或数据。一个Pool对象只是对基本数据结构的一种描述。因此,删除一个Pool并不会同时删除它所使用的序列,但修改Pool使用的原序列会同时改变Pool中的数据。5•1.创建Pool对象•在本章中,使用的是一个研究投资需求的例子,包括了五家企业和三个变量的20个年度观测值的时间序列:例10.5研究企业投资需求模型5家企业:3个变量:GM:通用汽车公司I:总投资CH:克莱斯勒公司M:前一年企业的市场价值GE:通用电器公司K:前一年末工厂存货和设备的价值WE:西屋公司US:美国钢铁公司要创建Pool对象,选择Objects/NewObject/Pool…并在编辑窗口中输入截面成员的识别名称:6对截面成员的识别名称没有特别要求,但必须能使用这些识别名称建立合法的EViews序列名称。此处推荐在每个识别名中使用“_”字符,它不是必须的,但把它作为序列名的一部分,可以很容易找到识别名称。72.Pool序列命名在Pool中使用序列的关键是序列命名:使用基本名和截面识别名称组合命名。截面识别名称可以放在序列名中的任意位置,只要保持一致即可。例如,现有一个Pool对象含有识别名_JPN,_USA,_UK,想建立每个截面成员的GDP的时间序列,我们就使用“GDP”作为序列的基本名。把识别名称放在序列名的前面,中间或后面并没什么关系,只要易于识别就行了。但是必须注意要保持一致,不能这样命名序列:JPNGDP,GDPUSA,UKGDP1,因为EViews无法在Pool对象中识别这些序列。83.Pool序列概念一旦选定的序列名和Pool中的截面成员识别名称相对应,就可以利用这些序列使用Pool了。其中关键是要理解Pool序列的概念。一个Pool序列实际就是一组序列,序列名是由基本名和所有截面识别名构成的。Pool序列名使用基本名和“?”占位符,其中“?”代表截面识别名。如果序列名为GDPJPN,GDPUSA,GDPUK,相应的Pool序列为GDP?。如果序列名为JPNGDP,USAGDP,UKGDP,相应的Pool序列为?GDP。94.观察或编辑Pool定义要显示Pool中的截面成员识别名称,单击工具条的Define按钮,或选择View/Cross-SectionIdentifiers。如果需要,也可以对识别名称列进行编辑。5.Pool序列数据Pool中使用的数据都存在普通EViews序列中。这些序列可以按通常方式使用:可以列表显示,图形显示,产生新序列,或用于估计。也可以使用Pool对象来处理各单独序列。10二、输入Pool数据有很多种输入数据的方法,在介绍各种方法之前,首先要理解面板数据的结构,区别堆积数据和非堆积数据形式。面板数据的数据信息用三维表示:时期,截面成员,变量。例如:1950年,通用汽车公司,投资数据。使用三维数据比较困难,一般要转化成二维数据。有几种常用的方法。1.非堆积数据存在工作文件的数据都是这种非堆积数据,在这种形式中,给定截面成员、给定变量的观测值放在一起,但和其他变量、其他截面成员的数据分开。例如,假定我们的数据文件为下面的形式:11其中基本名I代表企业总投资、M代表前一年企业的市场价值、K代表前一年末工厂存货和设备的价值。每个企业都有单独的I、M、K数据。EViews会自动按标准输入程序读取非堆积数据。并把每个截面变量看作一个单独序列。注意要按照上述的Pool命名规则命名。12确认后EViews会打开新建序列的堆积式数据表。我们看到的是按截面成员堆积的序列,Pool序列名在每列表头,截面成员/年代识别符标识每行:2.堆积数据选择View/Spreadsheet(stackeddata),EViews会要求输入序列名列表13Pool数据排列成堆积形式,一个变量的所有数据放在一起,和其他变量的数据分开。大多数情况下,不同截面成员的数据从上到下依次堆积,每一列代表一个变量:14我们称上表数据是以截面成员堆积的,单击Order+/-实现堆积方式转换,也可以按日期堆积数据:每一列代表一个变量,每一列内数据都是按年排列的。如果数据按年排列,要确保各年内截面成员的排列顺序要一致。153.手工输入/剪切和粘贴4.文件输入使用Pool对象从文件读取数据,先打开Pool,然后选择Procs/ImportPoolData(ASCII,.XLS,.WK?)…,要使用与Pool对象对应的输入程序。16三、输出Pool数据按照和上面数据输入相反的程序可进行数据输出。由于EViews可以输入输出非堆积数据,按截面成员堆积和按日期堆积数据,因此可以利用EViews按照需要调整数据结构。最佳方式:复制、粘贴17四、使用Pool数据每个截面成员的基础序列都是普通序列,因此EViews中对各单个截面成员序列适用的工具都可使用。另外,EViews还有专门适用于Pool数据的专用工具。可以使用EViews对与一特定变量对应的所有序列进行类似操作。•1.检查数据2.描述数据3.生成数据可以使用PoolGenr(panelgenr)程序生成或者修改Pool序列。•4.生成Pool组5.删除和存取数据18五、Pool对象估计的模型形式我们可以把这些数据看作一系列截面说明回归量,因此有N个截面方程:,i=1,2,…,N(10.1.2)其中:yi是T1维被解释变量向量,xi是Tk维解释变量矩阵,yi和xi包含个体成员的各经济指标时间序列,例如个体成员代表各不同地区,则yi和xi的各个分量代表i地区的消费和收入、物价等指标的经济时间序列。由于含有N个个体成员方程和含有T个时间截面方程的两种形式的模型在估计方法上类似,因此本章主要讨论含有N个个体成员方程的面板数据模型的估计方法。iiiiiuβxy19六、如何估计Pool方程单击Pool工具栏的Estimate选项打开如下对话框:201.因变量在因变量对话框中输入Pool变量或Pool变量表达式。2.样本3.解释变量在两个编辑框中输入解释变量。(1)Common:——此栏中输入的变量对所有截面成员有相同的系数,并用一般名称或Pool名称输出结果。(2)Cross-sectionspecific:——此栏中输入的变量对Pool中每个截面成员的系数不同。(3)Periodspecific:——此栏中输入的变量对Pool中每个时期的系数不同。21模型(10.1.2)常用的有如下三种情形:情形1:(变系数模型)情形2:(变截距模型)情形3:(不变参数模型)情形1称为变系数模型,除了存在个体影响外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面上是不同的。情形2称为变截距模型,在横截面上个体影响不同,个体影响表现为模型中被忽略的反映个体差异的变量的影响,又分为固定影响和随机影响两种情况。情形3,在横截面上无个体影响、无结构变化,则普通最小二乘法估计给出了和的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。jijiββ,jijiββ,jijiββ,第二节模型形式设定检验22经常使用的检验是协方差分析检验,主要检验如下两个假设:H1:H2:可见如果接受假设H2则可以认为样本数据符合情形3,即模型为不变参数模型,无需进行进一步的检验。如果拒绝假设H2,则需检验假设H1。如果接受H1,则认为样本数据符合情形2,即模型为变截距模型,反之拒绝H1,则认为样本数据符合情形1,即模型为变参数模型。Nβββ21N21Nβββ2123下面介绍假设检验的F统计量的计算方法。首先计算情形1(变参数模型)的残差平方和,记为S1;情形2(变截距模型)的残差平方和记为S2;情形3(不变参数模型)的残差平方和记为S3。计算F2统计量在假设H2下检验统计量F2服从相应自由度下的F分布。若计算所得到的统计量F2的值不小于给定置信度下的相应临界值,则拒绝假设H2,继续检验假设H1。反之,接受H2则认为样本数据符合模型情形3,即不变参数模型。)]1(),1)(1[(~))1(()]1)(1/[()(1132kTNkNFkNNTSkNSSF24在假设H1下检验统计量F1也服从相应自由度下的F分布,即(10.2.8)若计算所得到的统计量F1的值不小于给定置信度下的相应临界值,则拒绝假设H1。如果接受H1,则认为样本数据符合情形2,即模型为变截距模型,反之拒绝H1,则认为样本数据符合情形1,即模型为变参数模型。)]1(,)1[(~))1((])1/[()(1121kTNkNFkNNTSkNSSF25例10.5中系数和取何种形式可以利用模型形式设定检验方法来确定。(1)首先分别计算3种形式的模型:变参数模型、变截距模型和不变参数模型,在每个模型的回归统计量里可以得到相应的残差平方和S1=339121.5、S2=444288.4和S3=1570884。(2)按(10.2.7)式和(10.2.8)式计算F统计量,其中N=5、k=2、T=20,得到的两个F统计量分别为:F1=((S2-S1)/8)/(S1/85)=3.29F2=((S3-S1)/12)/(S1/85)=25.73利用函数@qfdist(d,k1,k2)得到F分布的临界值,其中d是临界点,k1和k2是自由度。在给定5%的显著性水平下(d=0.95),得到相应的临界值为:F(12,85)=1.87F(8,85)=2.049由于F21.87,所以拒绝H2;又由于F12.049,所以也拒绝H1。因此,例10.5的模型应采用变系数的形式。26使用面板数据模型数据结构信息,有很多种方法进行方程估计。可以估计固定截距模型,随机截距模型,或者模型变量对各截面成员的系数不同,以及估计单独的AR项系数。也可以为各个截面成员分别估计一个方程。下面将介绍怎样使用Po