1虚拟变量(dummyvariable)在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。1.截距移动设有模型,yt=0+1xt+2D+ut,其中yt,xt为定量变量;D为定性变量。当D=0或1时,上述模型可表达为,0+1xt+ut,(D=0)yt=(0+2)+1xt+ut,(D=1)02040600204060XY图8.1测量截距不同D=1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:–105+xD=1(男)y=-100+x-5D=–100+xD=0(女)注意:①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummyvariabletrap)。②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。③定性变量中取值为0所对应的类别称作基础类别(basecategory)。④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:1(大学)D=0(中学)-1(小学)。00+2D=1D=02例1:季节数据模型我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:1(4季度)1(3季度)1(2季度)D1=D2=D3=0(1,2,3季度)0(1,2,4季度)0(1,3,4季度)200030004000500060000102030TY200030004000500060000102030TY全国按季节市场用煤销售量数据(file:Dummy1)季度YttD1D2D3季度YttD1D2D31982.12599.810001985.33159.1150101982.22647.220011985.44483.2161001982.32912.730101986.12881.8170001982.44087.041001986.23308.7180011983.12806.550001986.33437.5190101983.22672.160011986.44946.8201001983.32943.670101987.13209.0210001983.44193.481001987.23608.1220011984.13001.990001987.33815.6230101984.22969.5100011987.45332.3241001984.33287.5110101988.13929.8250001984.44270.6121001988.24126.2260011985.13044.1130001988.34015.1270101985.23078.8140011988.44904.228100注:以季节数据D1为例,EViews命令是D1=@seas(4)。以时间t为解释变量(1982年1季度取t=1)的煤销售量(y)模型如下:y=2431.20+49.00t+1388.09D1+201.84D2+85.00D3(1)(26.04)(10.81)(13.43)(1.96)(0.83)R2=0.95,DW=1.2,s.e.=191.7,F=100.4,T=28,t0.05(28-5)=2.07由于D2,D3的系数没有显著性,说明第2,3季度可以归并入基础类别第1季度。于是只考虑加入一个虚拟变量D1,把季节因素分为第四季度和第一、二、三季度两类。从上式中剔除虚拟变量D2,D3,得煤销售量(y)模型如下:y=2515.86+49.73t+1290.91D1(2)(32.03(10.63)(14.79)R2=0.94,DW=1.4,s.e.=198.7,F=184.9,T=28,t0.05(25)=2.06进一步检验斜率是否有变化,在上式中加入变量tD1,y=2509.07+50.22t+1321.19D1-1.95tD1(3)(28.24)(9.13)(6.85)(-0.17)R2=0.94,DW=1.4,s.e.=202.8,F=118.5,T=28,t0.05(24)=2.063由于回归系数-1.95所对应的t值是-0.17,可见斜率未发生变化。因此以模型(2)作为最后确立的模型。若不采用虚拟变量,得回归结果如下,y=2731.03+57.15t(4)(11.6)(4.0)R2=0.38,DW=2.5,s.e.=608.8,T=28,t0.05(26)=2.06与(2)式相比,回归式(4)显得很差。2.斜率变化以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:yt=0+1xt+2D+3xtD+ut,其中xt为定量变量;D为定性变量。当D=0或1时,上述模型可表达为,(0+2)+(1+3)xt+ut,(D=1)yt=0+1xt+ut,(D=0)通过检验3是否为零,可判断模型斜率是否发生变化。0204060801000204060XY0102030405060700204060TY图8.5情形1(不同类别数据的截距和斜率不同)图8.6情形2(不同类别数据的截距和斜率不同)例2:用虚拟变量区别不同历史时期中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下0(1950-1977)D=1(1978-1984)4中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)年tradetimeDtimeD年tradetimeDtimeD19500.41510019681.085190019510.59520019691.069200019520.64630019701.129210019530.80940019711.209220019540.84750019721.469230019551.09860019732.205240019561.08770019742.923250019571.04580019752.904260019581.28790019762.641270019591.493100019772.725280019601.284110019783.5502912919610.908120019794.5463013019620.809130019805.6383113119630.857140019817.3533213219640.975150019827.7133313319651.184160019838.6013413419661.2711700198412.0103513519671.1221800以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下:trade=0.37+0.066time-33.96D+1.20timeD(1.86)(5.53)(-10.98)(12.42)0.37+0.066time(D=0,1950-1977)=-33.59D+1.27time(D=1,1978-1984)上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。例3:香港季节GDP数据(单位:千亿港元)的拟合(虚拟变量应用,file:dummy6)1.01.52.02.53.03.54.090919293949596979899000102GDP1990~1997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DTIM如下(数据见附录):1(第2季度)D2=0(其他季度)1(第3季度)D3=0(其他季度)51(第4季度)D4=0(其他季度)1(1998:1~2002:4)DT=0(1990:1~1997:4)得估计结果如下:如果不采用虚拟变量拟合效果将很差。6案例5天津市粮食市场小麦批发价与面粉零售价的关系研究首先看天津市粮食市场小麦批发价格的变化情况(图1)。1995年初,天津市粮食市场的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。散点图如图2。按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。见图4,直接拟合这些数据效果将很差(R2=0.027,r=0.17)。2.02.22.42.62.81000120014001600180020009596979899000102retailpricewholesale2.02.22.42.62.8100012001400160018002000wholesaleretailprice图1图22.02.22.42.62.8100012001400160018002000wholesaleretailprice2.02.22.42.62.8100012001400160018002000wholesaleretailprice图3图4利用虚拟变量技术,在模型中加入虚拟变量。定义D=0,(1995:1~1996:6,面粉零售价格放开之前),D=1,(1996:7~2002:12,面粉零售价格放开之后)。取对数关系建立模型。7Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。剔出Lnsale变量,得估计结果PRICE=2.140+1.1215LnsaleD–7.7458D(131.5)(23.9)(-23.0)R2=0.9054,PRICE=2.140,D=0PRICE=–5.6058+1.1215Lnsale,D=1一条回归直线的斜率为零,一条回归直线的斜率为1.12。可决系数从不加虚拟变量模型的0.046增加到0.905(输出结果见下)。本例也可以建立倒数模型:82.02.22.42.62.80.00040.00050.00060.00070.00080.00090.00101/SALEPRICEPRICE=2.140+1.5141D–1565.9(1/sale)D(145.9)(32.1)(-27.0)R2=0.9231,PRICE=2.140,D=0PRICE=3.6541–1565.9(1/sale),D=1