1第八章虚拟变量回归计量经济学2在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?面临的问题:如何把男女生这样的非数量变量引入方程?引子:男女大学生消费真有差异吗?3问题的一般性描述在实际建模中,一些定性变量具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。如何对非定量因素进行回归分析?采用“虚拟变量”对定性变量进行量化一种思路。4第八章虚拟变量回归本章主要讨论:●虚拟变量及其作用●虚拟变量设定●虚拟解释变量的回归●虚拟被解释变量的回归(选讲,不包括)5一、定义反映品质指标变化、数值只取0和1的人工变量,用符号D来表示。如:01D城镇居民农村居民01D销售旺季销售淡季01D政策紧缩政策宽松01D本科以上学历本科以下学历变量的划分应遵循穷举与互斥原则。第一节虚拟变量及其作用6二、作用⑴可以描述和测量定性因素的影响。⑵能够正确反映经济变量之间的相互关系,提高模型的精度。⑶便于处理异常数据。即将异常数据作为一个特殊的定性因素01D异常时期正常时期一、虚拟变量的引入方式(1)加法方式Yi=a+bxi+αDi+εi等价为:当Di=0时:Yi=a+bxi+εi当Di=1时:Yi=(a+α)+bxi+εiD=0D=1aa+αα以加法方式引入,反映定性因素对截距的影响第二节虚拟变量的设定8(2)乘法方式Yi=a+bxi+βXDi+εi其中:XDi=Xi*Di,上式等价于:当Di=0时:Yi=a+bxi+εi当Di=1时:Yi=a+(b+β)xi+εiD=0D=1aβ以乘法方式引入,可反映定性因素对斜率的影响,系数β描述了定性因素的影响程度。9(3)一般方式同时用加法与乘法方式引入虚拟变量,然后再利用t检验判断α、β是否显著的不等于零,进而确定虚拟变量的具体引入方式。【例】现有1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料。10观察相关图从相关图可以看出,前3个样本点与后5个样本点存在较大差异,因此,可设置虚拟变量反映“收入层次”:01D中高收入家庭低收入家庭11将我国城镇居民的彩电需求函数设成:Yi=a+bxi+αDi+βXDi+εiDATAD1(由于D是EViews软件的保留字,所以将虚拟变量取名为D1;另外,此时也可以用SMPL和GENR命令直接生成D1变量)GENRXD=X*D1生成变量XDLSYCXD1XD估计需求函数结果如下图所示:12我国城镇居民彩电需求函数的估计结果为:iiiiXDDxy0088.08731.310119.061.57ˆ对应的t统计量值R2的值调整的R2值SE的值结果表明不同收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异。13低收入家庭:iixy0119.061.57ˆ此例说明了三个问题:①如何设置和在模型中引入虚拟变量;②如何测量定性因素(即收入层次)的影响;③如何区分不同类型的模型(即需求函数)。中高收入家庭:iixy)0088.00119.0()8731.3161.57(ˆix003.048.89二、虚拟变量的设置原则⑴一个因素多个类型对于有m个不同属性的定性因素,应该设置m-1个虚拟变量来反映该因素的影响。例如,设公司职员的年薪与工龄和学历有关。学历分成三种:大专以下、本科、研究生。为反映“学历”的影响,应该设置两个虚拟变量:011D本科其他012D研究生其他Yi=a+bxi+εi大专以下(D1=D2=0)Yi=(a+α1)+bxi+εi本科(D1=1,D2=0)Yi=(a+α2)+bxi+εi研究生(D1=0,D2=1)而将年薪模型取成(假设以加法方式引入):Yi=a+bxi+α1D1i+α2D2i+εi其等价于:三类年薪函数的差异情况如下图所示:大专以下本科研究生工龄年薪α2-α1α1D=本科及以下硕士研究生博士研究生012设置虚拟变量D或增设D3行吗?012D研究生其他(2)多个因素各两种类型如果有m个定性因素,且每个因素各有两个不同的属性类型,则引入m个虚拟变量。例如,研究居民住房消费函数时,考虑到城乡的差异以及不同收入层次的影响,将消费函数取成:yi=a+bxi+α1D1i+α2D2i+εi其中y,x分别是居民住房消费支出和可支配收入,虚拟变量设为:这样可以反映各类居民家庭的住房消费情况:011D农村居民城镇居民012D高收入家庭低收入家庭城市低收入家庭(D1=0,D2=0)城市高收入家庭(D1=0,D2=1)农村低收入家庭(D1=1,D2=0)农村高收入家庭(D1=1,D2=1)思考:若是多因素、多个属性水平的问题,如何设置?一、调整季节波动例如,用季度数据分析某公司利润y与销售收入x之间的相互关系时,为研究四个季度的季节性影响,引入三个虚拟变量(设第1季度为基础类型):利润函数可取为:Yi=a+bxi+α1D1i+α2D2i+α3D3i+εi01iD第i+1季度i=1,2,3其他季度第三节虚拟变量的特殊应用20二、检验模型结构的稳定性设根据两个样本估计的回归模型分别为:样本1:Yi=a1+b1xi+εi样本2:Yi=a2+b2xi+εi估计模型:Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+εi其中,XDi=xi*Di。01D样本2样本1设置虚拟变量:21利用t检验判断D、XD系数的显著性,得到四种检验结果:(1)a2=a1,b2=b1,两个回归模型没有显著差异。(2)a2≠a1,b2=b1,两个回归模型之间的差异仅仅表现在截距上。(3)a2=a1,b2≠b1,两个回归模型的截距相同,但斜率存在显著差异。(4)a2≠a1,b2≠b1,表明两个回归模型完全不同。第(1)种情况下模型结构是稳定的,其余情况都表明模型结构不稳定。重合回归平行回归汇合回归相异回归22三、分段回归设虚拟变量为:分段回归模型设置成:Yi=a+bxi+β(xi-x*)Di+εi其中,x*是已知的临界水平(分段点)。这样各段的函数为:Yi=a+bxi+εixx*Yi=(a-β)+(b+β)xi+εixx*01Dxx*xx*使用虚拟变量能如实描述不同阶段的经济关系,又未减少估计模型时样本容量,保证了估计精度。四、混合回归【例】现有我国城镇居民1998年、1999年全年人均消费支出和可支配收入的统计资料。试使用混合样本数据估计我国城镇居民消费函数。设1998年、1999年我国城镇居民消费函数分别为:1998年:Yi=a1+b1xi+εi1999年:Yi=a2+b2xi+εi能否将变量的时序数据和横截面数据混合建模24为比较两年的消费函数是否有显著差异,设置虚拟变量:并且合并两年的数据,估计以下模型:Yi=a1+b1xi+αDi+βXDi+εi其中α=a2-a1,β=b2-b1。01D1999年1998年25使用EViews软件的估计过程如下:CREATEU16建立工作文件DATAYX(输入1998、1999年消费支出和收入的数据,1~8期为1998年资料,9~16期为1999年资料)SMPL18样本期调为1998年GENRD1=0输入虚拟变量的值SMPL916样本期调为1999年GENRD1=1输入虚拟变量的值26SMPL116样本期调至1998~1999年GENRXD=X*D1生成XD的值LSYCXD1XD利用混合样本估计模型t统计量R2的值调整的R2值估计结果为:操作演示27第四节案例分析为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄(),以国民总收入GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系,并建立相应的计量经济学模型。Y28表8.1国民总收入与居民储蓄存款单位:亿元年份国民总收入(GNI)城乡居民人民币储蓄存款年底余额()城乡居民人民币储蓄存款增加额()年份国民总收入(GNI)城乡居民人民币储蓄存款年底余额()城乡居民人民币储蓄存款增额()19783624.1210.6NA199121662.59241.62121.819794038.228170.4199226651.911759.42517.819804517.8399.5118.5199334560.515203.53444.119814860.3532.7124.219944667021518.86315.319825301.8675.4151.7199557494.929662.38143.519835957.4892.5217.1199666850.538520.88858.5数据来源:《中国统计年鉴2004》,中国统计出版社。表中“城乡居民人民币储蓄存款年增加额”为年鉴数值,与用年底余额计算的数值有差异。YYYYYY29表8.1国民总收入与居民储蓄存款(续)单位:亿元年份国民总收入(GNI)城乡居民人民币储蓄存款年底余额()城乡居民人民币储蓄存款增加额()年份国民总收入(GNI)城乡居民人民币储蓄存款年底余额()城乡居民人民币储蓄存款增加额()19847206.71214.7322.2199773142.746279.8775919858989.11622.6407.9199876967.253407.57615.4198610201.42237.6615199980579.459621.86253198711954.53073.3835.720008825464332.44976.7198814922.33801.5728.2200195727.973762.49457.6198916917.85146.91374.22002103935.386910.613233.2199018598.47119.81923.42003116603.2103617.716631.9YYYYYY30为了研究1978—2003年期间城乡居民储蓄存款随收入的变化规律是否有变化,考证城乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示:31从上图中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量(),并作时序图(见左下图):YY32从居民储蓄增量图(上页左图)可以看出,城乡居民的储蓄行为表现出了明显的阶段特征:在1996年和2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图看(见上页右图),也呈现出了相同的阶段性特征。33为了分析居民储蓄行为在1996年前后和2000年前后三个阶段的数量关系,引入虚拟变量和。和的选择,是以1996、2000年两个转折点作为依据,并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型:其中:123142YYGNIGNI66850.50GNI88254.00tttttttDDu11199601996ttDt年以后年及以前21200002000ttDt年以后年及以前D1D2D1D234对上式进行回归后,有:35即有:由于各个系数的t检验均大于2,表明各解释变量的系数显著地不等于0,居民人民币储蓄存款年增加额的回归模型分别为:1YY-830.40450.1445GNI-0.2914GNI-66850.50se172.16260.00570.0272-4.823425.1700-10.7192ttttDt20.5602GNI-88254.00se0.040113.9581ttDt36123YY-830.40450.1445GN