第三章回归模型的扩展之虚拟变量第四节虚拟变量模型一、虚拟变量的概念二、虚拟变量引入的方式三、虚拟变量的引入原则四、虚拟变量的应用五、案例分析一、虚拟变量的概念1、问题的引出前面的回归模型中,所遇到的变量均为定量变量,如GDP、工资、收入、销售额,教育年数等。实际建模,一些定性变量有不可忽视的影响。例如,研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营,非私营)、地理位置(东、中、西部)等是值得考虑的因素。但这些因素是定性描述的。2、基本概念定量因素——可直接测度,数值性的因素定性因素——属性因素,表征某种属性存在与否的非数值性因素问题:能否将定性因素进行量化,以及如何引入模型中?离散选择模型(离散被解释变量)虚拟变量方法(离散解释变量)3、虚拟变量的定义计量经济学中,将取值0和1的人工变量称为虚拟变量、哑元变量,定性变量。(dummyvariable)通常用D表示对定性变量的量化,以及对定量变量的分类,都可以采用虚拟变量的方式进行。例如,反映文化程度的虚拟变量可取为:01D本科及以上本科以下01D男性女性反映性别的虚拟变量可取为:4、虚拟变量中“0”,“1”选取原则要从分析问题的目的出发予以界定0—代表基期,比较的基期,参照组1—代表报告期,被比较的效应,实验组二、虚拟变量引入方式虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。iiiiXDXYE10)0,|(企业男职工的平均薪金为:iiiiXDXYE120)()1,|(企业女职工的平均薪金为:iiiiDXY2101.加法方式(1)单个虚拟变量的引入:一种因素两种状态例:研究工龄、性别对员工工资的影响其中:Yi为企业职工的薪金,Xi为工龄,01D男性女性几何意义:•两个函数有相同的斜率,说明男女职工平均薪金对工龄的变化率是一样的。•如果20,表明两个函数截距不相同,且男职工平均薪金比女职工高,两者平均薪金水平相差2。•如果20,表明两个函数截距不相同,且男职工平均薪金比女职工低,两者平均薪金水平相差2。•如果2=0,表明两个函数截距相同,即男职工,女职工的平均薪金没有显著差异。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。年薪Y男职工女职工工龄X02例:研究收入和教育水平(分为高,中,低三类)对个人保健支出的影响。教育水平考虑三个层次:低学历:高中以下,中等学历:高中,及大中专高学历:大学及其以上。这时需要引入两个虚拟变量:(2)多个虚拟变量的设定和引入——一种因素多种状态(水平):110D中等学历其他210D高学历其他模型可设定如下:iiiDDXY231210在E(i)=0的初始假定下,低学历,中等学历,高学历教育水平下个人保健支出的函数:低学历:中等学历:高学历iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(iiiXDDXYE13021)()1,0,|(假定32,其几何意义:大学教育保健高中教育支出低于中学教育收入问题:虚拟变量为何只选“0”,‘1“,选择0,1,2等可以吗同一种属性,两个变量能够表示几种状态?思考,如果在模型中引入季节效应?月份效应?(3)多个虚拟变量的引入——多种因素例:研究学历(本科及以上,本科以下),性别(男、女)对员工工资的影响。在例1基础上,再引入代表学历的虚拟变量D2:iiiDDXY231210012D本科及以上学历本科以下学历职工薪金的回归模型可设计为:110D男性女性•女职工本科以下学历的平均薪金:iiiXDDXYE13021)()1,0,|(•女职工本科以上学历的平均薪金:iiiXDDXYE132021)()1,1,|(iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(于是,不同性别、不同学历职工的平均薪金分别为:•男职工本科以下学历的平均薪金:•男职工本科以上学历的平均薪金:思考:研究性别(男、女),学历(分为高学历,中等学历,低学历)对员工工资的影响。一共要引入几个虚拟变量?•注意:加法方式引入虚拟变量,考察了截距的不同。但同时注意到,此时不同性别的人的学历差距对工资的影响一样。这是一个较强的约束。有可能当学历不同时,性别对于工资的影响不同或者,性别不同时,学历对工资的影响不同即:某变量的边际影响受到其他变量的调节作用。如何体现这种交互效应?交互效应的处理•一个解释变量的边际效应有时可能要依赖于另一个解释变量。•交互作用的引入方法:在模型中引入相关变量的乘积。•交互项的处理方法,对于数量变量和虚拟变量都适用例:研究工龄、性别,学历对工资的影响(包含性别和学历的交互项)对工资的影响。此时,男性高学历的工作方程是怎样的?如何检验交互效应是否存在?1231425121YXDDDDu+112YXDD—表示工资收入—表示工龄—表示性别的虚拟变量,男性=1,女性=0—表示是否为高学历的虚拟变量,高学历=1,低学历=00515:0:0HH2.乘法方式乘法方式引入虚拟变量时,将虚拟变量与其他解释变量(或者定量变量X,或者其他虚拟变量D)的乘积,作为新的解释变量出现在模型中。达到调整设定模型斜率的目的。背景介绍:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。例:利用1978-2001年的数据,分析1990年前后消费倾向是否发生变化?tttttXDXC210消费模型可建立如下:01990D11990t年前设:年后这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。假定E(i)=0,上述模型所表示的函数可化为:1990年后:ttttXDXCE)()1,|(2101990年前:ttttXDXCE10)0,|(3、当截距与斜率发生变化时,同时引入加法与乘法形式的虚拟变量例,利用1978-2001的居民储蓄与居民收入的数据。考察1990年前、后中国居民的总储蓄-收入关系是否已发生变化。表5.1.11979~2001年中国居民储蓄与收入数据(亿元)90年前储蓄GNP90年后储蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.846670.01983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.4储蓄-收入关系是否发生改变,可利用虚拟变量模型来解决。将1990年前与1990年的观测值合并,并用以估计以下回归:Di为引入的虚拟变量:01D90年后90年前iiiiiiXDDXY)(4321于是有:可分别表示1990年前与1990年后的储蓄函数。在统计检验中,如果3=0的假设被拒绝,则说明两个时期中储蓄函数的截距不同;(t检验)如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。(t检验)也可以利用F检验,检查3=0,4=0是否同时成立。iiiiXXDYE21),0|(iiiiXXDYE)()(),1|(4231三、虚拟变量的引入原则若定性因素具有m个(m=2)个相互排斥的属性(或水平)当回归模型有截距项时,只能引入m-1个虚拟变量当回归模型无截距项时,可引入m个虚拟变量否则就会陷入“虚拟变量陷阱”例:虚拟变量陷阱居民住房消费支出和居民可支配收入之间的数量关系的回归模型为:为了研究“城镇”和“农村”在住房消费上的支出差异,引入虚拟变量:01YXu10D城镇农村012YXDu10D城镇农村0102102Y=YXuXu具体的:农村:城市:()对应农村居民的截距项对应城市居民和农村居民住房上的差距。如果引入两个虚拟变量:回归模型为:对任意家庭都有:产生完全多重共线性,陷入“虚拟变量陷阱”虚拟变量陷阱的实质是:完全多重共线性012132YXDDu110D城镇农村210D农村城镇1210DD如果模型本身不含截距项,引入两个虚拟变量:回归模型为:不会产生产生完全多重共线性,即不会陷入“虚拟变量陷阱”12132YXDDu110D城镇农村210D农村城镇312132YXuYXu农村:城市:对应农村居民的截距项对应城市居民的截距项四、虚拟变量的应用(1)调整季节波动利用季度或月份资料建模时,经常存在季节波动。处理方法去除时间序列的季节、周期等效应,更清晰的反应变量之间的关系利用虚拟变量方法反映季节因素的影响三、虚拟变量的应用(2)检验模型结构的稳定性(变化)用途:分析模型结构对样本变化的敏感性比较两个或多个模型之间的差异情况例如,不同性别人群消费函数是否相同?不同时期居民消费行为是否发生变化?为什么不简单的将数据分成两段?分组后观测值大大减少,有时观测值少到难以估计无法对结构变化进行检验(3)分段回归(略)五、案例分析