第八章虚拟变量模型本章简介:前面章节中所给出的模型,其变量均为实变量,即可以定量化的实际经济变量,比如:收入、消费、投资、GDP等等。然而,在现实经济分析中,我们常常会遇到一些不好定量化的定性变量,如季节因素、性别、职业等,这时我们引入虚拟变量对其进行一定的量化处理,这样的模型称为虚拟变量模型。本章重点:虚拟变量的定义虚拟变量的应用虚拟变量的检验虚拟变量的解释第八章第一节§8.1虚拟变量的概念及其应用一、虚拟变量的概念在前面的章节中我们所讨论的经济变量都是可以量化的变量,即可以定量的变量,然而,在现实经济问题分析中我们常常会碰到一些定性变量,比如,性别、职业、国籍、季节、气候等等许多因素对所研究的经济问题是有影响的,但这些变量与普通变量不一样,为了将其量化,我们引入虚拟变量的概念。名称:虚拟变量英文:DummyVariable简称:虚变量别称:二值变量或哑变量用途:量化定性因素取值:一般只取0与1两个值范围:两种或两种以上状态的定性因素价值:在模型中引入了定性因素举例:比如研究某类工作是否有性别歧视等二、虚拟变量的使用一般来说,当模型有截距项(即常数项)时,如果模型中定性因素有m个状态时,模型中只能引入m-1个虚拟变量,否则会出现多重共线性;当模型无截距项时,若定性因素有m个状态时,要引入m个虚拟变量。这时不会出现多重共线性。比如,性别因素有男性与女性两个状态,对于有常数项的模型,只用一个虚拟变量即可将性别量化。再比如一年有四个季节,即季节因素的状态有4个,对于有常数项的模型,我们用三个虚变量即可将其量化:其它第一季度01D1当对应于第一季度时,虚变量D1取1,其它虚变量取0值,对应于第二季度时,虚变量D2取1,其它虚变量取0值,其它第三季度01D3其它第二季度01D2对应于第三季度时,虚变量D3取1,其它虚变量取0值。对应于第四季度时,三个虚变量均取0值。三个虚拟变量的赋值示例:给虚变量赋值之后,采用OLS方法进行回归估计,对各个虚变量进行t-显著性检验,若显著,说明该虚变量所代表的状态对被解释变量有影响,这时该虚变量的引入是有意义的。否则,表示没有影响,即该虚变量的引入无效。比如,若解释变量有一个为性别虚拟变量,若该变量的T—检验显著,说明性别不同使所研究的问题是有差异的。虚拟解释变量模型的应用举例①:为了解美国妇女在工作中是否受到歧视,研究者建立了以下多元回归模型,分析所用到的变量有:W——雇员的工资(美元/小时)SEX=ED——雇员的受教育年限AGE——雇员的年龄若雇员为男性0若雇员为女性1①来源:清华大学李子奈教授习题、清华网。对124名雇员的样本进行了研究,得到回归结果为:(括号内为估计量的t值)由以上回归可知,样本容量N=124,自由度为V=120,查得T-分布临界值为1.98,显然性别虚拟变量是显著的,即存在性别歧视。23.2F867.0R(4.63)(8.54)(-4.61)(-3.38)12.099.076.241.6ˆ2AGEEDSEXW第八章第二节§8.2虚拟解释变量模型的类型虚拟变量模型有多种形式,分为被解释变量虚拟变量与解释变量虚拟变量模型两大类,当解释变量为虚拟变量时,常见的模型有三大类:截距变动模型、截距与斜率同时变动模型、分段回归模型。一、截距变动模型当我们所研究的经济问题的样本数据呈现出像图8.1中所示的散布点时,这些散布点不可以用一条直线很好地拟合,即如果直接做线性回归,拟合图8.1斜率相同而截距变动的散点图1000YX效果不会很好。而这些散布点呈现出的趋势是两条斜率相同而截距不同的直线,这时,引用一个虚变量即可使问题得到较好的解决。截距变动,斜率不变的虚拟解释变量模型的形式如下:该模型的回归式中,当虚拟变量取0时,截距为,当虚拟变量取1时截距为,但是斜率不变。ttttuXDY10010二、截距与斜率同时变动模型有时候,我们所取得的样本是截距与斜率同时变动的,如图8-2的变化趋势。这时我们可以引入虚变量将像图9-2中散布点所呈现出的两种不同的趋势用同一个回归模型描述出来:图8.2截距与斜率同时变动的散点图0YX斜率的变化可通过引入虚拟变量与实变量的乘积来表示出来。ttt1t0t10tuD*XXDY三、分段回归模型有时我们所研究的变量之间的变化趋势在某一时点上发生了转折,如图8-3中所呈现的样本散布点图,它表明变量Y与变量X之间的变化关系在点X*处发生了转折,一般来说,这样的转折点是由于突发图8.3分段回归的散点图0X*YX事件所引起的,比如某项改革的实施、战争爆发、金融危机等等。由于突发事件的影响使经济行为发生了质的飞跃,这时我们可以引入虚变量来描述突发性事件对模型变量间关系的影响,设定模型为:ii*i2i10iuD)XX(XY其中,采用截距和斜率同时变动的虚变量模型也可以描述分段回归模型。此外,对于分段回归模型,当样本容量比较大时,可以分两段进行回归,其回归方程式是等价的。*i*iiXX0XX1D比如,我国由于改革开放,许多经济指标均呈现出结构性的突变。以1952-2008年的我国GDP(GrossDomesticProduct)为例,改革开放之前与之后有着明显的区别。1952-2008年的我国GDP趋势图0100002000030000400005000060000700005560657075808590950005GDP52四、虚拟解释变量模型应用实例①研究美国1970年第一季度至2004年第四季度的消费支出PCE的数据,可以发现,其存在明显的季节性。由于圣诞节处于第四季度,故第四季度的消费是一年中最高的。①数据来源:美国1970:1—2004:4的消费趋势图04008001200160020001970197519801985199019952000美国消费支出消费随时间变化的散点图04008001200160020002400020406080100120140160TPCE从图中可以算出,消费随时间有规律地变化,为了模拟消费的变化趋势,从而对其进行预测,我们选择时间变量(T)为解释变量,考虑到季节变动,引入虚拟变量,D1,D2,D3(定义同上)等。由图可知,PCE随时间的变化是二次曲线,设定模型为下式:作回归估计时,当t下标对应为第一季度时,D1t=1,否则为0,当t下标对应为第二季度时,D2t=1,否则为0,当t下标对应为第三季度时,D3t=1,否则为0。ttttttuTTDTDTDTPCE2837261540***模型回归结果如下:其中括号内这T-统计量,所有参数均为显著的,拟合集优度R2=0.999,但DW值存在自相关,进行AR(1)0.17DW999.0R(-10.38)(-10.05)(-17.16)*53.0*51.0*88.0(68.71)(28.66)(32.48)070.034.425.146ˆ23212TDTDTDTTECPtttttt修正,重新估计得:以上回归的模拟效果:-40-200204005001000150020002500197519801985199019952000ResidualActualFitted从以上回归结果可以看出,变量D1*T前的系数-0.88,最小,D2*T与D3*T前参数-0.515与-0.529相差与几,而T前的参数为4.37,这说明第四季度的变化最大,第一季度变化最小,事实上,从下图中这一点完全可以得以佐证。不同季度数据变化的特征:800100012001400160018002000220019901992199419961998200020022004美国消费支出第八章第三节§8.3虚拟被解释变量模型的类型不仅是解释变量可以是定性变量,被解释变量也可以是定性变量,比如,美国总统选举有两个侯选人,即每个选民有两种选择。被解释变量为虚拟变量时,常见的模型有线性概率模型、Logit和Probit模型。一、线性概率模型(LPM)当我们所研究的问题中的被解释变量只有两种选择时,定义:这时,被解释变量为虚拟变量。第二种选择第一种选择01Yi这样的问题很多,比如,我们可以研究企业重组与否与其影响因素之间的关系,某项决策与其影响因素之间的关系等。这时的解释变量可以是实变量,也可以是虚拟变量,若直接使用OLS方法进行估计,这时模型称为线性概率模型。假设模型中仅有一个解释变量X,线性概率模型可以表示为:由于Yi只取两个值0与1,设Yi取1的概率为Pi,则Yi取0的概率为(1-Pi),于是,ii10iuXYiiiiP)P1(*0P*1)Y(E而于是显然概率Pi是Xi的线性函数,故称之为线性概率模型。该类模型存在两方面有问题:第一,由于对解释变量的取值i10iX)Y(Ei10iXP没有限制,故用模型进行预测时,可能概率值超过[0,1]区间,若小于0,用0代替,若大于1,用1代替,但这样做结果是估计量是有偏的;第二,随机扰动项不具有同方差性,从而估计量不具有效性。二、对数单位模型(Logit)针对以上模型的不足,人们对概率进行了改进,使概率的预测值都落在[0,1]之间,一种方法是将概率表示为解释变量线性组合的逻辑斯蒂函数(Logistic):将其变形,得:该模型采用极大似然法进行估计,参数的含义是:当解释变量X增加一个单位时,)(i10Xie11Pi10iiX)P1P(Ln1作出该项选择与不作出该项选择的概率之比的对数值增加一个。三、概率单位模型(Probit)对概率表达式的另一种改进是,用标准正态分布函数来表示概率:1该模型称为Probit模型,所用估计方法也是最大似然法。dveXPiXvii10221021)(第八章第四节§8.4虚拟变量模型应用实例例8.1考研决策模型①对某大学即将毕业的学生是否参加考研(Y)进行研究,以确定影响考研的因素。选择在校平均成绩得分(X,经标准化处理)、本人感觉就业是否困难(D1)和家庭收入状况是否可以负担费用(D2)等因素,通过抽样取得30个学生的有关资料。①来源:李庆华:《计量经济学》,中国经济出版社,2005年。各虚拟变量的取值如下:当学生决定参加考研时,Y取1,不参加考研时,Y取0;当学生认为就业困难时,D1取1,否则D1取0;当学生负担得起读研费用时,D2取1,否则D2取0。分别用以上三种模型进行估计得:用LPM模型估计得:用Logit模型估计得:87.9F1.73DW530(1.24)(2.05)5.00)()75.1(17.031.029028977.0ˆ221.RDDX.Y500(0.77)(1.98)2.71)()64.2(97.078.332367.8ˆ221.RDDX.Y用Probit模型估计得:从以上三个模型的估计结果来看,取决于是否考研的最为显著的因素都是学习成绩,其次是就业是否困难,是否负担得500(0.81)(2.18)2.92)()84.2(58.017.292104.5ˆ221.RDDX.Y起费用在两个模型中均不显著,因此不是影响考研的因素。本章内容结束,谢谢观看!若结束学习,请退出幻灯片放映,若继续学习下一章内容,请点击下面的下一章按钮。下一章