第八章虚拟变量一、虚拟变量的基本含义二、虚拟变量的引入三、虚拟变量的设置原则一、虚拟变量的基本含义•许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等•但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。•为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummyvariables),记为D。•例如,反映文化程度的虚拟变量可取为:1,本科学历D=0,非本科学历一般地,在虚拟变量的设置中:•基础类型、肯定类型取值为1;•比较类型,否定类型取值为0。概念:同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型。例1:为了考察企业职工薪金收入(Yi)的情况,以工龄(Xi)和性别(Di)为影响因素,建立如下模型:iiiiDXY210其中:Di=1,若是男性,Di=0,若是女性。二、虚拟变量的引入•虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。iiiiDXY210iiiXDYE10)0|(企业男职工的平均薪金为:上述企业职工薪金模型中性别虚拟变量的引入:在该模型中,如果仍假定E(i)=0,则企业女职工的平均薪金为:1、加法方式iiiXDYE120)()1|(几何意义:•假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。•可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。年薪Y男职工女职工工龄X02例2:在横截面数据基础上,考虑个人保健支出(Y)对个人收入(X)和教育水平(D)的回归。教育水平(D)考虑三个层次:高中以下,高中,大学及其以上011D其他高中012D其他大学及其以上模型可设定如下:这时需要引入两个虚拟变量:在E(i)=0的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的均值:•高中以下:•高中:•大学及其以上:假定320,其几何意义:大学教育保健高中教育支出低于中学教育收入•还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。例3:在上述职工薪金的例中,除了工龄和性别两个自变量外,再考虑学历的影响,此时怎么处理?(学历分为本科及以上、本科以下两种)•还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。例3:在上述职工薪金的例中,除了工龄和性别两个自变量外,再引入代表学历的虚拟变量C:本科及以上学历本科以下学历职工薪金的回归模型可设计为:2、乘法方式•加法方式引入虚拟变量,考察:截距的不同,•许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化。•斜率的变化可通过以乘法的方式引入虚拟变量来测度。例4:根据消费理论,消费水平C主要取决于收入水平X,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。tttttXDXC210•这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。•假定E(i)=0,上述模型所表示的函数可化为:正常年份:反常年份:如,设01tD反常年份正常年份消费模型可建立如下:当截距与斜率都发生变化时,则需要同时引入加法与乘法形式的虚拟变量。•例5,考察1990年前后中国居民的总储蓄(Y)-收入(X)关系是否已发生变化。表中给出了中国1979~2001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。表5.1.11979~2001年中国居民储蓄与收入数据(亿元)90年前储蓄GNP90年后储蓄GNP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.846670.01983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.4在统计检验中,如果3=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同,即储蓄倾向不一样。如果2=0的假设被拒绝,则说明两个时期中储蓄的基数存在显著差异。•具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)由2与3的t检验可知:参数显著地不等于0,强烈示出两个时期的回归是相异的,储蓄函数分别为:1990年前:1990年后:iiiiiXDDXY4765.03.138028881.015452ˆ2R=0.9836iiXY4116.07.1649ˆiiXY8881.015452ˆ三、虚拟变量的设置原则虚拟变量的个数须按以下原则确定:如果某个定性变量有m种相互排斥的类型,则模型中只能引入m-1个虚拟变量。否则会陷入所谓的“虚拟变量陷阱”,产生完全共线性。例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受季节这个定性变量的影响,而季节有四个相互排斥的类型——春、夏、秋、冬,所以需引入?个虚拟变量:011tD其他春季012tD其他夏季013tD其他秋季则冷饮销售量的模型为:•在上述模型中,若再引入第四个虚拟变量ttttktkttDDDXXY332211110014tD其他冬季则冷饮销售模型变量为:tttttktkttDDDDXXY44332211110μαβD)(X,Y如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。000110010110001010010010100011)(616515414313212111kkkkkkXXXXXXXXXXXXDX,k10β4321α案例分析:中国城镇居民家庭的储蓄函数•根据我国城镇居民家庭1955—1985年人均收入(X)和人均储蓄(S)的数据资料(以1955年的物价水平为100),建立储蓄模型:•用最小二乘法得估计结果为:•tttuXS10)4.12)....(1.3........(17.04.33tXStt833.02R398.0DW•模型隐含着一个重要假定:我国城镇居民家庭的储蓄行为在1955年至1985年期间是不变的。假定未必能够成立,因为,与居民储蓄有关的许多重要因素在1979年以后发生了明显变化,主要表现为:•1)在经济体制改革之前,我国居民的收入一直在低水平上徘徊,大多数居民家庭的收入仅能维持温饱,因而平均储蓄倾向很低,积蓄很少;1979年之后,我国居民的收入水平迅速提高,与此同时,居民储蓄也在大幅增长。前后两个时期,我国居民的储蓄行为有显著差异;•2)在改革开放前的大多数年份,我国的消费品市场存在严重短缺的现象。消费者既使有钱也难以买到所需的商品,而不得不把钱暂时存起来。因此,这一时期储蓄带有“非自愿”的性质;而在1979年之后,消费品市场日趋丰富,消费者储蓄的主要目的之一是购买高档耐用消费品,储蓄不再具有“被迫”性质。•为了验证城镇居民储蓄行为的变化,建立如下截距和斜率同时变动模型:ttttuDXDXS32101979019791ttD用最小二乘法得:tttttXDDXS252.07.55256.07.61(2.18)(8.1)(3.9)(-9.2)967.02R67.1DW1979年以前:ttXS004.00.61979年以后:ttXS256.07.61•估计结果表明:1979年之前,我国城镇居民的边际储蓄倾向仅为0.004,即收入增加一元储蓄平均增加4厘;而在1979—1985年期间,城镇居民边际储蓄倾向高达0.256。