第八章虚拟变量回归模型§8.1虚拟变量§8.2虚拟解释变量的回归模型§8.3虚拟被解释变量的回归模型§8.4案例分析8.1虚拟变量两大类变量:1.定量变量(尺度变量,scalevariable)可以计算比率、也可以差分。如GDP、价格、产量、人口数、身高等。虚拟变量的概念2.定性变量(名义变量,nominalvariable)不可计算比率、也不可差分。如性别、种族、国籍、党派、企业类别等。虚拟变量(dummyvariable)就是定性变量。虚拟变量也可引入回归模型,用符号D表示。其取值为“1”或“0”。8.2虚拟解释变量的回归模型【例】研究某企业的职工工资与工龄之间的线性回归关系,并判断该企业是否存在性别歧视。设工资Y为被解释变量;工龄X为解释变量;性别为虚拟变量,用D表示。D=1,表示男性,D=0,表示女性。123iiiiYXDu引入虚拟变量D的回归模型:如果,说明存在性别歧视。03虚拟变量的引入方式123iiiiYXDu1加法方式特征:截距变,斜率不变。当D=0(女性)当D=1(男性)132()iiiYXu12iiiYXu0XY1ˆ31ˆˆ男性女性(工龄)(工资)XY21ˆˆˆXY231ˆ)ˆˆ(ˆ1加法方式(续)特征:截距变,斜率不变。2乘法方式特征:截距不变,斜率变。123iiiiiYXDXu当D=0(女性)当D=1(男性)12iiiYXu123()iiiYXu0XY1ˆ男性女性(工龄)(工资)XY21ˆˆˆXY)ˆˆ(ˆˆ3212乘法方式(续)特征:截距不变,斜率变。3加法方式与乘法方式相结合特征:截距变,斜率变。1234iiiiiYDXDXu当D=0(女性)当D=1(男性)13iiiYXu1234()()iiiYXu3加法方式与乘法方式相结合(续)特征:截距变,斜率变。0XY1ˆ男性女性(工龄)(工资)XY31ˆˆˆXY)ˆˆ()ˆˆ(ˆ432121ˆˆ【案例1】研究中国1979-2001年储蓄与GNP之间的关系,请问:1990年前后,储蓄-GNP的关系是否发生结构性变化?年度储蓄(Y)GNP(X)19792814038.21980399.54517.81981523.74860.31982675.45301.81983892.55957.419841214.77206.719851622.68989.119862237.610201.419873073.311954.519883801.514922.319895146.916917.819907034.218598.41991910721662.5199211545.426651.9199314762.434560.5199421518.846670199529662.357494.9199638520.866850.5199746279.873142.7199853407.576967.2199959621.880579.4200064332.488228.1200173762.494346.48.3案例分析1变量分析:设储蓄为被解释变量Y;GNP为解释变量X;1990年前后这一时期属性为虚拟变量D。D=0表示1990年前,D=1表示1990年后。2虚拟变量引入方式:加法方式与乘法方式相结合3回归模型:1234ttttttYDXDXu当D=0(1990年前)当D=1(1990年后)13tttYXu1234()()tttYXu加法方式乘法方式为了考察结构性变化,只要检验β2或β4是否显著地不等于零。Eviews中虚拟变量的赋值操作命令由于Eviews中不可用D作为变量名,故用DM代替虚拟变量D。SeriesDM定义虚拟变量DMSmpl19791989指定样本范围(1990前)DM=0将虚拟变量赋值为0Smpl19902001指定样本范围(1990后)DM=1将虚拟变量赋值为1Smpl@all指定全范围样本XDXDY476515.0411576.029.13802734.1649ˆ虚拟变量项的回归系数的t检验结果表明,回归系数与零有显著性差异,即不等于零。所以,1990前后储蓄-GNP的关系存在结构性变化。也可用Eviews进行结构性变化的检验,即ChowTest(邹至庄检验)邹至庄(1929-),英文名GregoryC.Chow,著名美籍华人经济学家,美国普林斯顿大学教授。1首先用命令equationeq.lsycx进行回归分析(不引入虚拟变量)。eq为回归方程名。2然后用命令eq.chow1990进行结构性变化检验。1990表示有待检验的结构性变化点。ChowTest的步骤3如果F-statistic的值大于F(2,19)的临界值;或者,如果Prob.F0.05,表明存在结构性变化。本例,F-statistic=7.259945F(2,19)=3.52(查表)Prob.F(2,19)=0.0045480.05说明1990年前后确实存在结构性变化。也可在回归分析结果的视窗内,通过View/StabilityTests/ChowBreakpointTest的视窗操作,进行结构性检验(如下图所示)。【案例2】研究美国1978-1985年各季度冰箱销售量与耐用品支出之间的关系。参见古扎拉蒂教材p.290,表9-4.)。季度冰箱销售量(千台)耐用品支出(10亿美元)FRIGDUR1978(1)1317252.61978(2_1615272.41978(3)1662270.91978(4)1295273.91979(1)1271268.91979(2)1555262.91979(3)1639270.91979(4)1238263.41980(1)1277260.61980(2)1258231.91980(3)1417242.71980(4)1185248.61981(1)1196258.71981(2)1410248.41981(3)1417255.51981(4)919240.41982(1)943247.71982(2)1175249.11982(3)1269251.81982(4)973262.01983(1)1102263.31983(2)1344280.01983(3)1641288.51983(4)1225300.51984(1)1429312.61984(2)1699322.51984(3)1749324.31984(4)1117333.11985(1)1242344.81985(2)1684350.31985(3)1764369.11985(4)1328356.41变量分析:将DUR作为解释变量;FRIG作为被解释变量;引入3个季度虚拟变量D1,D2,D3。(虚拟变量数=属性数–1)2季度虚拟变量的赋值规则:D1=1(第1季度)0(其他季度)D2=1(第2季度)0(其他季度)D3=1(第3季度)0(其他季度)3季度虚拟变量的赋值操作命令:seriesD1D1=@seas(1)seriesD2D2=@seas(2)seriesD3D3=@seas(3)4回归分析操作命令:equationeq.lsFrigcDurD1D2D3提问根据回归分析结果,发现存在什么问题?如何修改回归模型?8.4虚拟被解释变量的回归模型【例】研究是否购买住房与收入水平的关系。设是否购房为被解释变量,用Y表示;收入为解释变量,用X表示。Y就是虚拟被解释变量,其取值为Y=1(购买);Y=0(不买)1.线性概率模型(LPM,LinearProbabilityModel)12iiiYXu回归模型:12(|)iiiEYXX回归方程:12(|)iiiEYXX回归方程:虚拟被解释变量的条件均值的意义设被解释变量的属性(购房)发生概率为ipiY概率01ip1ip()01)1(iiiiEYppp12(()|)iiiiiEYXpEYX所以,虚拟被解释变量的条件均值即购房概率,它是收入的线性函数。约束条件0(|)1iiEYXLPM模型估计的问题(1)随机扰动项的非正态性后果:对回归参数估计无影响,但影响t检验和区间估计。在大样本条件下,都没有影响。12iiiuYX(1)iY121iX12iXiu(0)iY(2)随机扰动项的异方差性可见,随机扰动项出现异方差。为了消除异方差,采用WLS(加权最小二乘法)。var()(1)iiiupp可以证明:12ˆˆˆiiYX第1步:用OLS,求ˆˆˆˆˆ(1)(1)iiiiiwppYY第2步:用WLS,取解决方法1:(3)条件均值不满足约束条件0(|)1iiEYX如果认定;ˆ1iYˆ1iY认定ˆ0iYˆ0iY解决方法2:选择非线性概率模型,如Logit模型、Probit模型。线性概率模型与非线性概率模型的特征比较1LPM(a)线性概率模型ˆYX1CDFpX(b)非线性概率模型2.Logit模型LPM模型:Logit模型:(非线性)12(1|)iiiipEYXX12()1(11|)iiiiXpYeEX如果iX0ipiX1ip-10-55100.20.40.60.81Xp使用Mathematica软件描出曲线图。12()11iiXpe12iiZX令11iiZpe111iiZpe111iiiZziZipeepe等式左边为事件发生概率与不发生概率之比,称机会比率。将非线性转化为线性ln()ln1iziiipeZp,称为机会比率的对数,ln()1iipp机会比率对数是解释变量X的线性函数。12iX说明变动一个单位,机会比率对数平均变化个单位,iX2Logit模型的估计12ln()1iiiipZXp区分两类数据:(1)个体水平数据购房概率p收入X(千美元)0608110112如果,0ip0ln1iZ,1ip1ln0iZ可见,Z表达式无意义,无法用OLS,需用ML(最大似然法)最大似然法(MethodofMaximumLikelihood)也称极大似然法,最早由德国数学家高斯(1777-1855)提出,1912年由英国统计学家费歇(Fisher)证明与应用。它是建立在最大似然原理基础上的一种统计方法。最大似然原理【例】设有外形完全相同的两个箱子,甲箱有99个白球1个黑球,乙箱有1个白球99个黑球。随机地从某箱中抽取一球,发现是白球。请问此箱是甲箱还是乙箱?分析:从逻辑上严格地来说,仅仅从取出的球是白球这一点是无法判定该箱究竟是甲箱还是乙箱。但是,如果我们从统计概率上来判断,看上去最像是甲箱,而不是乙箱。因为甲箱的白球概率为0.99;乙箱的白球概率仅仅0.01。其实,如果我们从“最大似然”的英文MaximumLikelihood来看,原始含义就是“看起来最像”。“看起来最像”,在很多情况下其实就是我们的决策依据。(2)群组数据(整理汇总数据)家庭收入(千美元)X群组内家庭总数群组内购房家庭数购房概率权重机会比率对数64080.26.4-1.386850120.249.12-1.1531060180.312.6-0.847ˆiiinpN18ˆ0.240p10.2ˆln-1.38610.2Z由此,可用OLS估计回归参数。但是由于存在异方差,需用WLS,权重计算公式:ˆˆ(1)iiiiwNppˆipiwiniNˆiZ12iiiZXu回归模型:【案例3】已知50名硕士考生的考试分数(SCORE)、录取状况(Y)、应届生状况(D1),求录取概率模型(Logit模型)张晓峒教材p.218表1