1第五章虚拟与离散变量回归模型前面所研究的回归模型,其变量都是在取一些实际的数值,一般是连续的。实际工作中经常遇到变量取离散数值情形,它的回归模型需要给予特殊的考虑。在经济分析中还经常遇到因变量不是数值,比如买与不买,升与降,有与无等。这些选择可以给予一个虚拟变量并赋以数值代表。这样的回归当然就更有特色了。本章就研究这一类回归模型。第一节虚拟变量作自变量的模型在回归模型中,因变量往往不仅受到那些取实际数值的自变量(如价格、工资收入、产量、温度、距离、重量等等)的影响,而且受到一些不取实际数值的自变量(如性别、国籍、种族、颜色、学位、地震、罢工、政治动乱、政府更叠等等)的影响。要在模型中反映这种影响,可以引进虚拟变量,人为给予这些因素赋以一定数值。如果某因素只有二种选择(如性别),可以引进虚拟变量个样本来自女性第个样本来自男性第iiDi01当然也可以给Di赋值(1,-1)或(1,2),怎样赋值要看实际问题表示与计算方便。如果某因素有多项选择,如学位,你可以引进虚拟变量博士硕士学士321iD等等。我们先考虑虚拟变量在模型中作加项,再考虑作乘项。一、虚拟变量作加项,工资性别差异设对某种职业者的工资采集了10个样本,列于下表,工资单位略去,性别栏中1表示男性,0表示女性。表5.1.1序号12345678910工资22.019.018.021.718.521.020.517.017.521.2性别10010110012我们以性别为自变量建立回归模型iiiDY10(5.1.1)对于表中资料回归得iiDY28.300.18它表示,女性的平均工资为18,男性的平均工资为18+3.28=21.28。由于回归系数β1的t统计量为7.44,远大于临界值0.44,非常显著,故认为该项工作男女工资存在差别。一般地,对模型(5.1.1)0)0|(iiDYE(5.1.2)10)1|(iiDYE(5.1.3)若β1显著性检验通过,应认为Di的属性集合存在显著差别。上面的模型除了考虑性别外,没有考虑任何其它因素。如果考虑其它因素对工资的影响,比如工龄,可以取实际数值,以X表示,则有模型iiiiXDY210(5.1.4)此时iiiiXDXYE20)0,|((5.1.5)iiiiXDXYE210)()1,|((5.1.6)如果系数β1是统计显著的,表示工资还是存在性别差异。如果某个因素有3个属性,能不能用这种两项选择的开关变量表示呢?可以使用两个开关变量。比如学位分3个等级:学士,硕士,博士,就引进其他学士101iD博士硕士102iD建立如下模型iiiiXDDY322110(5.1.7)则XDDYEi3021)0,0|((5.1.8)3XDDYEi31021)0,1|((5.1.9)3321021)1,1|(XDDYEi(5.1.10)不过更多的情况是将两个虚拟变量用来区分两个因素,如用D1区分性别,用D2区分肤色,等等。可以使用更多的虚拟变量,如有人研究业余兼职者的工资状况,建立过如下的回归方程65432126.264.11333.4751.7506.90403.007.37XDDDDXY(5.1.11)式中X1是第一职业工资,D2~D5都是开关变量,用来区分肤色(白人,非白人),居住地(城区,非城区),地域(西部,非西部),学历(高等教育,非高等教育)。X6是年龄。这一段谈到的都是虚拟变量作加项,它影响回归方程的均值。二、虚拟变量作乘项,储蓄与收入分段拟合比较这一段考虑虚拟变量作乘项,它影响回归方程的斜率。开始我们也看一个具体的数值例子。表5.1.2是英国1946~1963年居民储蓄与收入资料,单位是百万英镑。表5.1.2年份储蓄收入年份储蓄收入19460.368.819550.5915.519470.219.419560.9016.719480.0810.019570.9517.719490.2010.619580.8218.619500.1011.019591.0419.719510.1211.919601.5321.119520.4112.719611.9422.819530.5013.519621.7523.919540.4314.319631.9925.2表上粗略显示,资料可以分为两个时期:1946~1954年为战后恢复时期,1955~1963年为振兴时期。我们可以分别建立两个回归方程1111101,,1,niXYii(5.1.12)2221202,,1,niXYii(5.1.13)对于本例具体资料,可以回归得iiXY110470.02663.0(5.1.14)4iiXY221504.07501.1(5.1.15)两个方程的斜率不一样,反映储蓄增长速度后来加快了。要检验这组资料是否真的应该划分为两组,建立两个回归模型,或说要检验这两个回归方程是否有显著性差别,可以使用Chow检验法(具体方法在后面介绍)。但是,一组资料用两个方程描述会带来诸多不便。使用虚拟变量,可以用一个方程描述回归方程斜率参数(非常数因子)的变化。对于本例资料,可以建立如下方程iiiiiiXDXDY)(3210(5.1.16)其中Y为储蓄,X为收入,D为二值虚拟变量属于第二个时期属于第一个时期iiXXD01则iiiXDYE11)0|((5.1.17)iiiXDYE)()()1|(2121(5.1.18)对于本例资料,可以计算得回归方程iiiiiXDXDY1034.01505.04839.17502.1(5.1.19)取Di=0,则iiXY1505.07502.1(5.1.20)取Di=1,则iiiXXY0471.02663.0)1034.01505.0()4839.17502.1((5.1.21)与两个方程效果是一致的(末位数含有舍入误差)。效果是一致的,为什么要采用一个方程而不用两个方程?除了便于统一处理外,一个方程很大的优点是增加了自由度,从而增加了参数估计的精度。样本数几乎增加一倍,而因增加变量数仅减少两个自由度,我们知道自由度=n-m。有人使用虚拟变量建立失业率与工作空位率之间的关系,也是有一个参数变化点:iiiiiiVDVDUN)(3210(5.1.22)这里UN是失业率(unemplogmentrate),V是工作空位率(job-vacancyrate),D是二值开关变量。有人建立起服装消费与性别、文化教育的关系,使用两个开关变量XDDYiii322110(5.1.23)5这里Y是服装的消费量,X是收入,D1用来区分性别,D2用来区分受教育程度。由于考虑女性受过高等教育者的服装消费远大于其它人,即性别因素与受教育程度有交互作用,故将回归方程改进为iiiiiiDDXDDY)(214322110(5.1.24)即添加一项(D1iD2i)以反映交互作用。下面我们仍以表5.1.2资料为例介绍Chow检验。设有n1组资料iiiXXY111),,(可以是多元,以及n2组资料(Y2i,X2i),X2i须与X1i维数相同,对它们分别建立回归模型:),0(~,:2111111011NXYniiii(5.1.25)),0(~,:2222222022NXYniiii(5.1.26)Chow检验的目的是鉴别这两个模型究竟有无显著性差别。它的步骤如下:(1)合并这两组资料,建立一个统一模型:iiiXYnn021:(5.1.27)算得残差平方和S,其自由度是n1+n2-m。(2)分别计算两个单独模型的残差平方和S1(自由度n1-m)与S2(自由度n2-m)。(3)令S3=S1+S2(自由度是n1+n2-2m),S4=S-S3(自由度是m),建立统计量)2/(/2134mnnSmSF(5.1.28)在两个单独的回归模型一致的假设下),,(2120102221ii,统计量F应服从自由度为)2,(21mnnm的F分布,在显著性水平α下,查得临界值)2,(21mnnmF,如果F超过了临界值,就在置信水平1-α下拒绝两个回归模型一致的假定。Chow检验简便易于操作,但是结果比较粗糙。如果拒绝了一致性假设,只知道两个模型存在显著性差异,可是到底是2i不一样,还是βi不一样,就不得而知了。在表5.1.2资料中,算得16,5722.0,1178.00821.1fSXY7,1396.0,0470.02622.011fSXY7,1931.0,1504.07502.122fSXY62395.0,3327.034213SSSSSS74.3)14,2(04.514/3327.02/2395.005.0FF(5.1.29)故拒绝两个单独模型一致的假定,即认为英国在战后恢复期与振兴期的居民储蓄与收入关系存在显著性差异。下面以本段资料给出算例与计算程序及结果。算例5.1.2分段回归与Chow检验读者可以从打印出来的含虚拟变量数据具体体会虚拟变量的构造与作用,最后的拟合效果图(图5.1.2.1)清楚显示这个分段回归,是分两段直线段。-------------------------------------------------------------------------------------------------------------------------虚拟变量分段回归与Chow检验,例5.1.2.例512.D数据文件中,n=18,m=1,N1=9N1+N2=N,分段回归第二组资料的个数是9要显示原始资料吗?0=不显示,1=显示(0)总的回归方程样本总数18Y=-1.0821+.1178X1总的残差平方和Q:.5722自由度:16第一个回归方程样本总数9Y=-.2663+.0470X1第一个方程的残差平方和Q1:.1397自由度:7第二个回归方程样本总数9Y=-1.7501+.1504X1第二个方程的残差平方和Q2:.1931自由度:7现在作两个回归方程差异显著性Chow检验请输入显著性水平a,通常取a=0.01,0.05,0.10,a=?统计量:5.0371临界值:4.6001显著,两个回归方程存在显著性差异下面引进虚拟变量作回归要打印重新构造的回归资料吗?0=不打印,1=打印(1)打印重新构造的含有虚拟变量的回归数据.36001.00008.80008.8000.21001.00009.40009.4000.08001.000010.000010.0000.20001.000010.600010.6000.10001.000011.000011.0000.12001.000011.900011.9000.41001.000012.700012.7000.50001.000013.500013.50007.43001.000014.300014.3000.5900.000015.5000.0000.9000.000016.7000.0000.9500.000017.7000.0000.8200.000018.6000.00001.0400.000019.7000.00001.5300.000021.1000.00001.9400.000022.8000.00001.7500.000023.9000.00001.9900.000025.2000.0000打印使用虚拟变量的回归方程Y=-1.7502+1.4839X1+.1505X2+-.1034X3打印使用虚拟变量的回归分析结果现在作线性回归显著性检验,计算t,F,R统计量请输入显著性水平a,通常取a=0.01,0.05,0.10