第四章随机解释变量问题1.随机解释变量的来源有哪些?答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。2.随机解释变量有几种情形?分情形说明随机解释变量对最小二乘估计的影响与后果?答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS估计得到的参数估计量是有偏且非一致的估计量。3.选择作为工具变量的变量必须满足那些条件?答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。4.对模型Yt=β0+β1X1t+β2X2t+β3Yt-1+μt假设Yt-1与μt相关。为了消除该相关性,采用工具变量法:先求Yt关于X1t与X2t回归,得到Ytˆ,再做如下回归:Yt=β0+β1X1t+β2X2t+β3Ytˆ1-+μt试问:这一方法能否消除原模型中Yt-1与μt的相关性?为什么?解答:能消除。在基本假设下,X1t,X2t与μt应是不相关的,由此知,由X1t与X2t估计出的Ytˆ应与μt不相关。5.对于一元回归模型Yt=β0+β1Xt*+μt假设解释变量Xt*的实测值Xt与之有偏误:Xt=Xt*+et,其中et是具有零均值、无序列相关,且与Xt*及μt不相关的随机变量。试问:(1)能否将Xt=Xt*+et代入原模型,使之变换成Yt=β0+β1Xt+νt后进行估计?其中,νt为变换后模型的随机干扰项。(2)进一步假设μt与et之间,以及它们与Xt*之间无异期相关,那么E(Xt-1νt)=0成立吗?Xt与Xt-1相关吗?(3)由(2)的结论,你能寻找什么样的工具变量对变换后的模型进行估计?解答:(1)不能。因为变换后的模型为Yt=β0+β1Xt+(μt-β1et)显然,由于et与Xt同期相关,则说明变换后的模型中的随机干扰项νt=μt-β1et与Xt同期相关。(2)E(Xt-1νt)=E[(Xt-1*+et-1)(μt-β1et)]=E(Xt-1*μt)-β1E(Xt-1*et)+E(et-1μt)-β1E(et-1et)=0多数经济变量的时间序列,除非它们是以一阶差分的形式或变化率的形式出现,往往具有较强的相关性,因此,当Xt与Xt-1直接表示经济规模或水平的经济变量时,它们之间很可能相关;如果变量是一阶差分的形式或以变化率的形态出现,则它们间的相关性就会降低,但仍有一定程度的相关性。(3)由(2)的结论知,E(Xt-1νt)=0,即Xt-1与变换后的模型的随机干扰项不相关,而且Xt与Xt-1有较强的相关性,因此,可用Xt-1作为Xt的工具变量对变换后的模型进行估计。6.一个对某地区大学生就业增长影响的简单模型可描述如下:gEMPt=β0+β1gMINIt+β2gPOPt+β3gGDP1t+β4gGDPt+μt式中,EMP为新就业的大学生人数,MINI为该地区最低限度工资,POP为新毕业的大学生人数,GDP1为该地区国内生产总值,GDP为该国国内生产总值;g表示年增长率。(1)如果该地区政府以多多少少不易观测的却对新毕业大学生就业有影响的因素作为基础来选择最低限度工资,则OLS估计将会存在什么问题?(2)令MIN为该国的最低限度工资,它与随机扰动项相关吗?(3)按照法律,各地区最低限度工资不得低于国家最低工资,哪么gMIN能成为gMINI的工具变量吗?解答:(1)由于地方政府通常是根据过去的经验、当前的经济状况以及期望的经济发展前景来定制地区最低限度工资水平,但模型中并不包含这些因素,而是被归结到了模型的随机干扰项中,因此gMINI与μ不仅异期相关,而且很可能是同期相关的,这将引起OLS估计量的偏误,甚至当样本容量增大时也不具有一致性。(2)全国最低限度工资的制定主要根据全国整体的情况而定,因此gMINI基本与上述模型的随机扰动项无关。(3)由于地方政府在制定本地区最低工资水平时往往会考虑全国最低工资水乎要求,因此gMINI与gMIN具有较强的相关性。结合(2)知gMIN可以作为gMINI的工具变量使用。第五章多重共线性1.什么是多重共线性?产生多重共线性的经济背景是什么?答:对于多元回归模型:0112212iiikkiiYXXXin,,,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。产生多重共线性的经济背景是,经济变量在时间上有共同变化的趋势和经济变量之间较强的相关性。另外,当模型中包含解释变量与其滞后解释变量时,由于解释变量本身前后期相关,也会产生多重共线性。2.多重共线性的危害是什么?为什么会造成这些危害?答:当存在完全的多重共线性时,模型的参数将无法估计,因为参数估计量(X'X)-1X'Y中的(X'X)-1将不存在;当多重共线性程度很高时,(X'X)-1的分母将变得很小,因此参数估计量的方差2(X'X)-1将变大,相应的t统计量值变小,显著性检验也失去意义,模型预测失去意义;另外,解释变量的参数不再反映各自与被解释变量之间的关系,而是反映它们对解释变量的共同影响,因而参数失去了应有的经济含义。3.检验多重共线性的方法思路是什么?有哪些克服方法?答:检验多重共线性的思路是通过各种方法来检验解释变量之间是否存在显著的相关关系。多重共线性的克服方法有很多,主要可以由以下几种:利用逐步回归法排除引起共线性的变量、差分法、减少参数估计量的方差、利用先验信息改变参数的约束形式、增加样本容量等。4.在研究生产函数时,得到以下两种结果:1nYˆt=-5.04+0.8871nKt+0.8931nLt(A)S.E.=(1.40)(0.087)(0.137)R2=0.878n=211nYˆt=-8.57+0.0272t+0.4601nKt+1.2851nLt(B)S.E.=(2.99)(0.020)(0.333)(0.324)R2=0.889n=21其中,Y=产量,K=资本,L=劳动,t=时间,n=样本容量。请回答:(1)验证模型(A)中所有的系数在统计上都是显著的(5%);(2)验证模型(B)中t和lnK的系数在统计上不显著(5%);(3)可能什么原因造成了(B)中lnK的系数不显著;(4)如果t与lnK的相关系数为0.98,你将如何判断并能得出什么结论?解答:(1)模型(A)中三个系数对应的t统计量分别为:40.104.5=-3.6087.0887.0=10.195137.0893.0=6.5182查t分布临界值表得t0.025(18)=2.101,模型(A)中三个系数t统计量的绝对值均大于临界值2.101,因此所有的回归系数在统计上都是显著的。(2)模型(B)中t和lnK的系数对应的t统计量分别为:0204.00272.0=1.3333324.0460.0=1.4193查t分布临界值表得t0.025(17)=2.11,模型(B)中t和lnK的系数对应的t统计量绝对值均小于临界值2.11,因此回归系数在统计上不显著。(3)造成模型(B)中lnK系数不显著的原因是由于新变量t的引入,t与lnK之间可能存在严重的多重共线性。(4)t与lnK的相关系数为0.98,表明两者相关程度很高,模型(2)存在严重的多重共线性。5.某地区供水部门利用最近15年的用水年度数据得出如下估计模型:Wˆ=-326.9+0.305HO+0.363PO–0.005RE–17.87PR–1.123RA(-1.7)(0.9)(1.4)(-0.6)(-1.2)(-0.8)R2=0.939F=38.9其中,W(Water)—用水总量(百万立方米),HO(House)—住户总数(千户),PO(Population)—总人口(千人),RE(Revenue)—人均收人(元),PR(price)—价格(元/100立方米),RA(rain)—降雨量(毫米)。(1)根据经济理论和直觉,预计回归系数的符号是什么(不包括常量)?为什么?观察符号与你的直觉相符吗?(2)在10%的显著性水平下,请进行变量的t检验与方程的F检验。t检验与F检验结果有相矛盾的现象吗?(3)你认为估计值是①有偏的;②无效的或③不一致的吗?详细阐述理由。解答:(1)在其他变量不变的情况下,一城市的人口越多或房屋数量越多,则对用水的需求越高。所以可期望HO和PO的符号为正;收入较高的个人可能用水较多,因此RE的预期符号为正,但它可能是不显著的;如果水价上涨,则用户会节约用水,所以可预期PR的系数为负;如果降雨量较大,则草地和其他花园或耕地的用水需求就会下降,所以可以期望RA的系数符号为负。从估计的模型看,除了RE之外,所有符号都与预期相符。(2)t统计量检验单个变量的显著性,F统计量检验回归方程总体线性显著与否,是联合检验。这里t检验的自由度为15-5-1=9,在10%的显著性水平下的临界值为1.833。可见,所有参数估计值的t值的绝对值都小于该值,所以即使在10%的显著水平下这些变量也不是显著的。这里,F统计值的分子自由度为5,分母自由度为9。10%显著性水平下F分布的临界值为2.61。显然计算的F值大于该临界值,表明回归系数是联合显著的。t检验与F检验结果相矛盾可能是由于多重共线性造成的。HO、PO、RE都是高度相关的,这将使它们的t值降低且表现为不显著。PR和RA不显著另有原因。根据经验,如果一个变量的值在样本期间没有很大的变化,则它对被解释变量的影响就不能很好地被度量。通常情况下水价与年降雨量在各年中没有太大变化,所以它们的影响很难度量。(3)多重共线性往往表现的是解释变量间的样本相关现象,在不存在完全共线性的情况下,近似共线并不意味着基本假定的任何改变,所以OLS估计量的无偏性、一致性和有效性仍然成立,即仍是BLUE估计量。但共线性会导致参数估计值的方差大于不存在多重共线性的情况。