第三章多元线性回归模型一、名词解释1、多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量影响的现象,表现在线性回归模型中有多个解释变量,这样的模型被称做多元线性回归模型,多元是指多个解释变量2、调整的可决系数2R:又叫调整的决定系数,是一个用于描述多个解释变量对被解释变量的联合影响程度的统计量,克服了2R随解释变量的增加而增大的缺陷,与2R的关系为2211(1)1nRRnk。3、偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1单位对被解释变量带来的平均影响程度。4、正规方程组:采用OLS方法估计线性回归模型时,对残差平方和关于各参数求偏导,并令偏导数为0后得到的方程组,其矩阵形式为ˆXXXY。5、方程显著性检验:是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出判断。二、单项选择题1、C2、A3、B4、A5、C6、C7、A8、D9、B10、D三、多项选择题1、ACDE2、BD3、BCD4、BC5、AD四、判断题、1、√2、√3、×4、×5、√五、简答题1、答:多元线性回归模型与一元线性回归模型的区别表现在如下几个方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相关关系”的假定;三是多元线性回归模型的参数估计式的表达更为复杂。2、答:在满足经典假设的条件下,参数的最小二乘估计量具有线性性、无偏性以及最小性方差,所以被称为最优线性无偏估计量(BLUE)对于多元线性回归最小二乘估计的正规方程组,能解出唯一的参数估计量的条件是(XX)-1存在,或者说各解释变量间不完全线性相关。六、计算分析题1、解:(1)预期sibs对劳动者受教育的年数有影响。因此在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。根据多元回归模型偏回归系数的含义,sibs前的参数估计值-0.094表明,在其他条件不变的情况下,每增加1个兄弟姐妹,受教育年数会减少0.094年,因此,要减少1年受教育的时间,兄弟姐妹需增加1/0.094=10.6个。(2)medu的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1年受教育的时间,其子女作为劳动者就会预期增加0.131年的教育时间。(3)首先计算两人受教育的年数分别为10.36+0.13112+0.21012=14.45210.36+0.13116+0.21016=15.816因此,两人的受教育年限的差别为15.816-14.452=1.3642、解:(1)在给定5%显著性水平的情况下,进行t检验。tP参数的t值:0.3644.550.0801tP参数的t值:0.0040.0560.072tU参数的t值:2.5603.890.658在5%显著性水平下,自由度为19-3-1=15的t分布的临界值为0.025(15)2.131t,tP、tU的参数显著不为0,但不能拒绝1tP的参数为0的假设。(2)回归式表明影响工资水平的主要原因是当期的物价水平、失业率,前期的物价水平对他的影响不是很大,当期的物价水平与工资水平呈正向变动、失业率与工资水平呈相反变动,符合经济理论,模型正确。可以将1tP从模型删除.3、解:(1)ln(X1)的系数表明在其他条件不变时,ln(X1)变化1个单位,Y变化的单位数,即Y=0.32ln(X1)0.32(X1/X1)。由此,如果X1增加10%,Y会增加0.032个百分点。这在经济上不是一个较大的影响。(2)针对备择假设H1:10,检验原假设H0:01。易知相应的t统计量的值为t=0.32/0.22=1.455。在5%的显著性水平下,自由度为32-3=29的t分布的临界值为2.045,计算出的t值小于该临界值,所以不拒绝原假设。这意味着销售额对R&D强度的影响不显著。在10%的显著性水平下,t分布的临界值为1.699,计算的t值小于该值,不拒绝原假设,意味着销售额对R&D强度的影响不显著。(3)对X2,参数估计值的t统计值为0.05/0.46=1.087,它比10%显著性水平下的临界值还小,因此可以认为它对Y在统计上没有显著的影响。4、解:(1)答案与真实情况是否一致不一定,因为题目未告知是否通过了经济意义检验。猜测为:1X为学生数量,2X为附近餐厅的盒饭价格,3X为气温,4X为校园内食堂的盒饭价格;(2)理由是被解释变量应与学生数量成正比,并且应该影响显著;被解释变量应与本食堂盒饭价格成反比,这与需求理论相吻合;被解释变量应与附近餐厅的盒饭价格成正比,因为彼此有替代作用;被解释变量应与气温的变化关系不是十分显著,因为大多数学生不会因为气温变化不吃饭。5、解:(1)样本容量为n=14.+1=15RSS=TSS-ESS=66042-65965=77ESS的自由度为:d.f.=2RSS的自由度为:d.f.=n-2-1=12(2)R2=ESS/TSS=65965/66042=0.99882R=1-(1-R2)(n-1)/(n-k-1)=1-0.0012*14/12=0.9986(3)应该采用方程显著性检验,即F检验,理由是只有这样才能判断X1、X2一起是否对Y有影响。(4)不能。因为通过上述信息,仅可初步判断X1、X2联合起来对Y有线性影响,两者的变化解释了Y变化的99.8%。但由于无法知道X1,X2前参数的具体估计值,因此还无法判断它们各自对Y的影响有多大。6、解:(1))ˆ(4)ˆ,ˆ(4)ˆ()ˆ2ˆ(221121VarCovVarVar(2)1212垐2垐21tS,其中12垐2S为1ˆ2ˆ2的样本标准差。(3)由212知212,代入原模型得33212103322120)2()2(XXXXXXXY这就是所需的模型,其中估计值ˆ及其样本标准差都能通过对该模型进行估计得到。7、解:(1)方程B更合理些。原因是:方程B中的参数估计值的符号与现实更接近些,如与日照的小时数同向变化,天长则慢跑的人会多些;与第二天需交学期论文的班级数成反向变化。(2)解释变量的系数表明该变量的单位变化,在方程中其他解释变量不变的条件下,对被解释变量的影响,由于在方程A和方程B中选择了不同的解释变量,方程A选择的是“该天的最高温度”,而方程B选择的是“第二天需交学期论文的班级数”,造成了2X与这两个变量之间关系的不同,所以用相同的数据估计相同的变量得到了不同的符号。8、解:(1)在降雨量不变时,每亩增加1千克肥料将使当年的玉米产量增加0.1吨/亩;在每亩施肥量不变的情况下,每增加1毫米的降雨量将使当年的玉米产量增加5.33吨/亩。(2)在种地的一年中不施肥也不下雨的现象同时发生的可能性很小,所以玉米的负产量不可能存在.事实上,这里的截距无实际意义。(3)如果F的真实值为0.40,则表明其估计值与真实值有偏误,但不能说F的估计是有偏估计.理由是0.1是F的一个估计值,而所谓估计的有偏性是针对估计的期望来说的,即如果取遍所有可能的样本,这些参数估计值的平均值与0.4有偏误的话,才能说估计是有偏的。(4)不一定。即便该方程并不满足所有的经典模型假设,不是最佳线性无偏估计量,RS的真实值也有等于5.33的可能性。因为有偏估计意味着参数估计的期望不等于参数本身,并不排除参数的某一估计值恰好等于参数的真实值的可能性。9、解:(1)4.0232240.58.02.28.04.43.12.23.15.2)(1YXXXB(2)20.2/250.55.8/(1)29ESSkFRSSnk33.3)29,2(05.0F通过方程显著性检验(3)1298.55133ˆ2kneeCS)1756.24.0()ˆ(2ˆ22St2的99%的置倍区间为(-3.156,2.356)10、解:(1)直接给出了P值,所以没有必要计算t统计值以及查t分布表。根据题意,如果p-值0.10,则我们拒绝参数为零的原假设。由于表中所有参数的p值都超过了10%,所以没有系数是显著不为零的。但由此去掉所有解释变量,则会得到非常奇怪的结果。其实正如我们所知道的,在多元回去归中省略变量时一定要谨慎,要有所选择。本例中,value、income、popchang的p值仅比0.1稍大一点,在略掉unemp、localtax、statetax的模型C中,及进一步略掉Density的模型D中,这些变量的系数都是显著的。(2)针对联合假设H0:i=0(i=1,5,6,7)的备择假设为H1:i(i=1,5,6,7)中至少有一个不为零。检验假设H0,实际上就是对参数的约束的检验,无约束回归为模型A,受约束回归为模型D,检验统计值为462.0)840/()7763.4()37/()7763.47038.5()1/()/()(eeeknRSSkkRSSRSSFUURUUR显然,在H0假设下,上述统计量服从F分布,在5%的显著性水平下,自由度为(4,32)的F分布的临界值为2.67。显然,计算的F值小于临界值,我们不能拒绝H0,所以βi(i=1,5,6,7)是联合不显著的。(3)模型D中的3个解释变量全部通过了10%水平下的显著性检验。尽管R2较小,残差平方和较大,但相对来说其AIC值最低,所以我们选择该模型为最优的模型。(4)预期30,40,20,因为随着收入的增加;随着人口的增加,住房需求也会随之增加;随着房屋价格的上升,住房需求减少。回归结果与直觉相符,最优模型中参数估计值的符号为正确符号。