第4章1(共14小节)4.1三变量线性回归模型4.2多元线性回归模型的若干假定4.3多元回归参数的估计4.4估计多元回归的拟合优度:多元判定系数R24.5古董钟拍卖价格一例4.6多元回归的假设检验从多元回归模型到双变量模型:设定误差4.10两个不同的R2的比较:校正的判定系数4.11什么时候增加新的解释变量4.12受限最小二乘4.13若干实例4.14总结本章讨论多元回归模型旨在探求下列问题的答案:(1)对多元回归模型的假设过程与双变量模型有何不同?(2)多元回归有没有一些在双变量模型中未曾遇到过的独特的特性?(3)如何估计多元回归模型?多元回归模型的估计过程与双变量模型有何不同?(4)既然一个多元回归模型能够包括任意多个变量,那么,对于具体的清况,我们如何决定解释变量的个数?总结三变量线性回归模型不含随机项的三变量总体回归模型:(4-1)其随机形式为:(4-2)(4-3)其中,B1是截距,B2和B3称为偏回归系数。多元模型随机的形式(式(4-2)),表明任何一个Y值可以表示成为两部分之和:(1)系统成分或决定成分(2)非系统成分tttttttttuYEuXBXBBYXBXBBYE3322133221tYEtu称为偏回归系数,其意义如下:B2度量了在X3保持不变的情况下,X2每变动一单位,Y的均值的改变量。同样,B3度量了在X2保持不变的情况下,X3每变动一单位,Y的均值的改变量。假定有如下总体回归函数:ttttttttttXXYEXXXYEXXYE33222328.098.052.1152.1232.1815108.02.1158.02.115(4-4)(4-5)(4-6)如果X2=5,得到令X3取值为10,得对模型:作如下假定:假定4.1回归模型是参数线性的,并且是正确设定的。假定4.2X2、X3与随机扰动项u不相关;假定4.3零均值假定:E(ui)=0(4-7)假定4.4同方差假定:Var(ui)=(4-8)假定4.5无自相关假定:Cov(ui,uj)=0i≠j(4-9)假定4.6解释变量之间不存在线性相关关系;假定4.7假定随机项误差u服从均值为零,(同)方差为的正态分布:(4-10)4.2多元线性回归的若干假定),0(~2Nui2ttttuXBXBBY332212之间不存在完全的线性关系,称为非共线性或非多重共线性。共线性:一个变量能表示成另一个变量的线性函数,如或我们要求解释变量间无多重共线性,是因为:若解释变量间存在多重共线性,模型可简写,变量可重组,则不能估计偏回归系数的值,即不能估计解释变量各自对应变量Y的影响。在实际中,很少有完全共线性的情况,但高度完全共线性还是存在的。我们现在仅考虑不存在完全共线性的模型。ttXX3223=ttXX234=假定4.6的解释例:如果X2=4X3,代入(4-1)式,有:E(Yi)=B1+B2(4X3i)+B3X3i=B1+(4B2+B3)X3i(4-11)=B1+AX3i式中,A=4B2+B3(4-12)结论:在存在完全共线性的情况下,不能估计偏回归系数B2和B3的值。多元回归参数的估计与总体回归模型(4-2)相对应的样本回归模型,(4-13)样本回归方程:(4-14)根据OLS原则,将(4-13)重写:(4-15)两边平方再求和,(4-16)根据普通最小二乘原理,最小化RSS得正规方程如下:tttteXbXbbY33221tttXbXbbY33221ˆttttXbXbbYe332212332212:ttttXbXbbYeRSS4.3.1普通最小二乘估计量(4-17)(4-18)(4-19)OLS估计量的表达式如下:(4-20)(4-21)(4-22)23332231332322221233221ttttttttttttXbXXbXbXYXXbXbXbXYXbXbbY232232232222332322322323232233221ttttttttttttttttttttttxxxxxxxyxxybxxxxxxxyxxybXbXbYb估计量的方差与标准差需要标准差的目的:(1)建立真实参数值的置信区间,(2)检验相关统计假设相关公式:222232232223211223223223232222323221varvarvar21varbbsexxxxxbbbsexxxxxxXXxXxXnbtttttttttttttttttttttttttttxybxybyenYYnebbsexxxxxb33222222223322322322223ˆˆ3ˆ3ˆvarvar(4-27)(4-28)(4-29)(4-30)(4-31)一般地,若模型中有k个解释变量(包括截距),(或者说有k个待估参数)则有:knYYknettt222ˆˆ估计量的性质我们已经知道,在双变量模型中,在古典线性回归模型的基本假定下,OLS估计量是最优线性无偏估计量。对多变量回归模型,这个结论依然成立。估计多元回归的拟和优度:多元判定系数R2在双变量模型中,r2是用来度量拟合的样本回归直线的拟合优度,也即单个解释变量X对应变量Y变动的解释程度。在三变量模型中,我们同样要考察拟合的样本回归直线的拟合优度,此时的拟合优度表示的是两个变量X2和X3一起对应变量Y变动的解释程度。用符号R2表示。我们来考察R2。在三变量模型中同样有:TSS=ESS+RSS总离差平方和=回归平方和+残差平方和9947.09894.023322232233222RyxybxybRxybxybyRSSxybxybESSTSSESSRtttttttttttttt(4-35)(4-36)(4-34)(4-33)多元判定系数多元相关系数=拍卖价格,X2=钟表年代,X3=竞标人数,数据见表2-14。回归结果如下:DependentVariable:YVariableCoefficientStd.Errort-StatisticProb.C-1336.05175.2725-7.62270.0000X212.741380.91235613.965370.0000X385.764078.8019959.7437080.0000R-squared0.890614Meandependentvar1328.094AdjustedR-squared0.88307S.D.dependentvar393.6495S.E.ofregression134.6083Akaikeinfocriterion12.73167Sumsquaredresid525462.2Schwarzcriterion12.86909Loglikelihood-200.707F-statistic118.0585Durbin-Watsonstat1.864656Prob(F-statistic)0.0000注意对回归结果的解释。(见Eviews文件)显著性检验多元回归的假设检验我们知道,在双变量模型中,如果假定误差项u服从正态分布,则OLS估计量都服从正态分布。在多元线性回归模型中,可以证明,上面结论依然成立。现在,我们想检验假设:钟表年代对拍卖价格没有显著影响,即要检验零假设:H0:B2=0。可以利用下面结论:3~3~3~333222111ntbseBbtntbseBbtntbseBbt(4-38)(4-39)(4-40)下面,我们用古董钟拍卖价格一例来说明。其理论推导同双变量模型。注意此时的自由度。若随机扰动项方差未知,用其估计值代替,有:对偏回归系数进行假设检验9653.139124.07414.1200:,0:2222222120BbsebbseBbtBHBH假定对古董钟拍卖价格的回归结果,作如下假设:计算得:可以用置信区间法或显著性检验法进行假设检验。显著性检验。假定选择=0.05,此时的自由度为29(n=32),查t分布表求得t临界值:(4-43)计算得到的t值为13.965,落入拒绝域,可以得到结论:钟表年代对拍卖价格有显著影响.注意:1.p值2.单边或双边检验95.0045.2045.2tP045.2)29(025.029,025.0tt注意由于先验地预期钟表年代的系数为正,所以这里可以用单边检验,建立零假设和备择假设如下:0:,0:2120BHBH在5%的显著水平下,该单边t检验的临界值为1.699,回归结果中的t值为13.965,落入拒绝域,我们可以认为,钟表年代对拍卖价格有显著正影响。置信区间法已有:(4-43)及:得:22222222222045.2045.295.0045.2045.2bsebBbsebbseBbPbseBbt6069.148757.109123.0045.27413.129123.0045.27413.1222BB在5%显著水平下B2的置信区间:我们将得到与显著性检验方法同样的结论。95.0045.2045.2tP对联合假设的检验(方程的显著性检验)本节考察另一种回归分析中常用的假设检验——F检验。本节要考察的问题有:1.为什么要做F-检验?2.怎样做F-检验?3.怎样在输出结果中考察F-检验?-检验中可以看出,偏回归系数B2和B3各自均是统计显著的,现在考虑下面的联合假设:H0:B2=B3=0(4-46)等同于零假设H0:R2=0(4-47)这个假设表明两个解释变量一起对应变量Y无影响,这是对估计的总体回归直线的显著性检验。前面讨论的t-检验虽然对于检验单个回归系数的统计显著性是有效的,但