第4章多元回归:估计与假设检验EssentialsofEconometrics多元回归:估计与假设检验第4章4-2重点讨论如何估计多元回归模型?多元回归模型的估计过程与双变量模型有何不同?多元回归模型的假设检验与双变量模型有何不同?多元回归模型有没有一些在双变量模型中未曾遇到的特性?既然一个多元回归模型能够包括任意多个解释变量,那么如何决定解释变量的个数?4-34.1三变量线性回归模型4.2多元线性回归模型的若干假定4.3多元回归参数的估计4.4估计多元回归的拟合优度:多元判定系数R24.5古董钟拍卖价格一例4.6多元回归的假设检验4.7对偏回归系数进行假设检验4.8检验联合假设4.9从多元回归模型到双变量模型:设定误差4.10校正的判定系数4.11什么时候增加新的解释变量4.13若干例子本章主要内容4-44.1三变量线性回归模型三变量PRF的非随机形式:E(Yt)=B1+B2X2t+B3X3t(4-1)其随机形式为:Yt=B1+B2X2t+B3X3t+ut(4-2)=E(Yt)+ut(4-3)式中Y—应变量;X2、X3—解释变量;u—随机扰动项;t—第t个观察值。表明:任何一个值可以表示成为两部分之和:1.系统成分或确定性成分(),也就是的均值2.非系统成分或随机成分,即由除、以外其他因素决定。Y12233ttBBXBXY()tEYtu2X3XB2、B3为偏回归系数4-54.1三变量线性回归模型偏回归系数的含义B2,B3称为偏回归系数(partialregressioncoefficients)或偏斜率系数(partialslopecoefficients)。其意义如下:B2度量了在X3保持不变的情况下,X2每变动一单位,Y的均值E(Y)的改变量。同样的,B3度量了在X2保持不变的情况下,X3每变动一单位,Y的均值E(Y)的改变量。4-64.1三变量线性回归模型多元线性回归模型一般形式多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式:其中:k为解释变量的数目(包括截距项),称为回归系数(regressioncoefficient)。习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样:模型中解释变量的数目为k。122331,2ittkkttYBBXBXBXutn4-74.1三变量线性回归模型也被称为总体回归函数的随机表达形式。它的非随机表达式为:方程表示:各变量X值固定时Y的平均响应。被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xt每变化1个单位时,Y的均值E(Y)的变化;或者说给出了Xt的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。122331,2ittkkttYBBXBXBXutn2,3,12233(/)tttktttkktEYXXXBBXBXBXtB4-84.1三变量线性回归模型样本回归函数:用来估计总体回归函数其随机表示式:称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项的近似替代。12233ˆtttkktYbbXbXbX12233tttkkttYbbXbXbXetetu4-94.2多元线性回归模型的若干假定假定4.1回归模型是参数线性的,并且是正确设定的。假定4.2随机扰动项与解释变量不相关。(,)0(2,3;1,2,)jiiCovXujkin假定4.3误差项均值为零。(4–7)假定4.4同方差假定,即ui的方差为一常量:(4-8)2var()iu()0iEu4-10假定4.7为了假设检验,假定随项误差ui服从均值为零,(同)方差为的正态分布。即,ui~N(0,)4.2多元线性回归模型的若干假定假定4.5无自相关假定cov(ui,uj)=0,i≠j2假定4.6解释变量之间不存在完全共线性。即两个解释变量之间无确切的线性关系。2(4-9)(4-10)4-114.2多元线性回归模型的若干假定利用普通最小二乘法(OLS)进行参数估计无共线性(nocollinearity)或无多重共线性(nomulticollinearity)假定共线性的(collinear)或严格的线性假定高度共线性(highperfectcollinearity)或近似完全共性线(nearperfectcollinearity)假定4-124.3多元回归参数的估计4.3.1普通最小二乘估计量4.3.2OLS估计量的方差与标准误4.3.3多元回归OLS估计量的性质4-134.3.多元回归参数的估计4.3.1普通最小二乘估计量对于随机抽取的n组观测值,如果样本函数的参数估计值已经得到,则有样本回归方程:根据最小二乘原理,参数估计值应该是下列方程组的解2112)ˆ(niiiniiYYeQ12233ˆtttkktYbbXbXbX2122331()niiikkiiYbbXbXbX1230000kQbQbQbQb4-144.3多元回归参数的估计于是得到关于待估参数估计值的正规方程组:ikikikiikikiiikiikiiiiiikiikiiiiikikiYXXbXXbXXbXbYXXXbXbXXbXbYXXXbXXbXbXbYXbXbnbki23322133233232312232322221221.,2,1,kjbkkj个待估参数的估计值即可得到方程组,个方程组成的线性代数解该4-154.3多元回归参数的估计4.3.2OLS估计量的方差与标准误随机误差项ui的方差2的无偏估计可以证明,随机误差项方差的无偏估计量为iu22ˆtenk2222ˆˆ[]E为的无偏估计量:。参数的个数。为包括截距在内的待估为样本容量个数,其中kn4-164.3多元回归参数的估计4.3.3多元回归OLS估计量的性质在满足基本假设的情况下,其结构参数的普通最小二乘估计仍具有:线性性、无偏性、有效性。ib4-174.4估计多元回归的拟合优度:多元判定系数的正平方根称为多元相关系数(coefficientofmultiplecorrelation)2R2ESSRTSS2RR多元判定系数R24-184.5古董钟拍卖价格一例4-194.5古董钟拍卖价格一例4-204.5古董钟拍卖价格一例2ˆ191.666210.4856(264.4393)(1.793729)(0.724802)(5.845711)0.5325090.4742)(0.0000)..30ipriceAgesetrpdf值(4-214.5古董钟拍卖价格一例4-224.5古董钟拍卖价格一例4-234.5古董钟拍卖价格一例2ˆ807.950154.57245(231.0921)(23.26605)(3.496226)(2.345582)0.1549710.0015)(0.0258)..30ipriceBiddersetrpdf值(4-244.5古董钟拍卖价格一例4-254.5古董钟拍卖价格一例2ˆPr1336.04912.7413885.76407(175.2725)(0.912356)(8.801995)(7.622698)(13.96537)(9.743708)0.890614118.05850.0000)(0.0000)..29iiceAgeBiddersetRFpdf值(4-264.5古董钟拍卖价格一例拍卖价格与钟表年代和竞标人数正相关。斜率系数12.74表示,在其他变量保持不变的条件下,如果钟表年代每增加一年,则钟表价格平均上升12.74马克。负的截距项没有实际意义。值相当高,约为0.89,表示两个变量解释了拍卖价格89%的变异。2R4-274.6多元回归的假设检验可以证明偏回归系数均服从均值分别为的正态分布如用代替,则OLS估计量服从自由度为(n-k)的t分布321bbb321BBB2ˆ2)(~)()(~)()(~)(222111kntbseBbtkntbseBbtkntbseBbtkkk4-284.7对偏回归系数进行假设检验4.7.1变量的显著性检验(t检验)每个解释变量对被解释变量有无影响?必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的t检验完成的。4-294.7.1变量的显著性检验(t检验)t检验设计原假设与备择假设:H1:Bt0给定显著性水平,可得到临界值t/2(n-k),由样本求出统计量t的数值,通过|t|t/2(n-k)或|t|t/2(n-k)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。H0:Bt=0t=1,2…,k4-304.7.1变量的显著性检验(t检验)双边t检验步骤:202012(1)0.052()3()4(),0,,0()ttttbtSebttnkttnkHHHttnk选择显著水平,如。()计算统计量:()查分布表,找出。()判断:,则接受参数B显著异于若则拒绝接受参数B不显著异于,01:0:0ttHBHB原假设备择假设4-314.7.1变量的显著性检验(t检验)在钟表价格与年代、投标人数的三变量回归模型例中,由软件计算出参数的t值:给定显著性水平=0.05,查得相应临界值:t0.025(29)=2.045。可见,计算的所有t值都大于该临界值,所以拒绝原假设。即:包括常数项在内的3个解释变量都在95%的水平下显著,都通过了变量显著性检验。7437.9//;9653.13//;6226.7//321ttt双边检验4-324.7.1变量的显著性检验(t检验)单边t检验步骤:如果根据理论或常识,非负,则可做单侧检验,比较t与tα。tB00(),(),ttttnkHBttnkHB,则拒绝参数显著非负;若,则不拒绝参数不显著非负。原假设H0:Bt≤0备择假设H1:Bt0(1)0.052()3()4ttbtSebttnk选择显著水平,如。()计算统计量:()查分布表,找出。()判断:4-334.7.1变量的显著性检验(t检验)由于先验地预期钟表年代的系数为正,因此,这里实际上用的是单边检验:原假设H0:B2≤0备择假设H1:B200.0522021.6913.9653()0.05..329)0)9btsebtdfnHBtt计算统计量在显著水平下,查分布表(拒绝,钟表年代对价格有正向影响(即右侧单边检验4-344.7.2假设检验的置信区间法参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道:)(~)()(~)()(~)(22221111kntbseBbtkntbseBbtkntbseBbtkkkk4-354.7.2假设检验的置信区间法容易推出:其中,t/2为显著性水平为、自由度为n-k的临界值。22(),()1ttttpbtsebbtseb22(),()ttttbtsebbtseb在100(1-)%的置信水平下的置信区间是:4-364.7.2假设检验的置信区间法在钟表价格与年代、投标人数三变量回归模型例中,给定=0.05,查表得临界值:t0.025(29)=2.045计算得参数的95%置信区间:B1:(977.617,1694.481)B2:(10.876,14.607)B3:(67.764,103.764)从回归计算中已得到4.5古董钟拍卖价格一例8019.8)(,7640.859123.0)(,7413.122725.