第三章多元线性回归模型第三章多元线性回归模型本章主要讨论:●多元线性回归模型及古典假定●多元线性回归模型的估计●多元线性回归模型的检验●多元线性回归模型的预测第一节多元线性回归模型及古典假定本节基本内容:一、多元线性回归模型的意义二、多元线性回归模型的矩阵表示三、多元线性回归中的基本假定一、多元线性回归模型的一般形式一般形式:对于有个解释变量的线性回归模型模型中参数是偏回归系数,偏回归系数:表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;或者说控制其它解释量不变的条件下,第个解释变量的单位变动对应变量平均值的影响。k12233...iiikkiiYXXXu(1,2,...,)jjkj指对各个回归系数而言是“线性”的,对变量则可是线性的,也可是非线性的例如:生产函数取自然对数lnlnlnlnlnYALKuYALKu多元线性回归的总体条件均值表示为多个解释变量的函数总体回归函数也可表示为:2312233E(,,...,)...iiikiiikkiYXXXXXX12233...iiikkiiYXXXuY多元总体回归函数的样本条件均值表示为多个解释变量的函数或其中回归剩余(残差):ˆ-iiieYY多元样本回归函数12233ˆˆˆˆˆY...iiikkiXXX12233ˆˆˆˆ...iiikkiiYXXXeYni,,2,1二、多元线性回归模型的矩阵表示个解释变量的多元线性回归模型的个观测样本,可表示为1122133111...kkYXXXu2122233222...kkYXXXu12233...nnnkknnYXXXunkY1n用矩阵表示1n1knk1211112222222111kknnknknYXXβuYXXβuYXXβuXYuβ矩阵形式UXY总体回归函数或样本回归函数或其中:都是有个元素的列向量是有个元素的列向量是第一列为1的阶解释变量数据矩阵(截距项可视为解释变量取值为1)nkknE(Y)=XβY=Xβ+uˆˆY=XβˆY=Xβ+eˆY,Y,u,eXˆβ,β二、多元线性回归中的基本假定假定1:零均值假定或假定2和假定3:同方差和无自相关假定假定4:随机扰动项与解释变量不相关E()0(1,2,,)iuinCov(,)02,3,,jiiXujkCov(,)E[(-E)(-E)]E()ijiijjijuuuuuuuu20()iji=j (Eu)=0假定5:无多重共线性假定(多元特有)假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值矩阵列满秩(列)。即可逆假定6:正态性假定X2~(0,)iuNσk()RankkX()RankKXXXX第二节多元线性回归模型的估计本节基本内容:●普通最小二乘法(OLS)●OLS估计式的性质●OLS估计的分布性质●随机扰动项方差的估计●回归系数的区间估计2一、普通最小二乘法(OLS)最小二乘原则剩余平方和最小:求偏导,令其为0:22ˆmin(-)iiieYY2212233ˆˆˆˆmin[-(...)]iiiikkieYXXX2()0ˆije即注意到12233ˆˆˆˆ-(...)iiikikiiYXXXe0ie12233ˆˆˆˆ-2-(...)0iiikikiYXXX12233ˆˆˆˆ-2-(...)0kiiiikikiXYXXX212233ˆˆˆˆ-2-(...)0iiiikikiXYXXX20iiXe0kiiXe用矩阵表示因为样本回归函数为两边乘有:因为,则正规方程为:XXe=021222221110001in2iik1kknnkiieeXXXeXe===...XXXeXeXeˆXXβ=XYˆXY=XXβ+XeˆY=Xβ+eXe由正规方程多元回归中二元回归中注意:和为的离差ˆ-1β=(XX)XY(),kk是满秩矩阵其逆存在XXˆXXβ=XY12233ˆˆˆY-βX-βX23222332222323()()-()()ˆ()()-()iiiiiiiiiiiyxxyxxxxxxx22332322222323()()-()()ˆ()()-()iiiiiiiiiiiyxxyxxxxxxxxyX,YOLS估计式二、OLS估计式的性质OLS估计式1.线性特征:是的线性函数,因是非随机或取固定值的矩阵2.无偏特性:ˆE()kkββ(-1XX)Xˆ-1β=(XX)XYˆβY3.最小方差特性在所有的线性无偏估计中,OLS估计具有最小方差结论:在古典假定下,多元线性回归的OLS估计式是最佳线性无偏估计式(BLUE)kβˆkβ无偏性的证明)()()())(()ˆ(11UEXXXEUXXXEETTTT估计量的方差1T21TT1T21TTT1T1TTT1TTT1TT1TT1T)XX()XX(X)XX()XX())(E(UUX)XX(])XX(UUX)XX(E[]U)X)XX(U)(X)XX(E[()ˆvar(UX)XX(ˆ))ˆ)(ˆ(()ˆvar(XXXET所以因为ˆ最小方差性(有效性)的证明DUXXXDUUXXXDXUXDXXXYDXXXDXIDXYDEEDYEDYYDXXXTTTTTTTTkTTU)(ˆˆ)())()(())((ˆ0DX)()()ˆ()ˆ()ˆ(Eˆˆˆˆ0Dˆˆ0Dˆ))((ˆˆˆ1*111*****1***所以,而由无偏性,始终。因此时,,只有,因此一般情况下的线性特性由的一个线性无偏估计,为总体参数矩阵设TuTuTuTuTTuTuTuTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTDDDDXXXXDXDXXXDDXXXXXUUEDDUUEXXXDUUEDXXXUUEXXXXXXDUUDUUXXXDDUUXXXUUXXXEDUXXXUDUUXXXEDUUXXXDUUXXXEEEEE22121212212111111111111*******)ˆvar()()()()()()())(()(()())(()())(()(])()()()[()])()()[((])))(()[((])ˆ)(ˆ[(]))ˆ(ˆ))(ˆ(ˆ[()ˆvar(的方差最小。即最小二乘估计的相应主对角线元素。不大于的所有主对角线元素所以。大于等于的所有主对角线元素均是半正定矩阵,上式右边第二项ˆ)ˆvar()ˆvar(0DDDD*TT三、OLS估计的分布性质基本思想●是随机变量,必须确定其分布性质才可能进行区间估计和假设检验●是服从正态分布的随机变量,决定了也是服从正态分布的随机变量●是的线性函数,决定了也是服从正态分布的随机变量iuˆiβiYˆiβiYˆiβ的期望(由无偏性)的方差和标准误差:可以证明的方差-协方差矩阵为这里是矩阵中第行第列的元素2-1ˆVar-Cov()()σβXXˆβˆE()ββˆSE()jjjβσc2ˆVar()jjjβσcˆβˆβjjc-1()XXjj2ˆ~(,)1,2,...,jjjjβNβσcjk故有:四、随机扰动项方差的估计多元回归中的无偏估计为:或表示为将作标准化变换:2ˆkβˆˆ--~(0,1)ˆSE()kkkkkjjkββββzNσcβ22ˆ-ieσnk2ˆ-σnkee2σ因是未知的,可用代替去估计参数的标准误差:●当为大样本时,用估计的参数标准误差对作标准化变换,所得Z统计量仍可视为服从正态分布●当为小样本时,用估计的参数标准误差对作标准化变换,所得的t统计量服从t分布:22ˆˆβ^ˆ-~(-)ˆSE()kkkββttnkβˆβ2ˆβ五、回归系数的区间估计由于给定,查t分布表的自由度为的临界值或:或表示为:*22^ˆ-P[-(-)(-)]1-ˆSE()jjααjββtnkttnkαβ2(-)2(-)ˆˆˆˆ(-,)jjnkjjjnkjjββtσcβtσc22ˆˆˆˆP[-]1-jαjjjjαjjβtσcββtσcα^^22ˆˆˆˆP[-()()]1-jαjjjαjβtSEβββtSEβαˆˆ()ˆˆSE()jjjj*^jjjβ-ββ-βt==~tn-kσcβ2(-)tnk(1,...,)jknk第三节多元线性回归模型的检验本节基本内容:●多元回归的拟合优度检验●回归方程的显著性检验(F检验)●各回归系数的显著性检验(t检验)一、多元回归的拟合优度检验多重可决系数:在多元回归模型中,由各个解释变量联合解释了的的变差,在的总变差中占的比重,用表示与简单线性回归中可决系数的区别只是不同,多元回归中多重可决系数也可表示为22313ˆˆˆˆˆiiikikY=β+βX+βX+...+βX22222ˆ(-)ESSTSS-RSS1-TSS(-)TSSiiiiYYeRYYyˆiY2R2RYY2ˆESS-nYβXY特点:多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。2TSSnYYY222ˆESS-TSS-nYRnYβXYYY232322ˆˆˆ...iiiikiikiβxyβxyβxyRy可以证明:多重可决系数的矩阵表示思想可决系数只涉及变差,没有考虑自由度。如果用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。自由度统计量的自由度指可自由变化的样本观测值个数,它等于所用样本观测值的个数减去对观测值的约束个数。修正的可决系数可决系数的修正方法2211TSS()nniiiiYYY总变差自由度为解释了的变差自由度为剩余平方和自由度为修正的可决系数为22222(-)-11-1-(-1)-iiiienkenRynnky22ˆRSS(-)iiiYYe22ˆESS(-)iiYYy=1n-1k-n-k特点可决系数必定非负,但修正的可决系数可能为负值,这时规定修正的可决系数与可决系数的关系:22-11-(1-)nRRn-k2R2R2R2R20R二、回归方程显著性检验(F检验)基本思想在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行F检验。总变差自由度模型解释了的变差自由度剩余变差自由度变差来源平方和自由度方差归于回归模型归于剩余总变差方差分析表22TSS(-)iiYYy2ˆESS(-)iYY2ˆRSS(-)iiYY2ˆESS(-)iYY1n-1k-n-k2TSS(-)iYY2ˆRSS(-)iiYYTSS/-1nESS/-1kRSS/n-k1n-1k-n-k原假设备择假设不全为0建立统计量(可以证明):给定显著性水平,查F分布表得临界值并通过样本观测值计算值F检验FESS(-1)~F(-1,)RSS(-)kFkn-knk(-1,-)Fknk1H:(12)jβj=,,...,k