第三章多元线性回归模型.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多元线性回归模型2009年,首次成为世界汽车产销第一大国。汽车产销分别为1379.1万辆和1364.5万辆,同比增长48.3%和46.15%。接下来三年蝉联汽车产销第一的世界地位。是什么因素导致中国汽车数量的增长?影响中国汽车行业发展的因素并不是单一的,经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境,都会使中国汽车行业面临机遇和挑战研究对象——中国汽车市场发展的状况如何通过历年的市场销售量来观察影响中国汽车销量的主要影响因素居民收入水平、价格、费用、道路状况、能源、政策环境等各种因素对汽车销量影响的性质怎样?正相关?负相关?各种因素影响汽车销量的具体数量关系是什么?所得到的数量结论是否可靠?中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?很明显,只用一个解释变量已很难分析汽车产业的发展,还需要寻求有更多个解释变量情况的回归分析方法。多元线性回归模型及古典假定多元线性回归模型的估计多元线性回归模型的检验多元线性回归模型的预测第一节多元线性回归模型及其古典假定一、多元线性回归模型的意义一般形式:对于有K-1个解释变量的线性回归模型12233iiikkiiYXXXu(1,2,)in注意:模型中的(j=1,2,---k)是偏回归系数样本容量为nj偏回归系数:表示在其他解释变量保持不变的情况下,Xi每变化1个单位时,Y的均值E(Y)的变化;或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。二元线性回归模型22110xxy(观察到的y)22110)(xxyE回归面0ix1yx2(x1,x2)}习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。于是:模型中解释变量的数目为k总体回归函数的随机表达形式总体回归函数的非随机表达形式12233iiikkiiYXXXu2312233(|,,)iiikiiikkiEYXXXXXX表示:各变量X值给定时Y的平均响应。1121222221112211111kknnknnnkknknXYXYXXYXYXXuuuuμXβY^^^^^12233iiikkiiYXXXe样本回归函数的矩阵表达:样本回归的个别值表现形式^^YX或^^YXe^1^^2^1kk121nneeee其中:都是有n个元素的列向量是有k个元素的列向量(k=解释变量个数+1)是第一列为1的n×k阶解释变量数据矩阵,(截距项可视为解释变量总是取值为1)ˆY,Y,u,eˆβ,βX^^^^^12233iiikkiYXXX假定1:零均值假定(i=1,2,---n)或E(u)=00)(iuE0000)()()()(2121nnEEEEUE二、多元线性回归的基本假定0假定2和假定3:同方差和无自相关假定:)()])([(),(jijjiijiuuEEuuEuuEuuCov2(i=j)(i≠j)(,){[()][()]}()ijiijjCovuuEuEuuEuEuu211121222122122122222()000000nnnnnnnnEUUEEI假定4:随机扰动项与解释变量不相关cov(𝑋,𝑈)=𝐸(𝑋−𝑋−)(𝑈−𝐸(𝑈))=𝐸(𝑋𝑈=𝐸1𝑋21⋮𝑋𝑘11𝑋22⋮𝑋𝑘2⋮⋮⋮⋮1𝑋2𝑛⋮𝑋𝑘𝑛𝑛∗(𝑘+1)𝑢1𝑢2⋮𝑢3=0(,)0(2,3,,)jiiCovXujk二、多元线性回归的基本假定假定5:无多重共线性假定假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值矩阵X的秩为K(注意X为n行K列)。矩阵X的秩等于回归参数的个数(或解释变量个数加1),Ran(X)=kRak(X'X)=k即(X'X)可逆满秩矩阵:A是N阶方阵,由于A的N阶子式只有|A|,当|A|≠0,RA=N.当|A|=0,RAN.可见该矩阵的秩等于该矩阵的阶数,不可逆矩阵的秩小于该矩阵的阶数,可逆矩阵称为满秩矩阵。如果存在一组不全为零的数1、2、…k,使得:1x1i+2x2i+…+kxki=0如果当且仅当1、2、…k都为零的时候,才使上式成立,则称上述变量之间线性无关不妨设10,则上式可变为:x1i=-(2x2i+…+kxki)/1称解释变量之间存在完全共线性,此时,某个解释变量可以写为其它解释变量的线性组合。若线性相关,齐次方程组有非零解若线性无关,齐次方程组仅有非零解如果,会不会破坏无多重共线假定假定6:正态性假定),0(~2Nui2~(,)Nu0I223iixx不会,因为这两个变量的关系是非线性的!!一、普通最小二乘法(OLS)原则:寻求剩余平方和最小的参数估计式即求偏导,并令其为0其中22ˆmin:()iiieYY2212323ˆˆˆˆmin:[()]kiiiikieYXXX2ˆˆmin:min:min:()()ieeeY-XβY-Xβ2ˆ()0ije122332ˆˆˆˆ()0iiikikiYXXX122233ˆˆˆˆ()20iiikikiiYXXXX0ie20iiXe(1,2,)in(1,2,)jn12233ˆˆˆ(20ˆ)iiikikkiiYXXXX0ikiXe偏导数因为样本回归函数为两边左乘,根据最小二乘的原则则正规方程为0001112121222212eXnknkknikiiiieeeXXXXXXeXeXeXe0ˆYXβe=+XˆXY=XXβ+XeXe=0ˆXXβ=XY由正规方程,因为𝑋′𝑋𝑘×𝑘满秩,其逆矩阵存在,所以多元回归的OLS估计量为当只有两个解释变量时为:ˆXXβ=XYˆ-1β=(XX)XY23123ˆˆˆYXX22332322222323()()()()ˆ()()()iiiiiiiiiiiyxxyxxxxxxx23222332222323()()()()ˆ()()()iiiiiiiiiiiyxxyxxxxxxx12ˆˆYX22ˆiiixyx注意:为X、Y的离差x、y回归线通过样本均值●估计值的均值等于实际观测值的均值●剩余项的均值为零●被解释变量估计值与剩余项不相关●解释变量与剩余项不相关(j=1,2,---k)23123ˆˆˆˆkkYXXXˆiYiYˆiYnYie0neeiiˆiYieˆ(,)0iiCovYeˆ()0iiey或iXie0),(ijieXCov201、线性特征是Y的线性函数,因是非随机或取固定值的矩阵2、无偏特性(证明见教材P101附录3.1)3、最小方差特性在所有的线性无偏估计中,OLS估计具有最小方差(证明见教材P101或附录3.2)结论:在古典假定下,多元线性回归的OLS估计式是最佳线性无偏估计式(BLUE)ˆβˆ()KKEˆKK-1(XX)Xˆ-1β=(XX)XY21●的期望(由无偏性)●的方差和标准误差:可以证明的方差—协方差矩阵为(见下页)这里的(其中是矩阵中第j行第j列的元素)所以(j=1,2,---k)ˆ()Eβ=β2ˆVar-Cov()1()βXX2ˆ()jjjVarcˆ()jjjSEcjjc1()XX),(~ˆ2jjjjcN的期望与方差ˆβ111212122212()kkkkkkccccccccc1XXˆβˆβˆβ22ˆβˆˆˆˆˆ(){[()][()]}COVEEEβββββˆˆ[()()]Eββββ11[()()]EXXXuuXXX11()()()EXXXuuXXX121()()XXXIXXX21()XX1ˆ()XXXY1()()XXXXβ+u1()βXXXu2()EuuI其中:(由无偏性)(由同方差性)(由OLS估计式)22(1,2,)in(1,2,)jn注意是向量ˆβ的方差-协方差23一般未知,可证明多元回归中的无偏估计为:(证明见P103附录3.3)或表示为将作标准化变换:ˆˆ~(0,1)ˆ()kkkkkkjjzNSEcknei22ˆ222ˆnkee2ˆβ23对比:一元回归中22ˆ(2)ien24因是未知的,可用代替去估计参数的标准误差:●当为大样本时,用估计的参数标准误差对作标准化变换,所得Z统计量仍可视为服从正态分布●当为小样本时,用估计的参数标准误差对作标准化变换,所得的t统计量服从t分布:2ˆ22^βˆβ2*^ˆˆ~()ˆˆ()jjjjjjjttnkcSEˆβ2425五、回归系数的区间估计由于给定,查t分布表的自由度为n-k的临界值或或表示为^^22ˆˆˆˆ[()()]1jjjjjPtSEtSE)1(kj22ˆˆˆˆ[]1jjjjjjjPtctc2()2()ˆˆˆˆ(,)jjnkjjjnkjjtctc*^ˆˆ~()ˆˆ()jjjjjjjttnkcSE)(2knt*22^ˆ[()()]1ˆ()jjjPtnkttnkSE2526一、多元回归的拟合优度检验多重可决系数:在多元回归模型中,由各个解释变量联合起来解释了的Y的变差,在Y的总变差中占的比重,用表示与简单线性回归中可决系数的区别只是不同多元回归中多重可决系数可表示为(注意:红色字体是与一元回归不同的部分)2RˆiY2r22222()1()ˆiiiiYTSYeESSRSSRTSSYYTSSSy12233ˆˆˆˆˆiiikkiYXXX26总变差与模型中出现的回归元个数无关随着X变量个数的增加,残差平方和变小27多重可决系数的矩阵表示可用代数式表达为特点:多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。22()iTSSYYnYYY223322ˆˆˆiiiikkiiixyxyxyRy22ˆˆ()iESSYYnYβXY222ˆESSnYRTSSnYβXYYY2222'()2*iiiTSSYYYYYnYYYnY22^^^2'2^^''2^''1''2^'()2()()()iiiESSYYYYYnYXXnYXXXXXYnYXYnY'2^'22'*XYnYRYYnY2_^^^222^222^^22233^^^22233^^^2223322ESS=()kiiiiiiiiiiiiiiiikkii

1 / 58
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功