多元线性回归模型计量经济学第三章2引子:中国已成为世界汽车产销第一大国2009年,为应对国际金融危机、确保经济平稳较快增长,国家出台了一系列促进汽车消费的政策,有效刺激了汽车消费市场,汽车产销呈高增长态势,首次成为世界汽车产销第一大国。2009年,汽车产销分别为1379.1万辆和1364.5万辆,同比增长48.3%和46.15%。是什么因素导致中国汽车数量的增长?影响中国汽车行业发展的因素并不是单一的,经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境,都会使中国汽车行业面临机遇和挑战。3分析中国汽车行业未来的趋势,应具体分析这样一些问题:中国汽车市场发展的状况如何?(用销售量观测)影响中国汽车销量的主要因素是什么?(如收入、价格、费用、道路状况、能源、政策环境等)各种因素对汽车销量影响的性质怎样?(正、负)各种因素影响汽车销量的具体数量关系是什么?所得到的数量结论是否可靠?中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?很明显,只用一个解释变量已很难分析汽车产业的发展,还需要寻求有更多个解释变量情况的回归分析方法。怎样分析多种因素的影响?4本章主要讨论:●多元线性回归模型及古典假定●多元线性回归模型的估计●多元线性回归模型的检验●多元线性回归模型的预测5第一节多元线性回归模型及古典假定一、多元线性回归模型的意义一般形式:对于有K-1个解释变量的线性回归模型注意:模型中的(j=1,2,---k)是偏回归系数样本容量为n偏回归系数:控制其它解释量不变的条件下,第j个解释变量的单位变动对被解释变量平均值的影响,即对Y平均值“直接”或“净”的影响。ikikiiiuXXXY33221j(1,2,)in56多元线性回归中的“线性”指对各个回归系数而言是“线性”的,对变量则可以是线性的,也可以是非线性的例如:生产函数取对数这也是多元线性回归模型,只是这时变量为lnY、lnL、lnKuKALYuKLAYlnlnlnlnln7多元总体回归函数条件期望表现形式:将Y的总体条件期望表示为多个解释变量的函数,如:注意:这时Y总体条件期望的轨迹是K维空间的一条线个别值表现形式:引入随机扰动项或表示为kikiikiiiiXXXXXXYE3322132),,(ikikiiiuXXXY33221(1,2,)in(1,2,)in23(,)iiiiikiuYEYXXX8多元样本回归函数Y的样本条件均值可表示为多个解释变量的函数或回归剩余(残差):其中ˆiiieYY12323ˆˆˆˆˆikiikiYXXX12323ˆˆˆˆkiiikiiYXXXe1,2,in9二、多元线性回归模型的矩阵表示多个解释变量的多元线性回归模型的n组样本观测值,可表示为用矩阵表示1131321211uXXXYkk2232322212uXXXYkknknknnnuXXXY33221nkknnkknuuuXXXXXXYYY21212222121211111n1n1kknXYβu910总体回归函数或样本回归函数或其中:都是有n个元素的列向量是有k个元素的列向量(k=解释变量个数+1)是第一列为1的n×k阶解释变量数据矩阵,(截距项可视为解释变量总是取值为1)ˆβ,βY=Xβ+u(EY)=XβˆY,Y,u,e矩阵表示方式ˆˆY=XβˆY=Xβ+eX11三、多元线性回归中的基本假定假定1:零均值假定(i=1,2,---n)或E(u)=0假定2和假定3:同方差和无自相关假定:或用方差-协方差矩阵表示为:0)(iuE)()])([(),(jijjiijiuuEEuuEuuEuuCov2(i=j)(i≠j)011121212222212()()()100()()()010()()()001nnnnnnEuuEuuEuuEuuEuuEuuEuuEuuEuuI(,){[()][()]}()ijiijjCovuuEuEuuEuEuu(1,2,1,2,)injn12假定5:无多重共线性假定(多元中增加的)假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值矩阵X的秩为K(注意X为n行K列)。Ran(X)=kRak(X'X)=k即(X'X)可逆假定6:正态性假定),0(~2Nui2~(,)Nu0I12假定4:随机扰动项与解释变量不相关(,)0(2,3,,)jiiCovXujk第二节多元线性回归模型的估计一、普通最小二乘法(OLS)原则:寻求剩余平方和最小的参数估计式即求偏导,并令其为0其中即2212323ˆˆˆˆmin:[()]kiiiikieYXXX2ˆ()0ije122332ˆˆˆˆ()0iiikikiYXXX122233ˆˆˆˆ()20iiikikiiYXXXX12233ˆˆˆ(20ˆ)iiikikkiiYXXXX22ˆmin:()iiieYY20iiXe0ikiXe0ie132ˆˆmin:min:min:()()ieeeY-XβY-Xβ(1,2,)in(1,2,)jn14用矩阵表示的正规方程偏导数因为样本回归函数为两边左乘根据最小二乘原则则正规方程为ˆXXβ=XY0001112121222212eXnknkknikiiiieeeXXXXXXeXeXeˆYXβe=+ˆXY=XXβ+XeXXe=0Xe015OLS估计式由正规方程多元回归的OLS估计量为当只有两个解释变量时为:注意:为X、Y的离差23123ˆˆˆYXX22332322222323()()()()ˆ()()()iiiiiiiiiiiyxxyxxxxxxx23222332222323()()()()ˆ()()()iiiiiiiiiiiyxxyxxxxxxxˆXXβ=XY(),kk是满秩矩阵其逆存在XXx、yˆ-1β=(XX)XY对比简单线性回归中12ˆˆYX22ˆiiixyx16OLS回归线的数学性质(与简单线性回归相同)●回归线通过样本均值●估计值的均值等于实际观测值的均值●剩余项的均值为零●被解释变量估计值与剩余项不相关●解释变量与剩余项不相关(j=1,2,---k)23123ˆˆˆˆkkYXXXˆiYiYie0neeiiˆiYieˆ(,)0iiCovYeˆ()0iieyieiX0),(ijieXCov或ˆiYnY1617二、OLS估计式的统计性质1、线性特征是Y的线性函数,因是非随机或取固定值的矩阵2、无偏特性(证明见教材P101附录3.1)3、最小方差特性在所有的线性无偏估计中,OLS估计具有最小方差(证明见教材P101或附录3.2)结论:在古典假定下,多元线性回归的OLS估计式是最佳线性无偏估计式(BLUE)ˆβˆ()KKEˆKK-1(XX)Xˆ-1β=(XX)XY18三、OLS估计的分布性质基本思想:●是随机变量,必须确定其分布性质才可能进行区间估计和假设检验●是服从正态分布的随机变量,决定了Y也是服从正态分布的随机变量●是Y的线性函数,决定了也是服从正态分布的随机变量iuˆβˆβˆβY=Xβ+u19●的期望(由无偏性)●的方差和标准误差:可以证明的方差—协方差矩阵为(见下页)这里的(其中是矩阵中第j行第j列的元素)所以(j=1,2,---k)ˆ()Eβ=β2ˆVar-Cov()1()βXX2ˆ()jjjVarcˆ()jjjSEcjjc1()XX),(~ˆ2jjjjcN的期望与方差ˆβ111212122212()kkkkkkccccccccc1XXˆβˆβˆβ20ˆβˆˆˆˆˆ(){[()][()]}COVEEEβββββˆˆ[()()]Eββββ11[()()]EXXXuuXXX11()()()EXXXuuXXX121()()XXXIXXX21()XX1ˆ()XXXY1()()XXXXβ+u1()βXXXu2()EuuI其中:(由无偏性)(由同方差性)(由OLS估计式)20(1,2,)in(1,2,)jn注意是向量ˆβ的方差-协方差21四、随机扰动项方差的估计一般未知,可证明多元回归中的无偏估计为:(证明见P103附录3.3)或表示为将作标准化变换:ˆˆ~(0,1)ˆ()kkkkkkjjzNSEcknei22ˆ222ˆnkee2ˆβ21对比:一元回归中22ˆ(2)ien22未知时的标准化变换因是未知的,可用代替去估计参数的标准误差:●当为大样本时,用估计的参数标准误差对作标准化变换,所得Z统计量仍可视为服从正态分布●当为小样本时,用估计的参数标准误差对作标准化变换,所得的t统计量服从t分布:2ˆ22^βˆβ2*^ˆˆ~()ˆˆ()jjjjjjjttnkcSEˆβ2223五、回归系数的区间估计由于给定,查t分布表的自由度为n-k的临界值或或表示为^^22ˆˆˆˆ[()()]1jjjjjPtSEtSE)1(kj22ˆˆˆˆ[]1jjjjjjjPtctc2()2()ˆˆˆˆ(,)jjnkjjjnkjjtctc*^ˆˆ~()ˆˆ()jjjjjjjttnkcSE)(2knt*22^ˆ[()()]1ˆ()jjjPtnkttnkSE2324第三节多元线性回归模型的检验一、多元回归的拟合优度检验多重可决系数:在多元回归模型中,由各个解释变量联合起来解释了的Y的变差,在Y的总变差中占的比重,用表示与简单线性回归中可决系数的区别只是不同多元回归中多重可决系数可表示为(注意:红色字体是与一元回归不同的部分)2RˆiY2r22222()1()ˆiiiiYTSYeESSRSSRTSSYYTSSSy12233ˆˆˆˆˆiiikkiYXXX2425多重可决系数的矩阵表示可用代数式表达为特点:多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。22()iTSSYYnYYY223322ˆˆˆiiiikkiiixyxyxyRy22ˆˆ()iESSYYnYβXY222ˆESSnYRTSSnYβXYYY26修正的可决系数思想:可决系数只涉及变差,没有考虑自由度。如果用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。回顾:自由度:统计量的自由度指可自由变化的样本观测值个数,它等于所用样本观测值的个数减去对观测值的约束个数。27可决系数的修正方法总变差TSS自由度为n-1解释了的变差ESS自由度为k-1剩余平方和RSS自由度为n-k修正的可决系数为22)(iiyYY2ˆ()iYY22ˆ()iiiYYe222222()11111(1)(1)iiiie