第三章多元线性回归模型基本要求:1、理解多元线性回归模型的定义2、理解多元线性回归模型的假定3、掌握参数估计的计算4、理解参数统计性质第一节多元线性回归模型及假定一、多元线性回归模型许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量Y与多个解释变量kXXX,,,21之间存在线性关系。假定被解释变量Y与多个解释变量kXXX,,,21之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。即kkXXXY22110(3-1)其中Y为被解释变量,(1,2,,)jXjk为k个解释变量,(0,1,2,,)jjk为1k个未知参数,为随机误差项。被解释变量Y的期望值与解释变量kXXX,,,21的线性方程为:01122()kkEYXXX(3-2)称为多元总体线性回归方程,简称总体回归方程。对于n组观测值),,2,1(,,,,21niXXXYkiiii,其方程组形式为:01122,(1,2,,)iiikkiiYXXXin(3-3)即nknknnnkkkkXXXYXXXYXXXY2211022222121021121211101其矩阵形式为nYYY21=knnnkkXXXXXXXXX212221212111111k210+n21即YXβμ(3-4)其中1nYnYYY21为被解释变量的观测值向量;)1(knXknnnkkXXXXXXXXX212221212111111为解释变量的观测值矩阵;(1)1kβk210为总体回归参数向量;1nμn21为随机误差项向量。总体回归方程表示为:()EYXβ(3-5)与一元线性回归分析一样,多元线性回归分析仍是根据观测样本估计模型中的各个参数,对估计参数及回归方程进行统计检验,从而利用回归模型进行经济预测和分析。多元线性回归模型包含多个解释变量,多个解释变量同时对被解释变量Y发生作用,若要考察其中一个解释变量对Y的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变量对因变量Y的均值的影响。由于参数012,,,,k都是未知的,可以利用样本观测值12(,,,;)iikiiXXXY对它们进行估计。若计算得到的参数估计值为012ˆˆˆˆ,,,,k,用参数估计值替代总体回归函数的未知参数012,,,,k,则得多元线性样本回归方程:01122ˆˆˆˆˆiiikknYXXX(3-6)其中ˆ(0,1,2,,)jjk为参数估计值,ˆ(1,2,,)iYin为iY的样本回归值或样本拟合值、样本估计值。其矩阵表达形式为:ˆˆYXβ(3-7)其中1ˆnY12ˆˆˆnYYY为被解释变量样本观测值向量Y的1n阶拟合值列向量;)1(knXknnnkkXXXXXXXXX212221212111111为解释变量X的(1)nk阶样本观测矩阵;11kβˆ012ˆˆˆˆk为未知参数向量的(1)1k阶估计值列向量。样本回归方程得到的被解释变量估计值ˆiY与实际观测值iY之间的偏差称为残差ie。0112ˆˆˆˆˆ()iiiiiikikieYYYXX(3-8)二、多元线性回归模型的假定与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计时,有如下假定:假定1零均值假定:()0,1,2,,iEin,即1122()()()0()nnEEEEEμ(3-9)假定2同方差假定(的方差为同一常数):22()(),(1,2,,)iiVarEin假定3无自相关性:(,)()0,(,,1,2,,)ijijCovEijijn21112122212212212()(,,,)nnnnnnnEEEμμ)()()()()()()()()(2212221212121nnnnnEEEEEEEEEnuI2222000000(3-10)假定4随机误差项与解释变量X不相关(这个假定自动成立):),,2,1,,,2,1(,0),(nikjXCoviji假定5随机误差项服从均值为零,方差为2的正态分布:2~(0,)inNI假定6解释变量之间不存在多重共线性:()1rankknX即各解释变量的样本观测值之间线性无关,解释变量的样本观测值矩阵X的秩为参数个数k+1,从而保证参数012,,,,k的估计值唯一。第二节多元线性回归模型的参数估计及统计性质一、多元线性回归模型的参数估计(一)回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型0112212niiikkiiYXXXi(,,,)设kˆ,,ˆ,ˆ10分别作为参数k,,,10的估计量,得样本回归方程为:01122ˆˆˆˆˆiiikkiYXXX观测值Yi与回归值ˆYi的残差ie为:0112ˆˆˆˆˆ()iiiiiikikieYYYXX由最小二乘法可知kˆ,,ˆ,ˆ10应使全部观测值Yi与回归值ˆYi的残差ie的平方和最小,即使22210)ˆ()ˆ,,ˆ,ˆ,ˆ(iiikYYeQ222110)ˆˆˆˆ(kikiiiXXXY(3-11)取得最小值。根据多元函数的极值原理,Q分别对kˆ,,ˆ,ˆ10求一阶偏导,并令其等于零,即0,(1,2,,)ˆjQjk(3-12)即011220011221101122ˆˆˆˆ2()(1)0ˆˆˆˆˆ2()()0ˆˆˆˆˆ()()0ˆiiikkiiiikkiiiiikkikikQYXXXQYXXXXQYXXXX化简得下列方程组011222011122111201122ˆˆˆˆˆˆˆˆˆˆˆˆiikkiiiiiikkiiiikiikiikikkikiinXXXYXXXXXXXYXXXXXXXY(3-13)上述(1)k个方程称为正规方程,其矩阵形式为ikiiiikkikiikiikiikiiiiikiiiYXYXYXXXXXXXXXXXXXXXn121022111221121ˆˆˆˆ(3-14)因为22111221121kikiikiikiikiiiiikiiiXXXXXXXXXXXXXXXnknkknnXXXXXXXXX212222111211111knnnkkXXXXXXXXX212221212111111XXikiiiiYXYXY1knkknnXXXXXXXXX212222111211111YXnYYY21设012ˆˆˆˆˆkβ为估计值向量样本回归模型ˆYXβe两边同乘样本观测值矩阵X的转置矩阵X,则有ˆXYXXβXe得正规方程组:ˆXYXXβ(3-15)由假定(6),1)(kRX,XX为)1(k阶方阵,所以XX满秩,XX的逆矩阵1)(XX存在。因而1ˆ()βXXXY(3-16)则为向量β的OLS估计量。以二元线性回归模型为例,导出二元线性回归模型的OLS估计量的表达式。由(3-3)式得二元线性回归模型为iiiiXXY22110为了计算的方便,先将模型中心化。11,(1,2)njjijijijiXXxXXjn,YYyYnYiinii,11)2,1,(,qpxxLqipipq)2,1(,jyxLijijY2iYYyL设001122XX,则二元回归模型改写为中心化模型。iiiixxY22110(3-17)记011211122221,1xxxxXβ2112122122000,0iiiiiiiiiiinYxxxxYxxxxYXXXY(3-18)将)2,1,(,qpxxLqipipq代入得222112110000LLLLnXX(3-19)因为nininijiijiijiniijixYyxYyxYx1111)()2,1(,1jLyxjYniiji(3-20)则YYiLLY21YX由(3-16)式得111210ˆ()0iYYYLnLβXXXYL(3-21)其中111212222112221112212121111LLLLLLLLLLLLL由(3-21)式可知Y0ˆYYYYLLLLLLLLLLL21111212222122211211211ˆˆL得21222111222211ˆLLLLLLLYY(3-22)21222111211122ˆLLLLLLLYY(3-23)22110ˆˆˆXXY(3-24)(二)随机误差项的方差2的估计量样本回归方程得到的被解释变量估计值ˆiY与实际观测值iY之间的偏差称为残差ie01122ˆˆˆˆˆ()iiiiiiikikieYYYXXX则1ˆˆ()[()]eYYYXβXβμXXXXY1()[()()]XβμXXXXXβμ1[()]XβμXβXXXμ1()μXXXXμ1[()]nIXXXXμ设1()nPIXXXX,可以得出P是n阶对称幂等矩阵,PP,2PP。于是ePμ而残差的平方和为2()()ieeePμPμμPPμμPμ1[()]nμIXXXXμ1(){[()]}nEEeeμIXXXXμ21[()]ntrIXXXX21[()]ntrtrIXXXX