在本章将把一元线性回归模型推广到多元线性回归模型,即在模型中将包含二个以上的解释变量。多元线性回归模型是实践中广泛应用的模型。我们从简单的双解释变量多元线性回归模型入手,然后再将其推广到三个及三个以上解释变量的多元线性回归模型。第三章多元线性回归模型第一节多元回归模型的定义一、多元回归模型的意义在一元线性回归模型中,我们假定影响被解释变量的因素只有一个,即解释变量X,这种情形在经济计量分析中往往是不适宜的。因为在经济系统中,影响被解释变量的重要变量往往不只一个。例如在收入—消费模型中,除了收入影响消费外,还有其它因素明显地影响消费,很明显财富就是影响消费的重要变量。在劳动力市场上,影响工资的变量不仅仅是工作年限,受教育程度也是影响工资的一个重要变量。因此,在回归分析模型中,就需要引进更多的解释变量。多元回归分析与一元回归分析相比有如下优点1.多元回归分析可以研究多影响因素对被解释变量的影响。2.在模型中增加一些有助于解释Y的因素,Y的变动就能更好地予以解释。因此,多元回归分析有助于更好地预测。3.多元回归模型更具有一般性。一元回归模型中,只能有一个解释变量,其函数形式不一定恰当。而多元回归模型具有较大的灵活性,有利于对总体回归模型做出正确的判断。多元回归模型是经济学和其它社会科学进行计量分析时使用最为广泛的一个工具。含有两个解释变量的多元回归模型是最简单的多元回归模型。模型形式为二、含有两个解释变量的多元回归模型iiiiuXXY33221(3.1)其中,Yi是被解释变量,X2i和X3i是解释变量,ui是随机干扰项,i指第i项观测。式(3.1)中的β1是截距项。表面上看,β1代表X2和X3均取0时的Y的均值,但这仅仅是一种机械的解释,实际上β1是指所有未包含到模型中来的变量对Y的平均影响。系数β2和β3为偏回归系数,β2表示在保持X3不变的条件下,X2每变化一个单位时,Y的均值的变化。类似地,β3表示在保持X2不变的条件下,X3每变化一个单位时,Y的均值的变化。例如在汽车需求分析中,可设定模型为ttttuIPY321(3.2)其中,Yt=汽车需求量,Pt=汽车价格,It=居民收入。t代表第t次观测。式(3.2)中,汽车需求量主要受到价格和收入这两个变量的影响。又如在劳动力市场中,工资水平模型为iiiiuEPEW321(3.3)其中,Wi=工资,Ei=受教育水平,EPi=工作经验。式(3.3)表示工资水平主要受受教育水平和工作经验两个变量的影响。在含有两个解释变量的多元回归模型中,经典线性回归模型的假定条件如下。假定1:ui零均值假定E(ui|X2i,X3i)=0对每个i(3.4)假定2:ui无序列相关假定Cov(ui,uj)=0i≠j(3.5)假定3:ui同方差假定2)(iuVar(3.6)假定4:ui与每一个解释变量无关0),(),(32iiiiXuCovXuCov(3.7)假定5:无设定偏误假定6:解释变量X之间无完全的共线性03322iiXX(3.8)无共线性的含义是,不存在一组不全为零的数λ2和λ3使得如果这一关系式存在,则该X2和X3是共线的或线性关系。三、含有多个解释变量的模型多个解释变量的多元回归模型是一元回归模型和二元回归模型的推广。含被解释变量Y和k-1个解释变量X2,X3,…,Xk的多元总体回归模型表示如下:ikikiiiuXXXY33221i=1,2,…(3.9)式(3.9)中,β1为截距,β2,β3,…,βk为偏斜率系数,u为随机干扰项,i为第i次观测。式(3.9)的均值表达式为kikiiiXXXYE33221)(i=1,2,…(3.10)把式(3.10)表示为增量形式则为kikiiiXXXYE3322)((3.11)X2的系数β2的意义为:在所有其它变量X3i,X4i,…,Xki保持不变的条件下,X2改变一个单位而导致Yi的均值的变化量。即在保持X3,X4,…,Xk不变的条件下,有:iiXYE22)((3.12)其它斜率系数的意义与此类似。例如,在汽车需求分析中,要研究竞争性市场中某一品牌汽车的需求。据需求理论,影响汽车需求的因素除了价格和收入外,还有与之竞争的其它品牌汽车的价格。因此,该品牌汽车的需求模型为tttttuPIPY'4321(3.13)式(3.13)中,Yt=某品牌汽车需求量,Pt=该品牌汽车价格,It=居民收入,=竞争性品牌汽车的价格.β2代表当居民收入It与竞争性品牌汽车价格不变时,该品牌汽车价格降低1元,需求量增加的数量。'tP第二节最小二乘估计一、最小二乘估计量对于二个解释变量的回归模型,其样本回归函数为(3.14)式中,分别为的估计值。iiiXXY33221ˆˆˆˆ321ˆ,ˆ,ˆ321,,根据最小二乘准则,应选择使残差平方和最小的。在给定Y,X1和X2的n个观测值时,同时选择使下式取最小值。321ˆ,ˆ,ˆ321ˆ,ˆ,ˆ233221112)ˆˆˆ(iininiiiXXYe(3.15)在含有多个解释变量的一般情形中,我们得到样本回归函数kikiiiXXXYˆˆˆˆˆ33221(3.16)我们的目的就是得到式(3.16)中的估计值,使残差平方和最小。kˆ,,ˆ,ˆ21最小的估计值。据微积分知识,我们知道这个最小化问题就是使用多元微积分求解。其原理与一元线性回归方程的最小二乘法相同。得到含这k个未知变量的k个线性方程。233211212)XˆXˆXˆˆY(ekikiininiiikˆ,,ˆ,ˆ21kˆ,,ˆ,ˆ21就是使0000122112213221122121)XˆXˆˆY(X)XˆXˆˆY(X)XˆXˆˆY(X)XˆXˆˆY(kikniiikikikniiiikikiniiikikinii(3.18)该方程组称为正规方程组,求解该方程组,可得到的值。即使是较小的方程组,手工计算也是很繁重的工作。借助经济计量分析软件,对较大的n和k,也能很快求解这些方程。本书推荐的EViews软件就提供了这一计算程序。321ˆ,ˆ,ˆ如果使用普通最小二乘法而得到了式(3.16)的样本回归函数,我们就称其为:将Y对X1,X2,…,Xk进行了回归。【例3.1】工资回归模型利用横截面数据估计参数得到如下包含三个解释变量的模型。Ln(Y)=0.284+0.092X2+0.0041X3+0.022X4(3.19)式中,Y=工资,X2=受教育年限,X3=工龄,X4=现任职务的任期。在式(3.19)中,系数0.092表示在保持X3和X4固定不变的情况下,劳动者多受一年教育,Ln(Y)增加0.092,即工资增加9.2%。也就是说,如果有两个劳动者具有同样的工龄和现职任期,在受教育水平相差一年时,X2的系数表示了预计工资的差别。二、判定系数R2及调整的判定系数2R(一)判定系数R2在一元回归模型中,判定系数R2是回归方程拟合优度的一个度量;它给出了在被解释变量Y的总变差中由(一个)解释变量X解释了的比例或百分比。将其推广到多元回归模型中,判定系数依然为解释平方和ESS与总平方和TSS的比值,即:TSSRSSTSSESSR12(3.20)判定系数R2的一个重要性质是:在回归模型中增加一个解释变量后,它不会减少,而且通常会增大。即R2是回归模型中解释变量个数的非减函数。(二)调整的判定系数2R在式(3.20)中,TSS就是,与模型中的X变量的个数无关。但RSS即却与模型中出现的解释变量个数相关。随着X变量个数的增加,会减小,至少不会增大;因此,判定系数R2将会增大。所以,使用R2来判断具有相同被解释变量Y和不同个数解释变量X的回归模型的优劣时就很不适当。2)(YYi2ie2ie此时,R2不能用于比较两个回归方程的拟合优度。为了消除解释变量个数对判定系数R2的影响,需使用调整后的判定系数:)1/()()/(1222nYYkneRii(3.21)式中,k为包括截距项在内的模型中的参数个数。在二元回归模型中k=3,在一元回归模型中k=2。所谓调整,就是指的计算式中的和都用它们的自由度(n-k)和(n-1)去除。2)(YYi2ie2R(3.22)由式(3.22)可以看出:(1)对于k1,R2。这意味着,随着X变量的个数增加,比R2增加得慢些。(2)虽然R2非负,但可以是负的。在应用中,如果遇到出现负的情形,就令=0。2R调整的判定系数和R2的关系为2RknnRR1)1(1222R2R2R在回归分析中,我们的目的并不是为了得到一个高的,而是要得到真实总体回归系数的可靠估计并做出有关的统计推断。在实证分析中,经常碰到有着较高的,但某些回归系数在统计上不显著的回归模型,这样的模型是没有应用价值的。(三)回归分析中的应用2R2R2R所以,我们应更加关心解释变量对被解释变量的理论关系和统计显著性。如果在其它条件相同的条件下,得到一个较高,当然很好;如果偏低,也不能说明模型不好。在经典线性回归模型中,并不要求一定是较高的。2R2R2R【例3.2】大学平均成绩的决定因素根据某大学141名学生的样本,以大学平均成绩Y为被解释变量,高中平均成绩X1和大学能力测验分数X2为解释变量,用普通最小二乘法得到样本回归模型为210094.0453.029.1ˆXXY式(3.23)中,R2=0.176,n=141。(3.23)截距项1.29没有实际意义。因为,没有人在高中时的成绩为0、测验成绩也为0时进入大学。R2=0.176意味着,高中平均成绩X1和大学能力测验分数X2一起解释这个学生样本中大学平均成绩Y的方差的17.6%。这个比例虽然不高,但不能判定模型不好。因为影响一个学生大学表现的因素还有很多,包括家庭背景、个性、高中教育的质量和对大学专业的喜恶等。三、最小二乘估计量的期望值和方差(一)偏回归系数的期望值在多元回归模型满足经典假定的条件下,普通最小二乘估计量是总体参数的无偏估计。即:jˆjjE)ˆ(j=1,2,…,k(3.24)对这一结果有直接影响的假定为E(ui)=0,随机扰动项的期望值为0和Cov(Xi,ui)=0,X非随机并与扰动项u不相关。在多元回归分析中,如果回归模型的函数形式设定有误或遗漏了与包含在模型中的变量相关的重要解释变量,都会导致经典假定E(ui)=0不成立,即E(ui)≠0。如此,则使得最小二乘估计量不是总体参数的无偏估计,即。jˆjjE)ˆ(虽然在多元回归分析中,模型的函数形式更多,包含的变量数也较多,相对于一元回归分析,出现函数形式设定偏误和遗漏重要解释变量的可能性较小。但是,在一项应用研究中,由于理论的含糊性或数据的局限性,总有一些重要解释变量不能包含到回归模型中。如此,则会破坏普通最小二乘估计的无偏性。无偏性不是针对某一特定样本而言的,而是指将普通最小二乘法用于各种可能的随机样本时,这种方法得到的结果是无偏的。关于Cov(Xi,ui)=0假定不能满足,从而破坏无偏性,我们将在后面章节讨论它。就是说将普通最小二乘法用于不同的样本,将会得到许多不同的估计值,i表示第i个样本,j表示第j个参数。这些不同的估计值的均值等于总体参数βj。但对于一个具体的估计值就谈不上无偏性。ijˆ因为一个估计值是从一个特定的样本得到的一个固定数,它也许等于总体参数,也许不等于总体参数,我们无法判定。虽然我们总是希望得到最接近总体真实性的估计值,但最小二乘法并不能保证这一点。(二)的方差和标准误的期望值度量了的集中趋势。而的方差则度量了围绕其期望值的集中程度,也就是度量了的估计精度。jˆjˆjˆjˆjˆjˆ在满足经典假定的条件下,偏斜率系数估计量的方差为式中,为Xj的总