第5章多元线性回归模型学习目标·了解多元线性回归模型的设定·理解多元线性回归模型的古典假定·掌握估计多元线性回归模型的方法·掌握多元线性回归模型的检验·会运用多元线性回归模型解决实际问题5.1多元线性回归模型的设定多元线性回归模型的设定有其广阔的经济背景,在很多情况下我们都需要设定多元线性回归模型。【例5-1】多元消费回归模型。消费不仅受到收入的影响,还会受到物价变动的影响,特别是在时间序列模型里。这样我们可以设定一个二元线性回归模型:(5-1)其中--消费--收入--物价ttttuXXY22110tYtX1tX2【5-2】影响经济增长的因素很多,主要的有消费、投资和净出口。以GDP作为一国经济状况的代表变量,则可以设定一个三元线性回归模型:(5-2)其中--GDP--消费--投资--净出口tttttuXXY322110tYtX1tX2tX3一般的,多元线性回归模型的基本形式为:(5-3)其中--模型的参数(j=0,1,2,…,k)--随机扰动项ikikiiiuXXXY...22110jiu随机扰动项的设定与一元线性模型时一样的,它代表了那些我们无法知道的因素、或者“周边变量”,它对被解释变量的影响是随机的,我们有足够的理由认为其均值为0。即:(5-4)因此有:(5-5)我们将式(5-3)称为总体多元线性回归模型,它是真实的统计模型;式(5-5)称为总体多元线性回归方程,它是真实的回归“直线”。0),...,(21kiXXXuEkikiiikiXXXXXXYE...),...,(2211021和一元线性回归模型一样,总体是不能完全观测的,我们只能通过样本来对总体做推断。假如我们抽到一个样本,对应的有n个观测值,这样就得到了样本的回归模型和样本回归方程:(5-6)其中--参数的估计值(j=0,1,2,…,k)--残差项(5-7)比较式(5-6)和式(5-7),容易得到:(5-8)ikikiiieXXXYˆ...ˆˆˆ22110jˆiekikiiiXXXYˆ...ˆˆˆˆ22110iiiYYeˆ在总体多元线性回归模型中,诸(j=0,1,2,…,k)称为偏回归系数,其意义是在其他解释变量不变的条件下,某一个变动对平均变动的影响。jjiXiY1.对模型和变量的假定(1)在重复抽样中,诸X的值是固定的。也就是说,我们认为,在一个回归过程中,诸X是确定性变量,而不是随机变量。(2)模型的设定是正确的。也就是说,模型没有设定偏误,即无论是从变量的设定还是函数形式的设定,模型都是正确的。2.对随机扰动项的假定(1)零均值假定。即的条件均值为0。为了方便,我们将的条件均值简记为。(2)同方差假定。即的条件方差相同。(3)无自相关假定。即对于不同的之间不存在线性相关性。iuiu0)(iuEiu222)())(()(iiiiuEuEuEuVariu0)())())(((),(jijjiijiuuEuEuuEuEuuCov(4)与诸X之间不存在线性相关。即与诸X的协方差为0。(5)正态性假定。即服从正态分布。(6)无多重共线性假定。这个假定的含义是在诸X之间不存在线性相关性;或者说在诸X中,不存在其中某一个X被其他的X线性表示。即存在不全为0的使得正式成立:(5-9)iuiu0)())())(((),(jijjiijiXuEXEXuEuEXuCov),0(~2Nui112211...rkkrrrXXXXj5.2多元线性回归模型的估计多元线性回归模型的估计同样运用最小二乘法,与一元线性回归模型不同的是计算过程要复杂一些。下面以二元线性回归模型为例来说明多元线性回归模型估计方法。设样本的二元线性回归模型为:(5-11)样本的二元线性回归方程为:(5-12)则有:(5-13)iiiieXXY22110ˆˆˆiiiXXY22110ˆˆˆˆiiiYYeˆ要使估计的误差为最小,则要满足,即:(5-14)上式能否取得最小值取决于诸,所以式(5-14)是关于的三元函数,而这个三元函数取得最小值的必要条件是其偏导数为0,即:(5-15)(5-16)(5-17)min2iemin)ˆˆˆ()ˆ(22211022iiiiiiXXYYYejˆjˆ0)ˆˆˆ(2ˆ2211002iiiiXXYe0)ˆˆˆ(2ˆ12211012iiiiiXXXYe0)ˆˆˆ(2ˆ22211022iiiiiXXXYe注意到,上述三式也可以写为:(5-18)(5-19)(5-20))ˆˆˆ()ˆ(22110iiiiiiXXYYYe0ie01iiXe02iiXe将式(5-15)、(5-16)、(5-17)整理得:(5-21)(5-22)(5-23)式(5-21)、(5-22)、(5-23)称为正规方程,由其组成的方程组称为正规方程组。iiiXXnY22110ˆˆˆiiiiiiXXXXXY212211101ˆˆˆ222211202ˆˆˆiiiiiiXXXXXY可从中解出诸:(5-24)(5-25)(5-26)式中--的平均值--的离差jˆ22110ˆˆˆXXY22122212122211)(ˆiiiiiiiiiiixxxxxxxyxxy22122212112122)(ˆiiiiiiiiiiixxxxxxxyxxy21,,XXYiiiXXY21,,iiixxy21,,iiiXXY21,,设多元线性回归模型如式(5-3),对应的方程为(5-5)。假设k个解释变量X有n次取值,于诸X对应的Y有一“簇”取值,这样得到这些变量的n组观测值,则有:………(5-27)1121211101...uXXXYkk2222212102...uXXXYkknknknnnuXXXY...22110于是,这个方程组可以用矩阵表示为:(5-28)其中nkknnnkknuuuXXXXXXXXXYYY.........1..................1...1...211021222121211121n21YYY...YknnnkkXXXXXXXXX...1..................1...1212221212111Xk...10βnuuu...21u这样,总体多元线性回归模型和方程可以写成矩阵形式:(5-29)(5-30)同样,我们将样本多元线性回归模型和方程可以写成矩阵形式:(5-31)(5-32)uXβYXβXY)(EeβXYˆβXYˆˆ我们可以用矩阵来表达对随机扰动项的古典假定:(1)零均值假定0u0...00)(...)()(...)(2121nnuEuEuEuuuEE(2)、(3)同方差与无自相关假定由于,故有:0)())())(((),(jijjiijiuuEuEuuEuEuuCov)(]))())(([()(uuuuuuuEEEEVarn2Iσ222212221212111...000...000...00...0)(...)()(............)(...)()()(...)()(nnnnnnuuEuuEuuEuuEuuEuuEuuEuuEuuE(4)随机扰动项与解释变量不相关(5)正态性假定(6)无多重共线性假定,即矩阵X满秩。0)())())(((),(jijjiijiXuEXEXuEuEXuCov),(~2nNIσ0u1)(kRankX我们还可以用矩阵得到最小二乘法的估计结果。一般的,k元线性回归模型的偏导数可以表示为:0eXXenknkknikiiiieeeXXXXXXeXeXe.....................1...11...2121112111(5-33)在样本回归方程两边同乘以X的转置矩阵得到正规方程组:(5-34)由于模型中无多重共线性,则矩阵X满秩,故存在,从式(5-34)中可解出:(5-35)用矩阵表示多元线性回归模型会使其表达式变得简洁,还可以引入矩阵的运算使计算过程简化。但一般情况下,我们是用矩阵来表示或推导一些性质,最小二乘法的估计结果用Eviews得到。βXXeXβXXYXˆˆ1)(XXβˆYXXXβ1)(ˆ【例5-3】居民的消费支出除了受到收入的影响外,还会受到物价的影响。以全国城镇居民1990-2009年的消费绝对数、职工平均工资、定基价格指数为变量设定二元线性回归模型(数据见例5-3,数据来源:中国统计年鉴2010),运用Eviews对模型进行估计。解:打开Eviews录入数据,并对变量命名:其中Y—居民消费水平X1—职工平均工资X2—定基价格指数在命令栏中输入命令:lsycx1x2回车后即得到估计的结果:估计的回归方程为:这个回归结果说明,在价格指数保持不变的条件下,平均工资增加1元,消费水平增加约0.29元;在平均工资不变的条件下,价格指数每增加一个百分点,消费水平会增加约12.83元。由这个结果可以得到,价格指数对消费的影响程度是较高的。tttXXY2182854.12288774.0174.1688ˆ5.3多元线性模型最小二乘估计量的性质与一元线性OLS回归一样,多元线性OLS回归也具有相同的性质。1.多元线性回归OLS回归直线的代数性质我们运用最小二乘法得到了多元线性回归模型的样本方程,由这个方程决定的直线具有与一元线性回归直线相同的性质,下面我们以二元线性回归直线进行说明:(1)各变量的均值在回归直线上由式(5-24)即得:(2)Y估计值的均值等于Y的实际值的均值即:(3)残差的均值为0即:(4)残差与解释变量不相关即:、(5)残差与Y的估计值不相关即:。这些结果很容易推广到一般的多元线性OLS回归直线的情形。22110ˆˆˆXXYYYˆ0ie01iiXe02iiXe0ˆiiYe利用这些结果,我们可以得到多元线性回归模型和方程的离差形式。(5-36)(5-37)(5-38)式中--的离差(j=1,2,…,k)ikikiiiexxxyˆ...ˆˆ2211kikiiixxxyˆ...ˆˆˆ2211iiiyyeˆjiixy,jiiXY,2.多元线性回归方程拟合优度的度量与一元线性回归一样,我们可以得到其总变差的分解结果:TSS=ESS+RSS(5-39)式中,,我们定义为多元线性回归方程的可决系数,其含义是由回归方程(诸X)对Y所做出解释的程度。显然,的值越接近1,表明回归方程解释的程度越高。2)(YYTSSi2)ˆ(YYESSi2)ˆ(iiYYRSS但是,在多元的情况下,可决系数的取值会随着解释变量X个数的增加而增加,如果我们在模型中加入无关的解释变量就会增加的值,这样就不能很好的说明拟合的程度了。2R2R222112ˆ...ˆˆikiikiiiiyxyxyxyTSSRSSTSSTSSESSR上式中的分母项总大于0,一般情况下分子项则会随着项数的增加而增加。由于多元线性