第二章经典线性回归模型(ClassicalLinearRegressionModel)第一节线性回归模型的概念第二节线性回归模型的估计第三节拟合优度第四节非线性关系的处理第五节假设检验第六节预测第七节虚拟变量第一节线性回归模型的概念一.双变量线性回归模型我们在上一章给出的需求函数的例子Q=α+βP+u(2.1)是一个双变量线性回归模型,模型中只有两个变量,一个因变量,一个解释变量,由解释变量的变动来解释因变量的变动,或者说用因变量对解释变量进行线性回归,因而称为双变量线性回归模型,亦称简单线性回归模型。让我们再看一个例子。C=α+βD+u(2.2)这是凯恩斯消费函数,其中C为消费支出,D为个人可支配收入,u为扰动项(或误差项)。4此模型中,方程左端的消费支出(C)为因变量(或被解释变量),方程右端的个人可支配收入(D)为解释变量(或自变量)。α和β是未知参数,由于双变量线性回归模型的图形是一条直线,因而α和β习惯上又分别称为截距和斜率。这里斜率β的含义是解释变量增加一个单位所引起的因变量的变动。例如在(2.2)式中,β的含义是个人可支配收入增加一个单位所引起的消费的增加量,经济学中称之为边际消费倾向(MPC)。截距α的含义是解释变量为0时α的值。截距α有时有经济含义,但大多数情况下没有,因此,在计量经济分析中,通常不大关注α的取值如何。5在教学中,我们习惯上采用Y表示因变量,X表示解释变量,双变量线性回归模型的一般形式为:Y=α+βX+u在实践中,此模型被应用于因变量和解释变量的一组具体观测值和(t=1,2,…,n),因而模型表示为:=α+β+utt=1,2,…,n(2.3)它表明,对于n个时期t=1,2,…,n,该模型成立。更一般的形式为:=α+β+ui,i=1,2,...,n(2.4)即模型对X和Y的n对观测值(i=1,2,…,n)成立。(2.3)式一般用于观测值为时间序列的情形,在横截面数据的情形,通常采用(2.4)式。tYtXtYtXiYiX6二、多元线性回归模型在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型:t=1,2,…,n在这个模型中,Y由X1、X2、X3、…XK所解释,有K+1个未知参数β0、β1、β2、…βK。这里,“斜率”βj的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响。tktktttXXXYuβ...βββ221107例2.2食品需求方程其中,Y=在食品上的总支出X=个人可支配收入P=食品价格指数用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差):uβββ210PXY)114.0()003.0()6.9(99.0739.0112.07.116ˆ2RPXY),(数总消费支出价格平减指食品价格平减指数1001972100PY和X的计量单位为10亿美元(按1972不变价格计算).8多元线性回归模型中斜率系数的含义上例中斜率系数的含义说明如下:价格不变的情况下,个人可支配收入每上升10亿美元(1个billion),食品消费支出增加1.12亿元(0.112个billion)。收入不变的情况下,价格指数每上升一个点,食品消费支出减少7.39亿元(0.739个billion)9回到一般模型t=1,2,…,n即对于n组观测值,有tktktttXXXYuβ...βββ22110nKnKnnnnKKKKuXXXXYuXXXXYuXXXXYβ...ββββ......β...βββββ...ββββ33221102232322212102113132121110110其矩阵形式为:其中nYYYY...21KnnKKXXXXXXX...1...............1...11212111uXYnKuuuu...,...2121011第二节线性回归模型的估计一.经典线性回归模型的统计假设(1)E(ut)=0,t=1,2,…,n即各期扰动项的均值(期望值)均为0。均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。12(2)E(uiuj)=0,i≠j即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。实际上该假设等同于:cov(ui,uj)=0,i≠j这是因为:cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根据假设(1)(3)E(ut2)=σ2,t=1,2,…,n即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性。这是因为:Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根据假设(1)13(4)Xjt是非随机量,j=1,2,…kt=1,2,…n(5)(K+1)n;即观测值的数目要大于待估计的参数的个数(要有足够数量的数据来拟合回归线)。(6)各解释变量之间不存在严格的线性关系。上述假设条件可用矩阵表示为以下四个条件:14A1.E(u)=0A2.由于显然,仅当E(uiuj)=0,i≠jE(ut2)=σ2,t=1,2,…,n这两个条件成立时才成立,因此,此条件相当前面条件(2),(3)两条,即各期扰动项互不相关,并具有常数方差。22122212121212121.........................................................nnnnnnnuuuuuuuuuuuuuuuuuuuuuuunIuuE2)(nIuuE2)(15A3.X是一个非随机元素矩阵。A4.Rank(X)=(K+1)n.------相当于前面(5)(6)两条即矩阵X的秩=(K+1)n满足条件(A1)—(A4)的线性回归模型称为经典线性回归模型或古典线性回归模型(CLR模型)。当然,为了后面区间估计和假设检验的需要,还要加上一条:A5.各期扰动项服从正态分布。~,t=1,2,…n),0(2Ntu16二、最小二乘估计1.最小二乘原理为了便于理解最小二乘法的原理,我们用双变量线性回归模型作出说明。对于双变量线性回归模型Y=α+βX+u,我们的任务是,在给定X和Y的一组观测值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情况下,如何求出Yt=α+βXt+ut中α和β的估计值和,使得拟合的直线为“最佳”。直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。ˆˆ17*****et************YXXt图2.2YttYˆXYˆˆˆ18残差拟合的直线称为拟合的回归线.对于任何数据点(Xt,Yt),此直线将Yt的总值分成两部分。第一部分是Yt的拟合值或预测值:,t=1,2,……,n第二部分,et,代表观测点对于回归线的误差,称为拟合或预测的残差(residuals):t=1,2,……,n即t=1,2,……,ntYˆttXYˆˆˆtttXYeˆˆtttYYeˆXYˆˆˆ19残差平方和我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,即22)ˆ(tttYYe20最小二乘法最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择和,使得ˆˆ222)ˆˆ()ˆ(tttttXYYYeS达到最小值。21运用微积分知识,使上式达到最小值的必要条件为:即)2(0)ˆˆ)((2ˆ)1(0)ˆˆ)(1(2ˆ0ˆˆtttttXYXSXYSSS22整理,得:此二式称为正规方程。解此二方程,得:其中:样本均值离差)4(ˆˆ)3(ˆˆ2ttttttXXYXXnY)6(ˆˆ)5()())((ˆ22XYxyxXXYYXXttttttYYyXXxnXXnYYtttttt,,232.多元线性回归模型的最小二乘估计在多元线性回归模型的情况下,我们的模型是:问题是选择,使得残差平方和最小。残差为:kˆ,....,ˆ,ˆ10011ˆˆˆˆ....tttttKKteYYYXX01122...utttkkttYXXX24要使残差平方和为最小,则应有:我们得到如下K+1个方程(即正规方程):22011ˆˆˆ...tttKKtSeYXX0ˆ...,,0ˆ,0ˆ10KSSS25按矩阵形式,上述方程组可表示为:tktKtKtktktttKttKtttttKttKtttKtKtYXXXXXYXXXXXXYXXXXXYXXn211022121201121110110β......ββ........................β......βββ......βββ......ββ26=)'(XXβ'XY即YXXX'β)'(2112111.....................KttKtKtKttttKttXXXXXXXXXXnKβ...ββ10nKnKKnYYYXXXXXX.....................1...11212111211YXXX1)(β27YXXX1)(β三.最小二乘估计量的性质我们的模型为估计式为1.的均值βββˆXYuXY)uβ()(1XXXXu)(β)(11XXXXXXXu)(β1XXX28(由假设3)(由假设1)即这表明,OLS估计量是无偏估计量。βKKKEEEEβ...ββ)β(......)β()β(β...ββ101010β)u()(β)β(1EXXXE292.的方差为求Var(),我们考虑ββββββE00110101ββββββββ...ββ...ββKKKKE30)β(...)β,β()β,β(............)β,β(...)β()β,β()β,β(...)β,β()β(1011010100KKKKKVarCovCovCovVarCovCovCovVar不难看出,这是的方差-协方差矩阵,它是一个(K+1)×(K+1)矩阵,其主对角线上元素为各系数估计量的方差,非主对角线上元素为各系数估计量的协方差。β31由上一段的(2.19)式,我们有因此uXXX1)(ββ11uuXXXEXXX11EXXXuuXXXuuββββ11XXXXXXEE121