第3章多元线性回归模型3.1模型的建立及其假定条件1基本的概念在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型:t=1,2,…,n在这个模型中,Y由X1,X2,X3,…XK所解释,有K+1个未知参数β0、β1、β2、…βK。这里,“斜率”βj的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响。uβ...βββ22110kkXXXY例1:其中,Y=在食品上的总支出X=个人可支配收入P=食品价格指数用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差):Y和X的计量单位为10亿美元(按1972不变价格计算).uβββ210PXY)114.0()003.0()6.9(99.0739.0112.07.116ˆ2RPXY多元线性回归模型中斜率系数的含义上例中斜率系数的含义说明如下:价格不变的情况下,个人可支配收入每上升10亿美元(1个billion),食品消费支出增加1.12亿元(0.112个billion)。收入不变的情况下,价格指数每上升一个点,食品消费支出减少7.39亿元(0.739个billion)回到一般模型描述被解释变量Y的期望值与解释变量X1,X2,…XK线性关系的方程为这个式子为多元线性回归方程,简称总体回归方程uβ...βββ22110kkXXXY01122()kkEYXXX对于n组观测值,有nKnKnnnnKKKKuXXXXYuXXXXYuXXXXYβ...ββββ......β...βββββ...ββββ332211022323222121021131321211101其矩阵形式为:其中nYYYY...21KnnKKXXXXXXX...1...............1...11212111uXYnKuuuu...,...21210由于总体回归模型的参数都是未知的,我们可以利用样本观测值对它们进行估计,得到相应的估计的回归方程上式为多元线性回归方程,简称样本回归方程.估计的回归方程的矩阵表达形式为01,,,k01122ˆˆˆˆˆiiikkiYXXXˆˆYX2模型的假定(1)E(ui)=0,i=1,2,…,n其矩阵表达形式为:E(U)=0(2)随机误差项有相同的方差22()()iiVaruEu(3)随机误差项彼此之间不相关i≠j将条件(2)和(3)结合起来,其相应的矩阵表达形式为(4)解释变量与随机误差项彼此不相关i=1,2…kj=1,2,….,n(,)()0ijijCovuuEuu()[()][()]()VarUEUEUUEUEUU2nI(,)0ijjCovXu(5)解释变量X1,X2,…,Xk之间不存在精确的(完全的)线性关系,即rank(X)=k+1n观测值的数目要大于待估计的参数的个数(要有足够数量的数据来拟合回归线)。(6)随机误差项服从正态分布,即i=1,2,…,n2~(0,)iuN3.2.最小二乘法我们的多元线性回归模型是:t=1,2,…n问题是选择,使得残差平方和最小。残差为:kˆ,....,ˆ,ˆ10KtKtttttXXYYYeβˆ....βˆˆˆ110tktktttXXXYuβ...βββ22110要使残差平方和为最小,则应有:我们得到如下K+1个方程(即正规方程):21102βˆ...βˆˆKtKtttXXYeQ0ˆ...,,0ˆ,0ˆ10KQQQ按矩阵形式,上述方程组可表示为:tktKtKtktktttKttKtttttKttKtttKtKtYXXXXXYXXXXXXYXXXXXYXXn211022121201121110110β......ββ........................β......βββ......βββ......ββ=)'(XXβ'XY即YXXXYXXX1)(ˆ'ˆ)'(的最小二乘估计量由上式得到2112111.....................KttKtKtKttttKttXXXXXXXXXXnKβ...ββ10nKnKKnYYYXXXXXX.....................1...11212111211上述结果,亦可从矩阵表示的模型出发,完全用矩阵代数推导出来。残差可用矩阵表示为:其中:ˆˆXYYYeeeenˆ...21UXY残差平方和)()(YYYY)β()β(XYXY)β)(β(XYXYββββXXXYYXYYeeeSt2注意到上式中所有项都是标量,且故令用矩阵微分法,我们可得到与采用标量式推导所得结果相同。由上述结果,我们有β)ˆ(XYYXβββ2XXYXYYQ0β)(QYXXXβYXXX1)(β离差形式的最小二乘估计量多元线性回归模型的样本容量为n的样本观测值的均值为:得到多元线性回归模型的离差形式:01122kkYXXXu1122iiikkiiyxxxuuyxv其相应的矩阵表达形式为:得到其正规方程组:并得到的最小二乘估计量:ˆxxxy1ˆ()xxxy3随机误差项的方差的估计量的无偏估计量是这是因为我们在估计的过程中,失去了(K+1)个自由度。2020/4/3中山学院经济与管理系2122)1(ˆ22Kneikβ,...β,β103.3最小二乘估计量的特性1线性性2无偏性3最小方差性(有效性)高斯-马尔科夫(Gauss-Markov)定理:对于以及标准假设条件(1)-(5),普通最小二乘估计量是最佳线性无偏估计量(BLUE)2020/4/3中山学院经济与管理系22uβXY233.4可决系数一.可决系数对于一元线性回归模型我们有其中,=残差平方和2221YYeRi2ie01YXU24对于多元线性模型我们可用同样的方法定义可决系数:为方便计算,我们也可以用矩阵形式表示uXXYKK...110TSSESSTSSRSSRYYeRi112222或总离差平方和回归平方和2R25我们有:残差,其中,残差平方和:YYeeene...21βXY)()(2YYYYeeet)β()β(XYXY)β)(β(XYXYββββXXXYYXYYYXXXXXXYYXYY1)(ββββXYYYYXXYYXYYβββ26而将上述结果代入的公式,得到:2222YnYYYnYYY这就是决定系数的矩阵形式。2221YYeR222YYeYY22)ˆ(YnYYXYYYYnYY22ˆYnYYYnXY2R2R27二.修正决定系数:残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。由此可以推论,决定系数是一个与解释变量的个数有关的量:解释变量个数增加减小增大也就是说,人们总是可以通过增加模型中解释变量的方法来增大的值。因此,用来作为拟合优度的测度,不是十分令人满意的。为此,我们定义修正决定系数(Adjusted)如下:2R2e2R2R2R2R2R28是经过自由度调整的可决系数,称为修正可决系数。我们有:(1)(2)仅当K=0时,等号成立。即(3)当K增大时,二者的差异也随之增大。(4)可能出现负值。2R22RR22RR2R)1()1(1222nYYKneR22)1()1(1YYKnen1)1)(1(12KnRn2020/4/3中山学院经济与管理系29例1.设n=20,k=3,=0.70求。当n=10、n=5时,分别等于多少2R2R2R30解:下面改变n的值,看一看的值如何变化。我们有若n=10,则=0.55若n=5,则=-0.20由本例可看出,有可能为负值。这与不同()。644.0)420()70.01(191)1()1)(1(122knRnR2R102R2R2R2R2R3.5显著性检验与置信区间方程的F检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。1、方程显著性的F检验即检验模型Yi=0+1X1i+2X2i++kXki+ii=1,2,,n中的参数j是否显著不为0。可提出如下原假设与备择假设:H0:0=1=2==k=0H1:j不全为0根据数理统计学中的知识,在原假设H0成立的条件下,统计量服从自由度为(k,n-k-1)的F分布给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过FF(k,n-k-1)或FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。(1)RSSkFESSnk2020/4/3中山学院经济与管理系33F(k,n-k-1)2020/4/3中山学院经济与管理系34方差来源平方和自由度均方回归RSSkRSS/(k)误差ESSn-k-1ESS/(n-k-1)总离差TSSn-1YˆYˆyuˆuˆy2、t检验(变量的显著性检验)方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。这一检验是由对变量的t检验完成的。t检验1、设计原假设与备择假设:H1:i0H0:i=0i=1,2…k)2、构造t统计量:2ˆˆ(1)jjjttnkS2jS221ˆ()ˆ1niiijjujjyyCCnk其中:=(i=1,2…k)3、给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值。4、做出判断:通过|t|t/2(n-k-1)或|t|t/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。11ˆ22knkneiee2020/4/3中山学院经济与管理系38-t/2(n-k-1)t/2(n-k-1)2020/4/3中山学院经济与管理系39下表给出了三变量模型的回归的结果:方差来源平方和(SS)自由度(d.f.)平方和的均值(MSS)来自回归(RSS)65965来自残差(ESS)总离差(TSS)6604214回答以下问题:•1)样本容量是多少?2)求ESS?3)ESS与RSS的自由度各是多少?4)求R-square与AdjustedR-square?模型中的一些特殊解释变量2020/4/3中山学院经济与管理系40在很多情况下,人们用时间序列的观测时期所代表的时间作为模型的解释变量,用来表示被解释变量随时间推移的自发变化趋势。这种变量称为时间变量,也叫做趋势变量。一般用T来表示时间变量.一般取T=1,2,3,……,N时间变量可以单独作一元线性回归模型中的解释变量,也可以作多元线性回归模型中的一个解释变量,