1第二章多元线性回归§2.1基本概述一、回归的任务多元线性回归(MLR)(multiplelinearregression)是分析一个随机变量与多个变量之间线性关系的统计方法。回归(Regression)起源于19世纪生物学家F·高尔顿进行的遗传学研究。其核心是“普通最小平方法”(OrdinaryLeastSquares)OLS。多元回归将所研究的变量分为:确定自变量和因变量的关系是回归分析的主要任务:(1)根据实测数据求解某一模型的各个参数;(2)评价回归模型是否较好地拟合实例数据;(3)利用模型进行预测。需要注意的是:(1)因变量必须是间距测度等级以上的变量(有时也包含定性变量。见《应用回归分析》)(也称为连续变量)。自变量可以是任意等级的变量。(2)既使模型正确通过检验,也不能确定X、Y之间的因果关系,而只能确认存在着统计关系。[例]不同地区的人均食品支出与人均收入的关系(图2–1);汽车重量与每加仑燃料行驶英里值的关系;(图2–2)。“被解释变量”(或因变量dependentvariable)用Y表示“解释变量”(或自变量,independentvariable)。分别和X1,X2…表示.235003000250020001500人均收入12001000800600食品支出图2–15040302010MilesperGallon6000500040003000200010000VehicleWeight(lbs.)图2–2二、一元线性回归的回顾1.模型iiixY10(2.1)当获得n组样本观测值(x1,y1),(x2,y2),…(xn,yn)的数据时,如果符合2.1式,则有3niXYiii,,2,110(2.2)2.1式称为理论回归模型;2.2式称为样本回归模型。有时不加以区分地将两者称为一元线性回归模型。通过n组观测值,用OLS法对10,进行估计,得10ˆ,ˆ,则称iiXY10ˆˆˆ为Y关于X的一元线性方程。其中:1回归系数,说明X与Y之间的变化关系。2.普通最小二乘法估计的统计性质(OLSEEstimation)(1)残差:iiiYYeˆ,用来说明拟合效果,可以看作误差项εi的估计值。00iiiexe因为)(ˆˆXXYY,所以0)(ˆ)()ˆ(XXYYYYe但niie1||很麻烦,经常用2ie来说明。(2)min)ˆ(2YY(3)Yˆ的平均值等于Y的平均值YnYˆ1(4)X与e相互独立0))((1),(iiiieXXnexCov(5)Yˆ与e相互独立0))(ˆ(1),ˆ(iiieYYneYCov(6)直线通过n个散点的重心(YX,)点43.模型的假设条件(assumption)(1)高斯假设条件(C.F.Gauss)德国数学家①零均值性0)E(i;ni,2,1即在自变量取一定估计iX的条件下,其总体各误差项的条件平均值为0。②等方差性(为一常数)niii,,2,1,)Var()D(2③误差项之间相互独立,(即不相关)njijiji2,1,,;0),Cov(④误差项与自变量之间相互独立性。0),Cov(iiX上述假设称为标准古典假设条件。符合条件的回归模型称为普通线性回归模型(generallinearregressionmodel)。如果仅为点估计则由OLSE计算的Yˆ,ˆ,ˆ10分别是10,和Y的无偏估计量;如果需要进行区间估计,需要以下假设:(2)正态误差假定niNi,,2,1),0(~2同时,niXNYii,,2,1),(~2105另外,还可推出22222)ˆ(2)()(nYYEneESEie即22)(eSE是无偏估计量且)1(~)ˆ(222pnYY其中:eS:估计标准误差220ˆ)()(10XXXXnSSeY220)ˆ()()(1100XXXXnSSeYY其中:X0是给定值。则22)(10XXXnSSe2)(11XXSSe§2.2多元线性回归模型一、多元线性回归方程及其假设设模型为:6ippiXXXY22110将n组独立观察的样本数据),,,,(21ipiiixxxyni,,2,1代入方程:iippiiiexbxbxbby22110根据OLS,使min)(2ie。求p,,0的估计值pbb,,0,可得回归方程:ippiiixbxbxbby22110ˆ称为多元线性回归方程。上述模型用矩阵形式来表示,即:εxβy其中:121nnyyyy)1(21211211111pnnpppnnijxxxxxxxxx71)1(10ppβ121nnε根据上述假设即多元正态分布的性质可知,随机向量遵从n维正态分布。则有Xβy)E(,nIy2)var(因此:),N(~2nIxβy假定1:自变量是确定性变量,且x是一个n×(p+1)的矩阵。称x为回归设计矩阵或资料矩阵。矩阵x的秩rank(x)=p+1是一个满秩矩阵。即p+1≤n,表明自变量列之间不相关。假定2:随机误差项具有0均值和等方差。0)E(injijijiji,,2,1,0),Cov(2假定3:正态分布。),N(~2nI0ε8二、回归平面和回归系数的意义估计回归方程:ippiiixbxbxbby22110ˆ是一个超平面。例:以二元线性回归方程为例,如图2-3YX1X21为负值2为正值图2-3其中:pbbb,,,10分别称为超平面的回归系数。0b为截距;jb表示其他变量)(jixi固定时,jx每变化一个单位,iy的平均变化。9[例]由1991年我国分地区家庭年人均食品支出(Y)和年人均收入(X1)及粮食单价(X2)数据可得:2164.20635.038.87ˆxxYCoefficients(a)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-87.37862.452-1.399.173人均收入.354.039.7739.081.000粮食单价206.53875.212.2342.746.011aDependentVariable:食品支出表明:当价格固定时,收入每上升1元,食品支出上升0.35元;当人均收入固定时,价格每上升1元,食品支出上升206.54元。[例]用1998年世界若干国家的粗死亡率(Y)对其65岁以上人口占总人口的比例(x1)和人均国民生产总值(x2)做回归,得到:2100043.0152.0932.11ˆxxY即x1对Y有提高作用,x2对Y有降低作用。特别是当多项式模型(以二元为例)1021521322110XXXXXYX1变化一个单位,Y的平均变化为:25131)12(XX这种情况难以解释!3.多元回归模型的估计(1)回归系数的估计将ppxbxbxbby22110ˆ代入2)ˆ(YY中,分别对pbbbb,,,,210求偏导数,得到正规方程组。用矩阵表示如下:0xbyx)(移项得:yxxbx当xx存在时,即xx是一个非奇异矩阵,0xx,则有:yxxxb1)([例]一元方程时,已知:121nnyyyy221111nnxxxxnnxxx221111x则222221221111111xxxnxxxxxxnnnnxx11有伴随阵:nxxx2)(xx逆阵:nxxxxxnnxxx2221)(11)(xxxx2221XXXXXXxxSnSxnSxnSx12121221111xyyyyyxxxnnnnyx1221)(xxxxnSyxxynnSxyxxyyxxxb其中:niixxxxS12)((2)因变量的估计已知Xβy)E(有yxx)xx(xby1ˆ,令xxxx1)(H12nXXXXXXxxnxxxSnSxnSxnSxxxx2122111111111)(xxxx则yyxx)xx(xby1Hˆxxxx1)(H是n阶对称阵,形象地称为帽子矩阵。该矩阵的诸对角线元素记为iih(杠杆率)。杠杆率:观测第i个观测值离其余n-1个观测值的距离有多远。对一元回归来说,其杠杆率为:niiiiixxxxnh122)()(1三、方程的解释能力1.决定系数R2(coefficientofdetermination)(拟合优度)图2-413nYYYYSST222)(2)ˆ(YYSSR2)ˆ(YYSSE矩阵形式表示如下:J)Y(IYJYYYYnnSST11J)Y(HYJYYYXbnnSSR11H)Y(IYYXbYYeeSSE其中:I为n阶单位阵;J表示元素全为1的n阶方阵。可得:222)ˆ()ˆ()(YYYYYY如图2-4222)()ˆ(YYYYR说明:(1)R2——[0,1]之间;(2)是选择不同模型的标准;(3)R2=0,XY不存在相关关系!但是R2的数值大小并不表示模型选择是否正确。应再结合其它指标(工具)进一步判断。如:1973年安斯库姆(Anscombe)构造了四组数据如表:14第一组第二组第三组第四组xyxyxyxy45678910111213144.265.687.244.826.958.818.048.3310.847.589.9645678910111213143.104.746.137.268.148.779.149.269.138.748.1045678910111213145.395.736.086.446.777.117.467.818.1512.748.848888888888196.585.767.718.848.477.045.255.567.916.8912.5四组计算结果得:667.02RxY500.000.3ˆ如图2-5所示(a)(b)(c)(d)15图2-5在图2–5中,可以看出:(a)图是规范的回归;(b)图应通过变换可以得到更好的拟合;(c)图应剔除异常值(剔除后xY34.000.4ˆR2≈1)(d)图应进一步搜集数据(实际只有,8,19这二点)。2.调整的决定系数R2adj(Adjustedmultiplecoefficientofdetermination)当增加自变量个数时,SSE逐渐减少。R2则随之增长。即R2受自变量个数与样本规模之比(p:n)的影响。一般的常规是1:10以上为好;当这个比值小于1:5时,R2会倾向高估拟合优度。因此用R2adj代替R2。1)()ˆ(222nYYpYYRadj1)ˆ(1)ˆ(122nYYpnYY)1(1112Rpnn从公式中可以看出:p增加时,R2adj变得更小。当p接近n时,R2adjR2;当np时,R2adj≈